检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加达、非洲-约翰内斯堡、拉美-墨西哥城二、拉美-圣保罗一、拉美-圣地亚哥 部署为在线服务 批量服务 批量服务适用于处理大量数据推理、高效分布式计算场景。批量服务可对批量数据进行推理,完成数据处理后自动停止。 发布区域:华北-北京一、华北-北京四、华东-上海一、华南-广州、中国-香
nsorflow,训练使用的资源是GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像。 目标:构建安装如下软件的容器镜像,并在ModelArts平台上使用GPU规格资源运行训练作业。
参数设置”,按需配置相关参数,即可开始问答体验。操作指导请参见在MaaS体验模型服务。 表1 参数设置 参数 说明 温度/Temperature 设置推理温度。 数值较高,输出结果更加随机。 数值较低,输出结果更加集中和确定。 取值范围:0~2 默认值:1 核采样/top_p 设
update -y”,“yum update -y”命令是用于在Linux操作系统上更新软件包的命令。其中,选项-y表示在更新时自动确认所有提示信息,而不需要手动输入“y”确认。 请注意,使用此命令将会检查您系统中已安装的软件包并更新至最新版本。 图1 yum命令历史 查看NetworkManager配置:
Standard开发环境 软件开发的历史,就是一部降低开发者成本,提升开发体验的历史。在AI开发阶段,ModelArts也致力于提升AI开发体验,降低开发门槛。ModelArts Standard开发环境,以云原生的资源使用和开发工具链的集成,目标为不同类型AI开发、探索、教学用户,提供更好云化AI开发体验。
根据版本切分比例筛选数据集。例如:“0.0,1.0”,根据逗号分隔最小和最大切分比例,筛选出切分比例在此范围内的版本。说明:如果参数值为空或无该参数,系统默认不根据版本切分比例筛选数据集。 version_format 否 Integer 根据数据集发布的版本格式筛选数据集,过滤出包含符合筛选条件的数据集列表。可选值如下:
检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。
sampling parameters such as temperature, top_p, top_k etc. 在generation_config.json中没有将do_sample的值设置为true,与配置的temperature、top_p、top_k等采样参数矛盾。 将“generation_config
可以直接把SFS的目录直接挂载到调试节点的"/mnt/sfs_turbo"目录,或者保证对应目录的内容和SFS盘匹配。 调试时建议使用接近的方式,即:启动容器实例时使用"-v"参数来指定挂载某个宿主机目录到容器环境。 docker run -ti -d -v /mnt/sfs_turbo:/sfs my_deeplearning_image:v1
出于安全考虑,ModelArts会通过相关的认证鉴权机制避免在线服务被无关人员非法调用。所以在预测请求的header信息中包含的是调用者的身份信息,在body部分是需要进行预测的内容。 header的部分需要按照华为云的相关机制进行认证,body部分需要根据模型的要求如前处理脚本的要求,如自定义镜像的要求进行输入。
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
是否支持多卡训练(device_distributed_mode),对应值可选择支持(multiple)、不支持(singular); 是否支持分布式训练(host_distributed_mode),对应值可选择支持(multiple)、不支持(singular)。 value Array
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
} ], "description" : "Hyperparameter search using the tree-structured Parzen estimator algorithm." }, { "name" : "anneal_search",
"id": "88bd7bcd-0c91-45b2-ad0e-ef65553d19c5", "name": "dls-feature-engineering", "resource_categories": [ "CPU" ], "service_type":
其中firmware代表固件版本,software代表驱动版本。 如果机器上的版本不是所需的版本(例如需要换成社区最新调测版本),可以参考后续步骤进行操作。 查看机器操作系统版本,以及架构是aarch64还是x86_64,并从昇腾官网获取相关的固件驱动包。固件包名称为“Ascend-hdk-型号-npu-firmware_版本号
一个Token鉴权时,可以缓存起来,避免频繁调用。 AK/SK认证:使用AK/SK对请求进行签名,在请求时将签名信息添加到消息头,从而通过身份认证。AK/SK签名认证方式仅支持消息体大小12M以内,12M以上的请求请使用Token认证。 APP认证:在请求头部消息增加一个参数即可完成认证,认证方式简单,永久有效。
thread_affinity_mode = 2 return context def __call__(self, **kwargs): if not self.use_ascend: return self.onnx_runtime_model(**kwargs)
用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。如果需要修改卡死检测