检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts Standard环境 前提条件 已上传训练代码、训练权重文件和数据集到OBS或SFS Turbo共享盘中,具体参考OBS桶或SFS Turbo共享盘,根据实际选择所需存储方式。 步骤一:创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动
息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型和版本默认选中,选择合适的“实例规格”(例如CPU:2核 8GB),其他参数可保持默认值,单击“下一步”,跳转至服务列表页,当服务状态变为“运行中”,服务部署成功。 单击服务名称,进入服
计日志,确保数据安全。 SFS Turbo(弹性文件服务Turbo): 主要用于提供高性能的共享文件存储服务,允许多个训练节点同时访问同一份数据,从而加速训练过程,适合处理大量小文件和高并发访问,支持NFS和CIFS协议,与大多数应用程序和操作系统兼容。 表1 训练场景组合方式 场景序列
计日志,确保数据安全。 SFS Turbo(弹性文件服务Turbo): 主要用于提供高性能的共享文件存储服务,允许多个训练节点同时访问同一份数据,从而加速训练过程,适合处理大量小文件和高并发访问,支持NFS和CIFS协议,与大多数应用程序和操作系统兼容。 表1 训练场景组合方式 场景序列
限 使用Cloud Shell登录训练容器 不允许子账号使用公共资源池创建作业 委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
到flash attention算子耗时最长且降频比率最高,因此降频严重影响了整体的训练性能。对于降频问题,用户通常无法自行解决,需要联系服务方如华为云技术支持排查机器的温度和功耗。 图11 降频分析 AICPU Issues 下图展示了高优先级的AICPU问题,AICPU算子单
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为“
通过公网访问通道的方式访问在线服务 背景描述 ModelArts推理默认使用公网访问在线服务。在线服务部署成功后,将为用户提供一个可调用的API,此API为标准Restful API。您可以在服务详情页面,调用指南页签中查看API接口公网地址。 图1 API接口公网地址 约束限制
FS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其
FS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其
IEF节点边缘服务部署失败 问题现象 部署边缘服务时,出现“异常”状态。 原因分析1 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明。 处理方法1
导入模型后部署服务,提示磁盘不足 问题现象 用户在导入模型后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
ory/third-party/LLaMA-Factory/data 【必修改】【Standard场景OBS方式“输入”框填写,SFS Turbo方式“超参”框填写】 Llama-Factory代码包自带数据集:地址为:${INSTALL_DIR}/third-party/LLa
访问在线服务支持的访问通道 通过公网访问通道的方式访问在线服务 通过VPC访问通道的方式访问在线服务 通过VPC高速访问通道的方式访问在线服务 父主题: 将模型部署为实时推理作业
步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
“模型部署>批量服务”,进入批量服务管理页面。单击目标服务名称,进入服务详情页面。您可以单击页面右上角“停止”,停止正在运行中服务。 部署方式为ModelArts边缘节点和ModelArts边缘资源池的服务不支持停止。 删除服务 如果服务不再使用,您可以删除服务释放资源。 登录M
在“扩缩容”页面,根据业务需要增删模型服务的实例数,配置完成后,单击“确认”提交扩缩容任务。 在“扩缩容服务”对话框,单击“确定”。 在“我的服务”页签,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。 父主题: 在ModelArts Studio(MaaS)管理我的服务
更新”。 取消开通MCP服务 对于已开通但不再需要的MCP服务,您可以取消开通该服务。如果发布的应用已添加该MCP,则无法直接取消开通该服务。 在“MCP广场”页面,单击目标服务卡片,查看服务的详情,然后在右上角单击“取消开通”。 在“取消开通MCP服务”对话框,按需选择以下操作。
步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。
步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。