检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
原生日志、K8s事件采集插件。log-agent插件支持将集群中训练、推理实例的容器标准输出日志采集到lts中。 日志采集可靠性说明 日志系统的核心功能在于记录业务组件的全生命周期状态数据(包括启动初始化、退出、运行时信息及异常事件等),主要服务于组件运行状态查看与故障根因分析等运维场景。
场景一:环境预检测失败、硬件检测出现故障,系统隔离所有故障节点并重新下发训练作业。 图1 预检失败&硬件故障 场景二:环境预检测失败、硬件无故障,系统随机再分配节点并重新下发训练作业。 图2 预检失败&硬件正常 场景三:环境预检测成功并进入用户业务阶段,硬件检测出现故障并且用户业务非正常退出,系统隔离所有故障节点并重新下发训练作业。
使用MoXing复制数据报错 问题现象 调用moxing.file.copy_parallel()将文件从开发环境的OBS桶中复制到其他OBS桶里,但是桶内没有出现目标文件。 使用MoXing复制数据不成功,出现报错。如: ModelArts开发环境使用MoXing复制OBS数据报错:keyError:
如何在ModelArts训练作业中加载部分训练好的参数? 在训练作业时,需要从预训练的模型中加载部分参数,初始化当前模型。请您通过如下方式加载: 通过如下代码,您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import
卡死检测的规则请参见训练作业卡死检测。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 约束限制 为了避免无效重启训练作业,造成算力资源浪费,作业卡死重启最多支持连续重启3次。
部署在线服务 部署在线服务包括: 已部署为在线服务的初始化。 部署在线服务predictor。 部署批量服务transformer。 部署服务返回服务对象Predictor,其属性包括服务管理章节下的所有功能。 示例代码 在ModelArts notebook平台,Session
与其他云服务的关系 图1 ModelArts与其他服务的关系示意图 与统一身份认证服务的关系 ModelArts使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证功能。IAM的更多信息请参见《统一身份认证服务产品文档》。 与对象存储服务的关系
镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗? 不会,反而会变大。因为Docker镜像的层原因,当前的镜像是基于原来的镜像制作,而原来的镜像层数是无法改变的,层不变的情况下,大小是不变的,卸载包或者删除数据集,会新增镜像层,镜像反而会变大,这和传统概念的存储不一样。 父主题:
ModelArts与其他服务的关系 图1 ModelArts与其他服务的关系示意图 与统一身份认证服务的关系 ModelArts使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证功能。IAM的更多信息请参见《统一身份认证服务用户指南》。
使用ModelArts Studio(MaaS) DeepSeek API搭建AI应用 您可以使用MaaS DeepSeek API搭配Dify、Cherry Studio等实现AI相关应用。 Dify:使用MaaS(大模型即服务平台)的免费Token额度的满血版DeepSeek-R1
用户名密码认证模式 本模式支持OBS管理、训练管理、模型管理、服务管理的鉴权。 示例代码 账号与用户的概念介绍,请参见IAM基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 使用账号认证 “username”填写您的账号名。 1 2 from
在ModelArts的Notebook中安装远端插件时不稳定要怎么办? 方法一:离线包安装方式(推荐) 到VS Code插件官网vscode_marketplace搜索待安装的Python插件,Python插件路径。 单击进入Python插件的Version History页签后,下载该插件的离线安装包,如图所示。
在线服务预测报错MR.0105 问题现象 部署为在线服务,服务处于运行中状态,预测时报错:{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。 图1 预测报错 原因分析 请在“在线服务”详情页面
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env
在ModelArts Studio(MaaS)创建训练任务,显示创建失败 问题现象 创建训练任务时,选择Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K或者Qwen2-VL-7B模型,创建训练任务失败。 关键日志报错(出现以下任意报错):
Notebook提示磁盘空间已满 问题现象 在使用Notebook时,提示磁盘空间已满:No Space left on Device。 在Notebook执行代码时,出现如下报错,提示:Disk quota exceeded。 原因分析 在JupyterLab浏览器左侧导航删除
命令的最后一条命令是运行训练脚本。 原因:系统会将输入管道、输出管道、以及超参添加到启动命令的末尾,如果最后一条命令不是运行训练脚本则会报错。 例如:启动命令的最后一条是python train.py,且存在--data_url超参,系统正常运行会执行python train.py
本次批量服务中,输出数据的OBS路径。 模型名称&版本 本次批量服务所使用的模型名称及版本。 运行日志输出 默认关闭,批量服务的运行日志仅存放在ModelArts日志系统。 启用运行日志输出后,批量服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解L
DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSMultiTurnHandler, AlpacaStyleInstructionHandler, SharegptStyleInstructionHandler]