搜索_华为云

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
MindSpeed-LLM - AI开发平台ModelArts
MindSpeed-LLM - AI开发平台ModelArts

写，SFS Turbo方式“超参”框写入】 backend_config.training.data-path /home/ma-user/ws/xxx 已处理好数据路径目录，如有处理完成数据可设置此参数【Standard场景OBS方式“输入”框填写，SFS Turbo方式“超参”框写入】

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 训练服务配置说明 > 参数配置说明
Llama-Factory - 参数配置说明 - AI开发平台ModelArts

【必修改】【OBS方式“输入”框填写，SFS Turbo方式“超参”框填写】加载tokenizer与Hugging Face权重时，对应的存放绝对或相对路径。 adapter_name_or_path /home/ma-user/xxx/sft_lora/ 【OBS方式“输入”框填写，SFS Turbo方式“超参”框填写】

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902） > 训练服务配置说明 > 参数配置说明
advisor调优总体步骤 - AI开发平台ModelArts

存储profiling数据。多机场景如果没有挂载共享存储如SFS Turbo，需要将多机上的profiling复制至同一个目录下才能进行性能分析，这个操作相对较为繁琐且耗时。使用ModelArts时推荐挂载共享网盘如sfs turbo，既能加快训练数据的读取速度又能用于存放性能profi

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 迁移调优工具链 > 性能调优: MA-Advisor性能诊断
准备资源 - 准备工作 - AI开发平台ModelArts

步。通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
Standard推理部署 - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案端到端运维ModelArts Standard推理服务方案使用自定义引擎在ModelArts Standard创建模型使用大模型在ModelArts Standard创建模型部署在线服务第三方推理框架迁移到ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
自定义引擎创建模型规范 - AI开发平台ModelArts

息。部署服务并查看详情在模型详情页面，单击右上角“部署>在线服务”，进入服务部署页面，模型和版本默认选中，选择合适的“实例规格”（例如CPU：2核 8GB），其他参数可保持默认值，单击“下一步”，跳转至服务列表页，当服务状态变为“运行中”，服务部署成功。单击服务名称，进入服

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
内存不足如何处理？ - AI开发平台ModelArts

太小，无法满足应用部署，请增大内存规格。运行中服务告警中出现该提示，可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Llama-Factory - 参数配置说明 - AI开发平台ModelArts

ory/third-party/LLaMA-Factory/data 【必修改】【Standard场景OBS方式“输入”框填写，SFS Turbo方式“超参”框填写】 Llama-Factory代码包自带数据集：地址为:${INSTALL_DIR}/third-party/LLa

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 训练服务配置说明 > 参数配置说明
部署准备 - AI开发平台ModelArts
部署准备 - AI开发平台ModelArts

行指定。运行完后，会生成推理所需镜像。 Cluster提供两种部署推理服务的方式：基于K8s Deployment、基于Kubeinfer，这两种方式都属于在线推理。父主题： Cluster部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） > Cluster部署推理服务
准备资源 - 准备工作 - AI开发平台ModelArts

FS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 大模型&AIGC待下线案例 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - 准备工作 - AI开发平台ModelArts

FS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 大模型&AIGC待下线案例 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
查询推理VPC访问通道信息的API - AI开发平台ModelArts

参数类型描述 vpcep_service_id String VPC访问通道vpcep终端节点服务ID。 vpcep_service_name String VPC访问通道vpcep终端节点服务名称。 service_port Integer VPC访问通道的端口。状态码：401 表6

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
run_vllm_single_node.sh - AI开发平台ModelArts

API兼容的在线推理服务（通过vllm中的api_server模块）。 run_vllm_single_node.sh主要针对单节点启动在线推理服务。在Cluster部署准备章节会使用到。 source /home/ma-user/.bashrc export ASCEND_TURBO_TASK_QUEUE=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） > 附录
查询专属资源池列表 - AI开发平台ModelArts

4096, "allocatable_gpus" : 0.5 } ] } 状态码状态码描述 200 服务部署规格列表。错误码请参见错误码。父主题：服务管理

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
ModelArts支持云审计的关键操作 - AI开发平台ModelArts

deleteConvert 服务管理支持审计的关键操作列表表5 服务管理支持审计的关键操作列表操作名称资源类型事件名称部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用CTS审计ModelArts Standard服务
典型场景配置实践 - AI开发平台ModelArts

限使用Cloud Shell登录训练容器不允许子账号使用公共资源池创建作业委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限父主题： Standard权限管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

callbacks suppressed 问题现象弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
多模态模型推理请求测试 - AI开发平台ModelArts

if data.get('architectures')[0] == "InternVLChatModel": return [0, 92543, 92542] return None def post_img(args):

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） > 在线推理请求测试
使用ModelArts Studio（MaaS）的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

步骤二：部署模型服务模型创建成功后，在“我的模型”页面，单击目标模型右侧操作列的“部署”。在“部署模型服务”页面，完成创建配置。表3 部署模型服务参数说明取值样例服务设置服务名称自定义模型服务的名称。 service-1122 描述自定义部署模型服务的简介。 - 模型设置

 帮助中心 > AI开发平台ModelArts > 快速入门

总条数： 2000

上一页
1
...
14
15
16
...
100
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消