搜索_华为云

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
数据说明 - 训练服务配置说明 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902） > 训练服务配置说明
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为“

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

{image_version} 上传镜像完成后，返回容器镜像服务控制台，在“我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments 问题现象使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments... 图1 在线服务报错原因分析根据报错日志分析，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
产品公告 - AI开发平台ModelArts
产品公告 - AI开发平台ModelArts

本文介绍了AI开发平台ModelArts服务生命周期类产品公告，更多类型的服务公告请参考服务公告。 2025年6月表1 产品公告序号公告标题公告类型发布时间 1 华为云华东二、贵阳一局点ModelArts Studio（MaaS）大模型即服务平台-模型体验服务于2025年6月30日-7月30日升级通知

 帮助中心 > AI开发平台ModelArts > 服务公告
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
将数据预热到SFS Turbo - AI开发平台ModelArts

将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中，数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。在ECS服务器挂载SFS Turbo已经将SFS Turbo挂载到了

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
时序预测-time_series_v2算法部署在线服务预测报错 - AI开发平台ModelArts

时序预测-time_series_v2算法部署在线服务预测报错问题现象在线服务预测报错：ERROR: data is shorter than windows。原因分析该报错说明预测使用的数据行数小于window超参值。在使用订阅算法时序预测-time_series_v

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。模型健康检查配置问题，需重新创建模型或者创建模型新版本，配置正确的健康检查，使用新的模型或版本重新部署服务。了解模型健康检查请参考制作模型镜像并导入中的“健康检查”参数说明。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
数据说明 - 训练服务配置说明 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 训练服务配置说明
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
获取模型推理的Profiling数据 - 推理服务性能评测 - AI开发平台ModelArts

获取模型推理的Profiling数据 Profiling数据是程序运行过程中收集到的系统资源（如CPU、内存、磁盘 I/O等）的使用情况、程序的运行时间、函数的调用频率等数据，以发现系统性能瓶颈，优化程序代码和系统配置。目前支持两种获取Profiling数据的方法，分别是通过LLM对象的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902） > 推理服务性能评测
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？ - AI开发平台ModelArts

在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议？系统默认使用https。如果您想使用http，可以采取以下两种方式：方式一：在部署边缘服务时添加如下环境变量： MODELARTS_SSL_ENABLED = false 图1 添加环境变量方式二：在

 帮助中心 > AI开发平台ModelArts > 常见问题 > Edge
获取模型推理的Profiling数据 - 推理服务性能评测 - AI开发平台ModelArts

获取模型推理的Profiling数据 Profiling数据是程序运行过程中收集到的系统资源（如CPU、内存、磁盘 I/O等）的使用情况、程序的运行时间、函数的调用频率等数据，以发现系统性能瓶颈，优化程序代码和系统配置。目前支持两种获取Profiling数据的方法，分别是通过LLM对象的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务性能评测
在ModelArts Studio（MaaS）配置模型服务接口地址时需要注意什么格式问题？ - AI开发平台ModelArts

单击“调用说明”。使用商用服务：单击“商用服务”页签，在已开通商用服务右侧的操作列，单击“调用说明”。在“调用说明”页面，获取调用该服务所需要的模型服务接口地址。方式二：使用我的服务。在ModelArts Studio（MaaS）控制台左侧导航栏，单击“在线推理”。在“在线推理”页面，单击“我的服务”页签。

帮助中心 > AI开发平台ModelArts > 常见问题 > ModelArts Studio（MaaS）
如果模型服务的RPM数值为300，可以1秒直接发送300个请求吗？ - AI开发平台ModelArts

如果模型服务的RPM数值为300，可以1秒直接发送300个请求吗？不可以。如果模型服务的RPM（每分钟请求数）为300，意味着每秒最多可以处理5个请求（300/60=5）。因此，1秒内发送300个请求会远远超出服务的处理能力，导致请求失败。建议您均匀地发送API请求，避免短时

 帮助中心 > AI开发平台ModelArts > 常见问题 > ModelArts Studio（MaaS）

总条数： 1979

上一页
1
...
10
11
12
...
99
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消