搜索_华为云

常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法训练中常见错误链接如下，根据实际情况选择相应链接：显存溢出错误网卡名称错误保存ckpt时超时报错 DockerFile或install.sh安装三方依赖包失败 Llama-Factory框架数据预处理过大数据集超时 Llama-Factory框架训练过程中训练至某一步卡死现象

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.906）
如何定位和处理Cluster资源池节点故障 - AI开发平台ModelArts

事件类型：选择系统事件。事件来源：选择ModelArts。监控对象：监控对象通过自定义属性进行筛选，格式为code=${故障码}。本示例中选择“code=A050804”事件，触发方式选择“立即触发”。图3 告警规则设置告警方式：选择“直接告警”。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
创建ModelArts数据选择任务 - AI开发平台ModelArts

其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 数据准备与处理 > 处理ModelArts数据集中的数据
查询服务详情 - AI开发平台ModelArts

查询服务详情查询当前服务对象的详细信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行服务详情查询 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
推理性能测试 - 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

推理性能测试本章节介绍如何进行推理性能测试，建议在Notebook的JupyterLab中另起一个Terminal，执行benchmark脚本进行性能测试。若需要在生产环境中进行推理性能测试，请通过调用接口的方式进行测试。约束限制创建在线服务时，每秒服务流量限制默认为100次

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
PD分离部署使用说明 - 分离部署 - AI开发平台ModelArts

宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
PD分离部署使用说明 - 分离部署 - AI开发平台ModelArts

宿主机和容器使用不同的大文件系统，dir为宿主机中文件目录，${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
安全配置最佳实践 - AI开发平台ModelArts

安全配置最佳实践场景说明安全性是华为云与您的共同责任。华为云负责云服务自身的安全，提供安全的云；作为租户，您需要合理使用云服务提供的安全能力对数据进行保护，安全地使用云。本文提供了ModelArts使用过程中的安全最佳实践，旨在为提高整体安全能力提供可操作的规范性指导。根据该指导文档您可以持续评估

 帮助中心 > AI开发平台ModelArts > 最佳实践
推理性能测试 - 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
场景介绍 - 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
创建ModelArts数据校验任务 - AI开发平台ModelArts

其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 数据准备与处理 > 处理ModelArts数据集中的数据
场景介绍 - 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
Standard专属资源池插件概述 - AI开发平台ModelArts

如遇到插件配置错误或资源不足所有实例均无法调度等情况，系统会在10分钟后将该插件置为“不可用”状态。运行中稳定状态插件正常运行状态，所有插件实例均正常部署，插件可正常使用。升级中中间状态插件正处于更新状态。不可用稳定状态不可用，表示插件状态异常，插件不可使用。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > ModelArts Standard资源管理 > 管理Standard专属资源池插件
附录：训练常见问题 - 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
准备镜像 - 准备工作 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
附录：训练常见问题 - 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901）
推理性能测试 - 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
Lite Cluster插件概述 - AI开发平台ModelArts

如遇到插件配置错误或资源不足所有实例均无法调度等情况，系统会在10分钟后将该插件置为“不可用”状态。运行中稳定状态插件正常运行状态，所有插件实例均正常部署，插件可正常使用。升级中中间状态插件正处于更新状态。不可用稳定状态不可用，表示插件状态异常，插件不可使用。

帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster插件管理
准备镜像 - 准备工作 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化

总条数： 1790

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消