搜索_华为云

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
推理性能测试 - AI开发平台ModelArts

推理性能测试本章节介绍如何进行推理性能测试，建议在Notebook的JupyterLab中另起一个Terminal，执行benchmark脚本进行性能测试。如果需要在生产环境中进行推理性能测试，请通过调用接口的方式进行测试。约束限制创建在线服务时，每秒服务流量限制默认为100

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
更新服务配置 - AI开发平台ModelArts

更新服务配置更新当前服务对象配置。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数；其它平台的Session鉴权请参考Session鉴权。方式1：根据部署在线服务生成的服务对象进行更新服务配置 1 2 3 4 5 6 7

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐）相对于之前demo.sh方式启动（历史版本）的启动方式，本章节新增了通过benchmark工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果，免于计算，方便用户验证发布模型的质量。并且新的训练方式将统一管理训练日志

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
推理性能测试 - AI开发平台ModelArts

推理性能测试本章节介绍如何进行推理性能测试，建议在Notebook的JupyterLab中另起一个Terminal，执行benchmark脚本进行性能测试。如果需要在生产环境中进行推理性能测试，请通过调用接口的方式进行测试。约束限制创建在线服务时，每秒服务流量限制默认为100

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明本小节主要详细描述demo_yaml配置文件、配置参数说明，用户可根据实际自行选择其需要的参数。表1 模型训练脚本参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/model/Qwen2-72B 必须修改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
创建数据集 - AI开发平台ModelArts

创建数据集创建数据集，支持从OBS中导入数据。 create_dataset(session, dataset_name=None, data_type=None, data_sources=None, work_path=None, dataset_type=None, **kwargs

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
创建ModelArts人工标注作业 - AI开发平台ModelArts

标注作业创建完成后，系统自动跳转至数据标注管理页面，针对创建好的标注作业，您可以执行智能标注、发布、修改和删除等操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
从Manifest文件导入规范说明 - AI开发平台ModelArts

为了ModelArts系统内部使用方便，ModelArts数据标注功能生成的文件名由如下字符串组成：“DatasetName-VersionName.manifest”。例如，“animal-v201901231130304123.manifest”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
支持的模型列表 - AI开发平台ModelArts

支持的模型列表表1 支持的大语言模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √ √ https

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）
推理场景介绍 - AI开发平台ModelArts

推理场景介绍方案概览本方案介绍了在ModelArts的Lite k8s Cluster上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）

总条数： 1543

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

从Manifest文件导入规范说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

支持的模型列表 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线