检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU推理指导(6.5.902) Ascend-vLLM介绍 支持的模型列表 版本说明和要求 准备推理环境 启动推理服务 Reasoning Outputs 推理服务精度评测 推理服务性能评测 附录 父主题: LLM大语言模型推理
部署依赖包 部署依赖包版本说明 安装KubeInfer 获取配套软件、基础镜像 父主题: 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导(6.5.905)
安装KubeInfer Cluster安装kubeinfer 父主题: 部署依赖包
在线推理请求测试 LLM推理请求测试 多模态模型推理请求测试 父主题: 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导(6.5.905)
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908)
购买并开通资源 购买Cluster专属集群 修改Cluster集群配置 父主题: 准备Cluster资源环境
准备、安装部署依赖 部署依赖包版本说明 检查环境 安装KubeInfer 获取权重文件 获取推理镜像 父主题: Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案
日志采集与转储 接入层日志采集与转储(可选) 推理层日志采集与转储 父主题: Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案
查看指标、配置告警 配置接入层监控告警(可选) 配置推理层监控告警 父主题: Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案
附录:推理部署样例脚本 run_vllm_sn.sh gen_single_node_deploy_kubeinfer_yaml_on_a3.py kubeinfer_yaml_tools.py health.py 父主题: Qwen3模型基于ModelArts Lite Clu
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.907)
调试与训练 本案例已日落,内容即将下线,替代案例请查看以下内容。 在ModelArts Standard上运行GPU训练作业的场景介绍 在ModelArts Standard运行GPU训练作业的准备工作 在ModelArts Standard上运行GPU单机单卡训练作业 在ModelArts
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
多机多卡 线下容器镜像构建及调试 上传数据至OBS(首次使用时需要) 上传算法至SFS 创建训练任务 父主题: 调试与训练
SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导(6.3.908) 训练场景和方案介绍 准备镜像环境 Finetune训练 LoRA训练 Controlnet训练 父主题: 图像生成模型训练推理
获取权重文件 准备FP8权重 准备W8A8权重 父主题: 准备、安装部署依赖
查看指标、配置告警 配置接入层监控告警(可选) 配置推理层监控告警 父主题: DeepSeek模型基于ModelArts Lite Cluster适配Snt9b23的PD分离推理解决方案
配置推理层监控告警 在CCE、AOM中查看指标并配置告警 在Prometheus查看vLLM业务指标 父主题: 查看指标、配置告警
权重量化补充说明 W8A8量化替换配置文件 MTP融合权重 首次加载权重较慢 父主题: DeepSeek模型基于ModelArts Lite Cluster适配Snt9b23的PD分离推理解决方案