检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
训练中的权重转换说明 以 llama2-13b 举例,运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行 scripts/llama2/2_convert_mg_hf
支持的模型列表 表1 支持的大语言模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化 是否支持W8A8量化 是否支持W8A16量化 是否支持 kv-cache-int8量化 开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface
分离部署 PD分离部署使用说明 PD分离部署性能调优理论基础 PD分离部署手动配比调优(推荐) PD分离部署自动配比调优 PD分离性能调优工具使用说明 父主题: 推理关键特性使用
投机推理 投机推理使用说明 Eagle投机小模型训练 父主题: 推理关键特性使用
支持的模型列表 本文档中基于Ascend-vLLM框架支持的推理模型列表如表1 支持的大语言模型列表和表2 支持的多模态模型列表所示,各模型支持的最小卡数和最大序列请参见各模型支持的最小卡数和最大序列章节。 表1 支持的大语言模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置。
训练性能测试 流程图 训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,卡数及其它配置参考NPU卡数取值表按自己实际情况决定。 单机<可选>: # 默认8卡 benchmark-cli train
训练性能测试 流程图 训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行性能比较脚本 完成benchmark启动任务。 进入test-benchmark目录执行命令。 ascendfactory-cli performance <cfgs_yaml_file> --baseline
执行训练任务 ModelArts Lite Server环境 ModelArts Standard环境 父主题: 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.902)
执行训练任务 ModelArts Lite Server环境 ModelArts Standard环境 父主题: 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.905)
训练服务配置说明 参数配置说明 tokenizer文件修改 数据说明 模型最小卡数配置 VeRL数据处理样例脚本 父主题: 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.905)
训练场景和方案介绍 Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训
量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化 父主题: 推理关键特性使用
推理服务性能评测 语言模型推理性能测试 多模态模型推理性能测试 获取模型推理的Profiling数据 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.901)
支持的模型列表 表1 支持的大语言模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理 是否支持W4A16量化 是否支持W8A8量化 是否支持W8A16量化 是否支持 kv-cache-int8量化 开源权重获取地址 1 llama-7b √ √ √ √ √ https://huggingface
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置。
支持的模型列表 模型列表分为表1 大语言模型列表和表2 多模态模型列表,详细如下。 表1 支持的大语言模型列表和权重获取地址 模型参数量 是否适配MindSpeed-LLM 是否适配Llama-Factory 开源权重文件获取地址 llama3.1-8b √ √ https://huggingface
准备镜像 镜像可分为使用基础镜像、DockerFile制作后的训练镜像(二选一),使用Dockerfile制作后的训练镜像比使用基础镜像多了步骤:DockerFile制作训练镜像。 详细步骤 创建镜像组织:在SWR服务页面创建镜像组织。 图1 创建镜像组织 登录ECS服务器: 根据2