检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PyTorch NPU训练指导(6.5.905) 方案概述 支持的模型列表 版本说明和要求 准备工作 执行训练任务 训练结果输出 训练服务评测 训练服务配置说明 常见错误原因和解决方法 父主题: LLM大语言模型训练
准备工作 准备环境 准备代码、权重、数据 准备镜像 父主题: 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.905)
主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.905) 方案概述 支持的模型列表 版本说明和要求 准备工作 执行训练任务 训练结果输出 训练脚本说明参考 常见错误原因和解决方法 父主题: LLM大语言模型训练
各模型支持的最小卡数和序列长度 版本软件说明和要求 训练准备工作 执行训练任务 查看训练输出结果 日志采集与存储 配置监控告警(可选) 配置调优及故障恢复 训练服务配置说明 常见错误原因和解决方法 父主题: LLM大语言模型训练
训练准备工作 准备Lite Server环境 准备软件包、权重、训练数据集 准备镜像 父主题: 主流开源大模型基于ModelArts Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.906)
主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.911) 推理场景介绍 部署推理服务 推理性能测试 推理精度测试 推理模型量化 Eagle投机小模型训练 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 附录:大模型推理常见问题 父主题:
准备工作 准备环境 准备代码 准备镜像 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
准备工作 准备资源 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)
量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化 父主题: 推理关键特性使用
附录 各模型支持的最小卡数和最大序列 Ascend-vLLM推理常见问题 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
执行训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901) 场景介绍 准备工作 执行训练任务 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
执行训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
训练脚本说明 训练启动脚本说明和参数配置 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 mc2融合算子报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)