检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
filesystem NFS挂载的文件系统。 mount_point NFS的挂载点。 Diagnos cid GPU所在节点所属的CCE集群ID。 node_ip GPU所在节点的IP。 pool_id 物理专属池对应的资源池ID。
选择Operating System、Architecture、Distribution、Version、Installer Type后,会生成对应的安装命令,复制安装命令并运行即可。
表2 模型镜像版本 名称 版本 CANN cann_8.0.rc1 PyTorch pytorch_2.1.0 PyTorch_npu 2.1.0.post3-20240413 Step1 检查系统环境 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。
上传文件夹至OBS 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参考Session鉴权。 1 2 3 from modelarts.session import Session session = Session
SFT全参微调任务 前提条件 SFT全参微调使用的数据集为alpaca_data数据,已经完成数据处理,具体参见SFT全参微调数据处理。 原始的HuggingFace权重,已将原始的HuggingFace权重转换为Megatron格式,具体参见SFT全参微调权重转换 启动训练脚本
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
查找和收藏资产 AI Gallery共享了算法、Notebook代码样例、数据集、镜像、模型、Workflow等多种AI资产,为了方便快速搜索相关资产,提供了多种快速搜索方式以及收藏功能,提升资产的查找效率。 搜索资产 在各类资产模块页面,通过如下几种搜索方式可以提高资产的查找效率
确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。
原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题: AI应用管理
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object
预训练数据处理 训练前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 Alpaca数据处理说明 数据预处理脚本preprocess_data.py存放在代码包的“llm_train/AscendSpeed/ModelLink/tools”目录中,脚本样例命令及参数详解如下
无法导入模块 问题现象 ModelArts训练作业导入模块时日志报错: Traceback (most recent call last):File "project_dir/main.py", line 1, in <module>from module_dir import module_file
预训练数据处理 训练前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 这里以Qwen-14B为例,对于Qwen-7B和Qwen-72B,操作过程与Qwen-14B相同,只需修改对应参数即可。 Alpaca数据处理说明 数据预处理脚本preprocess_data.py
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object
run.sh脚本测试ModelArts训练整体流程 自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用
单条请求性能测试 针对openai的/v1/completions以及/v1/chat/completions两个非流式接口,请求体中可以添加可选参数"return_latency",默认为false,若指定该参数为true,则会在相应请求的返回体中返回字段"latency",返回内容如下
表42 Resource 参数 参数类型 描述 policy String 训练作业资源规格模式,可选值如下:“regular”、“economic”、“turbo”。 flavor_id String 训练作业选择的资源规格ID。
推理部署安全责任 提供商 底层ecs相关的系统补丁修复 k8s的版本更新和漏洞修复 虚拟机OS的版本生命周期维护 ModelArts推理平台自身的安全合规性 容器应用服务加固 模型运行环境的版本更新和漏洞定期修复 客户侧 资源的授权,访问控制 保证应用的供应链安全,依赖和自身的安全性