检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
载卡数。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统,work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。
获取模型推理的Profiling数据 Profiling数据是程序运行过程中收集到的系统资源(如CPU、内存、磁盘 I/O等)的使用情况、程序的运行时间、函数的调用频率等数据,以发现系统性能瓶颈,优化程序代码和系统配置。 目前支持两种获取Profiling数据的方法,分别是通过LLM对象的
-r 1”命令延迟1分钟重启。 存储配置 开启存储配置开关,支持以下设置: 系统盘:显示系统盘的磁盘类型和大小。系统盘的磁盘类型支持本地盘和云硬盘(包括通用SSO、高IO和超高IO)。部分规格的系统盘仅支持本地盘。 容器盘:显示容器盘的存储类型、大小和数量。部分规格的容器盘存储
sh主要针对单节点启动在线推理服务。在Cluster部署准备章节会使用到。 source /home/ma-user/.bashrc export ASCEND_TURBO_TASK_QUEUE=0 export CPU_AFFINITY_CONF=1 export VLLM_USE_V1=0 export
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“资源管理 > 轻量算力节点 (Lite
配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境 父主题: Lite Server资源配置
# 托管仓库相关配置 repo_url=https://{ModelArts-Endpoint}.myhuaweicloud.com # 系统相关配置 cached_dir=/test # 加解密配置 sdk_encrypt_implementation_func=/path/to/crypt
共需要采集6类日志:用户训练打屏日志,主机侧操作系统日志(Host日志), Device侧日志,CANN日志,主机侧资源信息,NPU网口资源信息。 用户训练打屏日志:指在训练过程中,通过设置环境变量将日志信息输出到标准输出(屏幕)的日志。 机侧操作系统日志(Host日志):指在训练作业运行过程中,HOST侧用户进程产生的日志。
t3P为板卡功耗) 瓦特(W) >0 NA NA NA AI处理器温度 ma_container_npu_ai_core_temperature_celsius 昇腾系列AI处理器温度 摄氏度(℃) 自然数 NA NA NA AI处理器AI CORE利用率 ma_container_npu_ai_core_util
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel
Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制 需要在ModelArts
Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系
LLM/AIGC/数字人基于Server适配NPU的训练推理指导 ModelArts提供了丰富的关于Server使用NPU进行训练推理的案例指导,涵盖了LLM大语言模型、AIGC文生图、数字人等主流应用场景。您可单击链接,即可跳转至相应文档查看详细指导。 LLM大语言模型 主流开
启动或停止Lite Server服务器 当您暂时不需要使用Lite Server的时候,可以停止运行中的Server实例,停止对资源的消耗。当需要使用的时候,对于停止状态的Lite Server,可以通过启动操作重新使用。 登录ModelArts管理控制台。 在左侧菜单栏中选择“资源管理
# For CogVideoX-2B Turn to False and For CogVideoX-5B Turn to True fp16: enabled: True # For CogVideoX-2B Turn to True and For CogVideoX-5B
很久,却是随着Docker的出现而变得广为人知。Docker是第一个使容器能在不同机器之间移植的系统。它不仅简化了打包应用的流程,也简化了打包应用的库和依赖,甚至整个操作系统的文件系统能被打包成一个简单的可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 Kubernetes
cd /mnt/deepseek/scripts chmod 750 *.sh 需要保证每个节点的相关目录均存在,且内容一致。在使用SFS Turbo存储时,需要每个节点使用相同的配置挂载;使用EVS存储或算力节点本地存储时,需要每个节点单独上传文件。 步骤三:制作推理镜像 解压As
initialDelaySeconds: 600 # 容器启动后,开始探测vllm服务的时长,需要根据sfs_turbo读取速度调整 periodSeconds: 10 timeoutSeconds: 10
Snt9B23或Ascend Snt9B开展Senna模型的训练过程。 Senna是一种结合了大型视觉语言系统(Senna-VLM)和端到端模型(Senna-E2E)的自动驾驶系统。端到端模型虽然有着强大的规划能力,但是在面对复杂场景的规划表现不佳,大型视觉-语言模型(LVLM)在场