检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
f"ERROR: Failed to read npu_status.yaml: {e}") return False return True def check_vllm_health(save_path, probe): global_rank_table_path
启动或停止Lite Server服务器 同步Lite Server服务器状态 切换或重置Lite Server服务器操作系统 制作Lite Server服务器操作系统 Lite Server资源热备管理 修改Lite Server服务器名称 授权修复Lite Server节点 释放Lite
0.0及以后的版本的MCU、驱动和固件,预置操作系统已经默认安装,如果是自定义操作系统,也需确保该软件正常安装。 压测任务依赖开发套件包Ascend-docker-runtime,预置操作系统已经默认安装该软件,如果是自定义操作系统,也需确保该软件正常安装。 操作步骤 登录ModelArts管理控制台。
或重部署节点。 表1 事件操作执行条件 事件类型 事件状态 可执行的操作 适用的资源类型 说明 系统维护 待授权 授权、重部署 Snt9b 系统维护是授权华为技术支持对故障节点进行系统性维护。 本地盘恢复 待授权 授权、重部署 Snt9b 本地盘恢复是授权华为技术支持对故障的本地盘进行维护。
DevServer权限 表1 DevServer细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建DevServer实例 POST /v1/{project_id}/dev-servers modelarts:devserver:create e
return_dict: Optional[bool] = None, ) return_dict = return_dict if return_dict is not None else self.config.use_return_dict
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS
global_rank_table = json.load(f) # 获取指定group_id的第一个ip return global_rank_table["server_group_list"][group_id]["server_list"][0]["server_ip"]
ModelArts Standard环境 前提条件 已上传训练代码、训练权重文件和数据集到OBS或SFS Turbo共享盘中,具体参考OBS桶或SFS Turbo共享盘,根据实际选择所需存储方式。 步骤一:创建训练任务 登录ModelArts管理控制台,在左侧导航栏选择“模型训练
MTP融合权重 开启MTP特性,--model 指定融合权重路径。 需要修改W8A8量化替换配置文件两个字段。 "architectures": [ "DeepseekV3Fusion" # DeepseekV3ForCausalLM修改为DeepseekV3Fusion
b23-with-24.1.rc3.7-7.5.0.107.221-CANN8.0.RC3.20 表1 镜像详情 软件类型 版本详情 操作系统 HCE2.0 内核版本 5.10.0-182.0.0.95.r1941_123.hce2.aarch64 架构类型 aarch64 固件版本
ROOT_PATH = os.getenv('ROOT_PATH') //获取服务根路径 def greet(name): return "Hello " + name + "!" with gr.Blocks() as demo: name = gr.Textbox(label="Name")
如果界面无可选规格,请联系华为云技术支持申请开通。 系统盘 系统盘和规格有关,选择支持挂载的实例规格才会显示此参数。 系统盘用于存储服务器的操作系统,创建Lite Server时自带系统盘,且系统盘自动初始化。 此处支持选择系统盘的类型,并设置大小。系统盘大小取值范围在100GiB和1024GiB之间。
'{"messages":[{"role":"user","content":"请讲一个笑话"}],"model":"deepseek","temperature":0.6,"max_tokens":1024}' -X POST http://${ip}:${port}/v1/chat/completions
Server提供启动、停止、切换操作系统等管理手段,您可在ModelArts控制台上对资源进行管理。 表1 相关名词解释 名词 含义 裸金属服务器 裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。
获取模型推理的Profiling数据 Profiling数据是程序运行过程中收集到的系统资源(如CPU、内存、磁盘 I/O等)的使用情况、程序的运行时间、函数的调用频率等数据,以发现系统性能瓶颈,优化程序代码和系统配置。 目前支持两种获取Profiling数据的方法,分别是通过LLM对象的
单击待改名的节点名称,进入节点详情页,单击节点名称右侧的修改。 图1 修改节点名称 针对超节点下面的子节点,也支持在超节点详情页中的子节点列表,修改服务器名称。修改成功后,系统会显示修改后的名称。 父主题: Lite Server资源管理
REBOOT_FAILED: 重启失败 CHANGINGOS: 切换操作系统中 CHANGINGOS_FAILED: 切换操作系统失败 REINSTALLINGOS: 重装操作系统中 REINSTALLINGOS_FAILED: 重装操作系统失败 vpc_id String 参数解释:实例所在虚拟私有云ID。
REBOOT_FAILED: 重启失败 CHANGINGOS: 切换操作系统中 CHANGINGOS_FAILED: 切换操作系统失败 REINSTALLINGOS: 重装操作系统中 REINSTALLINGOS_FAILED: 重装操作系统失败 vpc_id String 参数解释:实例所在虚拟私有云ID。