检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Balancer类型的service。 注意:创建LoadBalancer类型的K8s service依赖于您的K8s所在的云平台,如果您是直接用开源K8s搭建的,可能无法直接使用云厂商提供的LB服务。 基于华为云CCE上创建LoadBalancer类型K8s service的步骤如下:
重置”按钮,可实现对多个节点的重置。 如图2,下发重置节点任务时需要填写以下参数。 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,可以设置同时被重置节点的最高比例。 按实例数量:
ListOptions{}) if err != nil { fmt.Printf("Failed to create watcher: %v\n", err) } defer watcher.Stop() termCh := make(chan
基于KubeInfer的推理部署 部署准备 PD分离部署推理服务 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: DeepSeek模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案
200 参数解释:删除DevServer超节点标签响应体。 400 Bad Request 401 Unauthorized 403 Forbidden 500 Server Internal Error 错误码 请参见错误码。 父主题: DevServer管理
网络配置 Server创建后,需要进行网络配置,才可使其与Internet通信,具体操作参考配置Lite Server网络章节。 若出现SSH无法登录的情况,请先确认网络安全组配置已正确,并放开对应IP的22端口。 父主题: 准备Server资源环境
Caching 投机推理 图模式 Chunked Prefill Structured Outputs Tool Calling Reasoning Outputs 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(New)
parser.add_argument("--docker-ip", type=str, required=True) parser.add_argument("--served-port", type=str, required=True) parser.add_argument("--text"
基于KubeInfer的推理部署 部署准备 单机部署推理服务 LoadBalancer类型K8s service创建(可选) 扩缩容推理服务(可选) 升级推理服务(可选) 父主题: Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
上传本地文件至JupyterLab Notebook的JupyterLab中提供了多种方式上传文件。 上传文件要求 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 对于大小超过100MB不超过50GB的文件可以使用OBS中转,系统先将文件上传OBS(
查询DevServer超节点标签 功能介绍 查询DevServer超节点标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id
200 参数解释:创建DevServer超节点标签响应体。 400 Bad Request 401 Unauthorized 403 Forbidden 500 Server Internal Error 错误码 请参见错误码。 父主题: DevServer管理
source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash python -m vllm.entrypoints.openai.api_server \ --model ${container_model_path} \ --max-num-seqs=256
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
容器中各进程的运行日志,包括vllm server相关的进程 容器路径:/home/ma-user/AscendCloud/logs 步骤1:登录容器, kubectl exec -it ${Pod名称} -- bash 步骤2:cd /home/ma-user/AscendCloud/logs
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 图4 创建SFS Turbo 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 图4 创建SFS Turbo 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS
KubeInfer部署方案介绍 图1 XP1D KubeInfer部署方案 KubeInfer是由ModelArts提供的一种K8s的CRD扩展插件,它通过定义instance概念,把合作干一件事的Pod统一在一个instance下,按组实现扩缩容、故障恢复、组内通信等的管理,同
升级KubeInfer(可选) 如果您需要回退到旧版本,也可以参照以下升级步骤进行操作。 编辑kubeinfer-crd.yaml文件,将${image_name}替换为表2中KubeInfer插件镜像地址。 执行如下命令升级KubeInfer,该命令会完成KubeInfer的滚动升级,对业务无影响。