检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
接入层日志采集与转储(可选) 接入层日志包括ELB、WAF、APIG的日志,推荐转储至LTS。 配置ELB访问日志采集并转储至LTS。 配置WAF全量日志采集并转储至LTS。 配置APIG的API调用日志采集并转储至LTS。 父主题: 日志采集与转储
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
preprocess(example, tokenizer): return { "text": tokenizer.apply_chat_template( [{"role": "user", "content": example["text"]}]
购买APIG实例并管理API 购买ELB和WAF并接入WAF 调用API 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
json格式的数据,内容包括可以多轮对话、指令问答。例如以下样例: { "conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>:
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
购买并开通资源 购买Cluster专属集群 修改Cluster集群配置 父主题: 准备Cluster资源环境
preprocess_data.handler-name GeneralPretrainHandler GeneralInstructionHandler MOSSInstructionHandler AlpacaStyleInstructionHandler SharegptStyleInstructionHandler
/Qwen3-Coder-480B-A35B-Instruct 平衡性能与资源消耗,在 MMLU(通用知识)、C-Eval(中文评测)上表现优秀。 Qwen3-Coder-480B-A35B-Instruct tool_parser: qwen3_coder Qwen3-32B/
中需要有三个列名称:conversation_id, Human, assistant conversation_id: 指定的对话id, 如果相同, 转换后就放在同一conversation_id的不同turn_X下。如果为空,则放在新的conversation_id下。 Human:
准备、安装部署依赖 部署依赖包版本说明 获取权重文件 获取推理镜像 检查环境 安装KubeInfer 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
日志采集与转储 接入层日志采集与转储(可选) 推理层日志管理 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
W8A8量化替换配置文件 - config.json MTP融合权重 首次加载权重较慢 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
Cluster部署推理服务 部署准备 基于K8s Deployment单机部署推理服务 基于KubeInfer多机部署推理服务 父主题: 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导(6.5.905)
部署kubeinfer插件脚本 kubeinfer-crd.yaml文件用于部署KubeInfer插件,默认部署2个实例。 在Cluster安装kubeinfer时,会使用到该脚本。 apiVersion: apps/v1 kind: Deployment metadata:
Qwen3模型基于ModelArts Lite Cluster适配NPU的混部推理解决方案 流程与约束 方案规划 资源规划 准备Cluster资源环境 准备、安装部署依赖 基于KubeInfer的推理部署 接入层部署(可选) 日志采集与转储 查看指标、配置告警 常见运维操作指导 父主题:
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
json格式的数据,内容包括可以多轮对话、指令问答。例如以下样例: { "conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>:
在CES中查看指标并配置告警 表1 指标查看与告警配置建议 组件 关键指标 告警阈值 参考文档 Lite Server NPU使用率 连续2个周期原始值 > 95% 使用CES监控Lite Server单节点NPU资源 NPU显存使用率 连续2个周期原始值 > 98% NPU卡的健康状况 连续2个周期原始值