检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
购买APIG实例并管理API 购买ELB和WAF并接入WAF 调用API 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
and Accurate Structured Pruning) 剪枝 FASP剪枝是一种结构化稀疏剪枝方法,能有效降低模型显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
模型来源不同。订阅模型,模型来源于AI Gallery;云服务订阅模型,模型来源于其他AI服务开发的模型。 订阅模型列表 在ModelArts的“模型管理>订阅模型”页面中,罗列了从AI Gallery订阅的所有模型。 订阅模型,可通过如下操作获得: “订阅模型”列表,单击“AI Gallery订阅模型”,跳转至“AI
接入层日志采集与转储(可选) 接入层日志包括ELB、WAF、APIG的日志,推荐转储至LTS。 配置ELB访问日志采集并转储至LTS。 配置WAF全量日志采集并转储至LTS。 配置APIG的API调用日志采集并转储至LTS。 父主题: 日志采集与转储
Volcano的安装与升级 安装Volcano 升级Volcano(可选) 父主题: 准备、安装部署依赖
推理层日志管理 推理层日志采集与转储 推理层日志定期清理 父主题: 日志采集与转储
在CES中查看指标并配置告警 表1 指标查看与告警配置建议 组件 关键指标 告警阈值 参考文档 Lite Server NPU使用率 连续2个周期原始值 > 95% 使用CES监控Lite Server单节点NPU资源 NPU显存使用率 连续2个周期原始值 > 98% NPU卡的健康状况 连续2个周期原始值
在Prometheus查看vLLM业务指标 支持的指标见vllm-0.6.3.post1-Metrics(目前使用的vllm版本是0.6.3.post1),可以调用vllm的指标API查看业务指标:http://${ip}:${port}/metrics。 在PD分离部署下,当前仅支持独立调用P或D实例获取指标。
kubeinfer kubectl edit kubeinfer ${kubeinfer_name} 或修改yaml配置,然后重新生效: vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
req -new -key server.key -out server.pem -subj "/C=CN/ST=ZJ/L=HZ/O=HW/OU=ModelArts/CN=server/" #使用CA证书签发server证书(10年有效期) openssl x509 -req -extfile
购买ELB和WAF并接入WAF 购买独享型ELB,参考通过IP类型后端添加云上相同VPC的服务器至ELB将APIG的私网IP作为ELB的后端服务器添加到ELB。 ELB需要与算力节点在同一个VPC网络下。 ELB的实例规格根据表2中推荐的ELB指标计算公式来设置。 如果ELB和A
数据上传成功后,页面会有提示信息。 此时AI Gallery会自动新建一个数据集,单击提示信息处的“查看”可以进入数据集详情页,也可以在“我的Gallery > 数据集 > 我创建的数据集”进入数据集详情页查看。 从AI Gallery中选 单击“从AI Gallery中选择”。 在弹窗中,从“我创建
发布和管理AI Gallery中的AI应用 发布本地AI应用到AI Gallery 将AI Gallery中的模型部署为AI应用 管理AI Gallery中的AI应用 父主题: AI Gallery(新版)
释放Lite Cluster资源 针对不再使用的Lite Cluster资源,可以释放资源,停止计费相关介绍请见停止计费。 删除资源池,会同步删除资源池中按需计费的关联资源,且删除操作无法恢复,请谨慎操作。资源池中的包周期节点需要单独退订或者释放。 删除Lite Cluster资源池,会同步
Cluster集群。通过本文档,您可以实现弹性云服务器访问公网的目的。 计费影响 Lite Cluster绑定弹性公网IP后,可能产生带宽费用,详情请见弹性公网IP计费说明。 前提条件 已完成Lite Cluster集群资源购买和开通,具体请参见Lite Cluster资源开通。
PD分离部署下图编译缓存使用操作 PD分离部署下硬件故障手动恢复机制 父主题: DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
deepspeed - 【可选】 ZeRO 的优化策略选择,可选择如下: ds_config_zero0.json ds_config_zero1.json ds_config_zero2.json ds_config_zero3.json ds_config_zero2_offload.json