检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
parser.add_argument("--docker-ip", type=str, required=True) parser.add_argument("--served-port", type=str, required=True) parser.add_argument("--text"
安装KubeInfer Cluster安装kubeinfer 父主题: 部署依赖包
https://huggingface.co/Qwen/Qwen3-Reranker-4B 40 Qwen3-Reranker-8B √ x x x x √ v0 https://huggingface.co/Qwen/Qwen3-Reranker-4B 41 bge-reranker-v2-m3 √ x x x x
网络配置 Server创建后,需要进行网络配置,才可使其与Internet通信,具体操作参考配置Lite Server网络章节。 若出现SSH无法登录的情况,请先确认网络安全组配置已正确,并放开对应IP的22端口。 父主题: 准备Server资源环境
U CANN plog、ray等日志。若不及时清理,这些日志将长期占用磁盘空间,可能导致磁盘满载,进而影响服务性能甚至导致进程崩溃。为保障系统的稳定运行与磁盘资源的合理利用,需要配置定期清理老化日志的机制。 定期清理老化日志配置如下: 从部署依赖版本包中获取日志清理脚本,该脚本会清理更新时间大于7天的日志文件。
的超节点名称。告警处理可以参考Lite Server支持的事件列表,根据处理建议进行处理。 图10 邮件告警通知样例 查询告警记录 可以通过API查询告警记录,具体可参考CES文档查询告警记录列表。 父主题: 监控Lite Server资源
推理服务启动参数:(以Qwen3-Reranker-0.6B为例) source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash python -m vllm.entrypoints.openai.api_server \ --model
修改deployment实例名称以及实例数: apiVersion: apps/v1 kind: Deployment metadata: name: infer-vllm labels: app: infer-vllm spec: replicas: 1
Integer 参数解释:当前页数。 取值范围:不涉及。 data Array of ServerImageResponse objects 参数解释:DevServer镜像列表。 pages Integer 参数解释:总的页数。 取值范围:不涉及。 size Integer 参数解释:每一页的数量。
结合当前购买的SFS盘性能规划业务, 建议不要运行到性能上限。 可以购买多个SFS Turbo实例分担业务压力, 或者更换高性能的SFS盘。 一个SFS实例容量建议不要太大,建议以同样的成本换成购买多个SFS实例。 父主题: Lite Server
U CANN plog、ray等日志。若不及时清理,这些日志将长期占用磁盘空间,可能导致磁盘满载,进而影响服务性能甚至导致进程崩溃。为保障系统的稳定运行与磁盘资源的合理利用,需要配置定期清理老化日志的机制。 定期清理老化日志配置如下: 从部署依赖版本包中获取日志清理脚本,该脚本会清理更新时间大于7天的日志文件。
安装KubeInfer 编辑kubeinfer-crd.yaml文件,将${image_name}替换为kubeInfer插件镜像。 swr.cn-east-4.myhuaweicloud.com/atelier/modelarts-infers-operator:1.5.1.20250808112402
infer-crd.yaml 执行成功后,可执行如下命令查看CRD是否注册。 kubectl get crds | grep infer 如下图所示,打印'kubeinfers.infer.modelarts.huaweicloud'和'instances.infer.modelarts
ray_worker_checker.py ray_worker_checker.py脚本用于等待Ray worker节点连接完成。 在run_vllm_multi_node.sh中会用到,无需修改。 import ray import sys import time def
DeepSeek&Qwen3基于Lite Server&Cluster推理 DeepSeek模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案 DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案 Qwen3模型基于ModelArts
Cluster节点池 节点管理操作请参见管理Lite Cluster节点 扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动操作请参见升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动操作请参见升级Lite
安装KubeInfer 编辑kubeinfer-crd.yaml文件,将${image_name}替换为kubeInfer插件镜像。 swr.cn-east-4.myhuaweicloud.com/atelier/modelarts-infers-operator:1.5.1.20250808112402
infer-crd.yaml 执行成功后,可执行如下命令查看CRD是否注册。 kubectl get crds | grep infer 如下图所示,打印'kubeinfers.infer.modelarts.huaweicloud'和'instances.infer.modelarts
管理AI Gallery中的AI应用 当AI应用创建完成后,支持修改内容,例如修改环境变量、可见范围。 约束限制 当AI应用的“可见范围”是“私密”时,才支持修改环境变量、可见范围或删除AI应用。 管理AI应用环境变量 AI应用支持增删改查环境变量,配置好的环境变量可以在运行文件中直接调用。
Update Server stopServer Update Server startServer Update Server rebootServer Delete Server deleteServer Read Server getServer Update Server syncServer