搜索_华为云

基于K8s Deployment单机部署推理服务 - AI开发平台ModelArts

是一个livenessProbe的配置样例，通过调用vllm的health API探测服务状态，容器启动后600秒进行第一次探测，每10秒探测一次，单次探测超时时间10秒，连续失败6次认为服务异常。 apiVersion: apps/v1 kind: Deployment spec:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） > Cluster部署推理服务
昇腾云服务6.5.901版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.5.901版本说明（推荐）本文档主要介绍昇腾云服务6.5.901版本配套的镜像地址、软件包获取方式和支持的特性能力。当前版本仅适用于华为公有云。配套的基础镜像芯片镜像地址获取方式镜像软件说明 Snt9B PyTorch2.1.0： swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 服务公告 > 版本发布说明
在ModelArts Studio（MaaS）预置服务中开通商用服务 - AI开发平台ModelArts

Studio（MaaS）预置服务中开通商用服务 MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务，支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。场景描述企业智能客服：企业希望利用推理API优化客服系统，实现智能问答、意图识别，提升客服效率与客户满意度。

帮助中心 > AI开发平台ModelArts > ModelArts Studio（MaaS）用户指南
准备数据、权重和代码 - ModelArts Standard - AI开发平台ModelArts

Standard弹性集群运行环境中存储分为OBS桶和SFS Turbo共享盘，根据存储的不同，数据上传地址有差异，客户根据实际选择。 OBS桶 SFS Turbo共享盘 OBS桶本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902） > 准备工作 > ModelArts Standard
准备数据、权重和代码 - ModelArts Standard - AI开发平台ModelArts

Standard弹性集群运行环境中存储分为OBS桶和SFS Turbo共享盘，根据存储的不同，数据上传地址有差异，客户根据实际选择。 OBS桶 SFS Turbo共享盘 OBS桶本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练 > 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.905） > 准备工作 > ModelArts Standard
性能调优: MA-Advisor性能诊断 - AI开发平台ModelArts

性能调优: MA-Advisor性能诊断 advisor调优总体步骤创建诊断任务创建调试训练作业并执行性能诊断任务查看诊断报告父主题：迁移调优工具链

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 迁移调优工具链
在推理生产环境中部署推理服务 - 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

数，更多详细参数解释请参见部署在线服务。图3 部署在线服务-专属资源池单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。 Step4 调用在线服务进入在线服务详情页面，选择“预测”。若以vllm接口启动服务，设置请求路径：“/generat

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 大模型&AIGC待下线案例 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
工具总览 - AI开发平台ModelArts
工具总览 - AI开发平台ModelArts

whl包，地址见教程中下载链接。 Tailor使用指导性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。包含在cann toolkit中。 msprof AOE 自动调优工具，提供子图调优和算子调优功能，在静

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 迁移调优工具链
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？在线服务将模型部署为一个Web服务，您可以通过管理控制台或者API接口访问在线服务。边缘服务云端服务是集中化的离终端设备较远，对于实时性要求高的计算需求，把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
查询服务列表 - 服务管理 - AI开发平台ModelArts

service_id String 服务ID。 service_name String 服务名称。 description String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String 服务归属用户。 publish_at

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
更新模型服务的单个属性 - AI开发平台ModelArts

更新模型服务的单个属性功能介绍更新模型服务的单个属性，目前只支持instance_count(更新模型服务实例数量)，仅运行中、告警、异常状态下的在线服务可以执行该操作。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard部署模型并推理预测
查询服务列表 - 服务管理 - AI开发平台ModelArts

service_id 否 String 服务ID，在创建服务时即可在返回体中获取，也可通过查询服务列表接口获取当前用户拥有的服务，其中service_id字段即为服务ID。默认不过滤服务ID。 service_name 否 String 服务名称，由用户创建时指定，默认不过滤服务名。 model_id

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在推理生产环境中部署推理服务 - 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

议设置为40分钟。此处仅介绍关键参数，更多详细参数解释请参见部署在线服务。图3 部署在线服务-专属资源池单击“下一步”，再单击“提交”，开始部署服务，待服务状态显示“正常”服务部署完成。注：若部署在线服务出现报错starting container process caused

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
推理服务精度评测 - 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902） - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES：表示支持多个模型服务实例，同时支持模型并行，如 0,1:2,3，以冒号切分，表示0卡和1卡跑一个模型服务实例，2卡和3卡跑一个模型服务实例。默认为0卡只跑一个模型服务实例。 QUANTIZATION：为量化选项，不传入默认为None

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）
推理服务精度评测 - 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905） - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES：表示支持多个模型服务实例，同时支持模型并行，如 0,1:2,3，以冒号切分，表示0卡和1卡跑一个模型服务实例，2卡和3卡跑一个模型服务实例。默认为0卡只跑一个模型服务实例。 QUANTIZATION：为量化选项，不传入默认为None

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型推理 > 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905）
将模型部署为批量推理服务 - AI开发平台ModelArts

耗时几分钟到几十分钟不等。批量服务部署完成后，将立即启动，运行过程中将按照您选择的资源按需计费。您可以前往批量服务列表，查看批量服务的基本情况。在批量服务列表中，刚部署的服务“状态”为“部署中”，当批量服务的“状态”变为“运行完成”时，表示服务部署完成。 Manifest文件规范

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard部署模型并推理预测
查看在线服务详情 - AI开发平台ModelArts

查看在线服务详情当模型部署为在线服务成功后，您可以进入“在线服务”页面，来查看服务详情。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署 > 在线服务”，进入“在线服务”管理页面。单击目标服务名称，进入服务详情页面。您可以查看服务的“名称”、“状态”等信息，详情说明请参见表1。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
修改在线服务配置 - AI开发平台ModelArts

修改在线服务配置对于已部署的服务，您可以修改服务的基本信息以匹配业务变化，更换模型的版本号，实现服务升级。您可以通过如下两种方式修改服务的基本信息：方式一：通过服务管理页面修改服务信息方式二：通过服务详情页面修改服务信息前提条件服务已部署成功，“部署中”的服务不支持修改服务信息进行升级。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署预测分析服务 - AI开发平台ModelArts

完成资源配置后，单击“继续运行”，在弹框中确认继续运行后，服务部署节点将继续运行，直至状态变为“运行成功”，至此，已将模型部署为在线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习预测

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析

总条数： 1972

上一页
1
...
5
6
7
...
99
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消