检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置接入层监控告警(可选) CES服务可监控接入层中的EIP、ELB、WAF、APIG指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。 表1 接入层组件告警配置 组件 关键指标项 告警阈值 触发次数 参考文档 EIP 出网带宽使用率 原始值 > 80.00% 连续3次触发告警
配置接入层监控告警(可选) CES服务可监控接入层中的EIP、ELB、WAF、APIG指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。 表1 接入层组件告警配置 组件 关键指标项 告警阈值 触发次数 参考文档 EIP 出网带宽使用率 原始值 > 80.00% 连续3次触发告警
支持将集群中训练、推理实例的容器标准输出日志采集到lts中。 日志采集可靠性说明 日志系统的核心功能在于记录业务组件的全生命周期状态数据(包括启动初始化、退出、运行时信息及异常事件等),主要服务于组件运行状态查看与故障根因分析等运维场景。 请注意标准输出流(stdout/stde
授权API至APP 功能介绍 将指定的API授权给APP。API的认证方式必须为APP认证,APP的创建用户必须是API所属服务的创建者,且请求用户对API所属服务必须有更新权限。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动
NPU Snt9b23超节点服务器支持的镜像详情 镜像名称:HCE2.0-Arm-64bit-for-Snt9b23-with-24.1.rc3.7-7.5.0.107.221-CANN8.0.RC3.20 表1 镜像详情 软件类型 版本详情 操作系统 HCE2.0 内核版本 5
logs -f ${podName},其中${podName}是推理服务的POD名称 NPU Device log Device侧应用进程产生的运行、调试、安全日志,具体日志的目录结构可参考导出Device侧系统类日志和文件 执行命令才会生成采集日志,日志默认生成在执行命令当前目
端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买(并行文件系统) × 免费 免费 包月购买 免费 × 按需购买 单机多卡
在CCE、AOM中查看指标并配置告警 AOM服务可监控推理层中的CCE、Lite Cluster指标,同时支持设置告警规则,用户可自定义监控目标与通知策略。 表1 在CCE、AOM中查看指标并配置告警 组件 关键指标 告警阈值 参考文档 CCE Pod频繁重启 / 通过告警中心一键配置告警
各模型支持的最小卡数和最大序列 基于vLLM(v0.6.3)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
各模型支持的最小卡数和最大序列 基于vLLM(v0.7.2)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
基于vLLM(v0.8.5.rc1)部署推理服务时,不同模型推理支持的最小昇腾Snt9b卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大
序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大ma
ard专属资源池上的,包括“训练”、“推理”服务及“开发环境”。 专属资源池提供了动态设置作业类型的功能,您可以在创建资源池时、创建完成后,对资源池支持的作业类型进行编辑(新增或减少)。当前支持的“作业类型”有“训练作业”、“推理服务”、“开发环境”,用户可按需自行选择。 设置某
原因分析 订阅的模型一直处于等待同步状态,可能原因如下: 由于ModelArts的数据存储、模型导入以及部署上线等功能依赖OBS、SWR等服务,需获取依赖服务的授权后,才能正常使用ModelArts的相关功能。 您未被授权执行该操作。执行同步操作时报错:ModelArts.0108: 您未被授权执行该操作。
"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n"
"temperature": 0, "ignore_eos": false, "stream": false }' 执行推理参考 配置服务化参数。Ascend vllm使用该特性需参考表1,其它参数请参考启动推理服务。 启动服务。具体请参考启动推理服务。 精度评
"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则?<eoh>\n"
"temperature": 0, "ignore_eos": false, "stream": false }' 执行推理参考 配置服务化参数。Ascend vllm使用该特性需参考表1,其它参数请参考启动推理服务。 启动服务。具体请参考启动推理服务。 精度评
如词语、子词或字符等。在调用模型推理服务时,输入内容会被分词(tokenize),转化为模型可识别的Token 。模型处理后会输出Token,并将其转换为用户所需文本或其他内容载体。模型处理(包括输入、输出)的Token数量会被作为模型推理服务用量的一个重要计量单位。 关于Tok