检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Ems存储相关接口 获取Context Caching对象 健康检查
修订记录 发布日期 修订记录 2025-6-30 第一次发布测试版。 2025-8-30 第一次发布V1接口测试版
基本概念 EMS基本概念
安全 责任共担 身份认证与访问控制 数据保护技术 认证证书
凭证管理 创建凭证
集群管理 部署EMS 激活EMS 升级EMS 卸载EMS
概念类问题 什么是KVCache
控制台使用类问题 为什么需要激活凭证
初始化 EMS存储初始化 环境变量
快速入门 初始化EMS客户端 本示例用于初始化EMS客户端配置并启动EMS服务。 # 引入模块 import os, torch, torch_npu from ems import Ems, EmsConfig, EmsException, CcConfig, CcKvOption
请求并发数、每个请求的键值对数量有关系,当前单个请求超时时间默认5秒,用户可以根据SLO(Service Level Objective,服务级别目标,例如吞吐、首token时延等)、请求batch数和KVCache数据量,合理设置超时时间。例如:长序列场景要求的首token时延是5秒,超时时间建议设置为3秒。
有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)所示。这种重复计算不仅浪费了计算资源,还增加了推理成本。
确保将宿主机EMS服务端容器共享的unix domain socket目录"/mnt/paas/kubernetes/kubelet/ems",通过增加负载配置文件hostPath项,将目录映射到推理/训练容器目录:"/dev/shm/ems";同时推理/训练容器内,运行服务的用户能够读写该文件夹及其文件。
件、软件、介质、虚拟机、操作系统、数据等)由客户完全控制向客户与华为云共同控制转变,这也就意味着客户需要承担的责任取决于客户所选取的云服务。如图1所示,客户可以基于自身的业务需求选择不同的云服务类别(例如IaaS、PaaS、SaaS服务)。不同的云服务类别中,每个组件的控制权不同
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
卸载EMS EMS使用helm uninstall命令卸载EMS后台系统,同时通过主机配置脚本,还原系统大页配置。 卸载EMS后台系统 返回到CCE控制台,在左侧导航栏中单击“集群管理”。在右侧集群列表中,找到对应集群,在右侧单击“命令行工具”进入命令行。 待命令行工具界面初始化完毕后,在命令行输入helm
EMS支持按需付费(后付费)计费方式。 按需付费(后付费)即先使用后付费的付费方式。您在华为云账户先充值,系统每小时统计前一小时的实际使用量并进行结算,从账户余额中扣除实际消费金额。 详细的服务资费费率标准请提工单咨询。 计费项 计费项为安装EMS业务集群节点使用的时长。 开始计费:EMS业务集群部署成功并激活后开始计费。
EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接云日志服务 LTS、应用运维管理 AOM等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。 EMS功能限制 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级
减少冗余计算,从而显著提升推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。
升级EMS 当客户需要使用EMS新版本时,需要执行升级操作更新EMS后台系统。系统通过Helm的滚动升级能力进行升级, 一次升级一个节点。 前提条件 客户已经下载了新版本的Helm包。 升级前检查,所有的EMS进程均正常(参考部署后检查),如果不正常,请联系EMS技术支持。 请注