检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
初始化 EMS存储初始化 环境变量
异常处理 获取错误码 获取详细信息
ContextCaching相关接口 同步保存KVCache 异步保存KVCache 同步加载KVCache 异步加载KVCache
概念类问题 什么是KVCache
控制台使用类问题 为什么需要激活凭证
凭证管理 创建凭证
集群管理 部署EMS 激活EMS 升级EMS 卸载EMS
安全 责任共担 身份认证与访问控制 数据保护技术 认证证书
基本概念 EMS基本概念 区域和可用区
部署类问题 EMS内存池需要占用AI节点多少DRAM内存 在执行主机配置脚本的过程中,无返回信息怎么办
约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果说明 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcFuture 方法名称 参数 返回结果 描述 result 无 CcResult 参数解释: 获取异步执行的结果。
nr_hugepages”参数以指定系统中支持的大页数目。操作系统默认使用大小为的常规页面,而设置大页可显著提高大型数据结构访问效率;考虑到EMS需求,应将大页大小设置为“2MB”并确保EMS独占使用权,这一操作会减少系统剩余的普通页面内存。 服务重启与系统适应调整 完成上述内核参数调整
快速入门 初始化EMS客户端 本示例用于初始化EMS客户端配置并启动EMS服务。 # 引入模块 import os, torch, torch_npu from ems import Ems, EmsConfig, EmsException, CcConfig, CcKvOption
请求并发数、每个请求的键值对数量有关系,当前单个请求超时时间默认5秒,用户可以根据SLO(Service Level Objective,服务级别目标,例如吞吐、首token时延等)、请求batch数和KVCache数据量,合理设置超时时间。例如:长序列场景要求的首token时延是5秒,超时时间建议设置为3秒。
确保将宿主机EMS服务端容器共享的unix domain socket目录"/mnt/paas/kubernetes/kubelet/ems",通过增加负载配置文件hostPath项,将目录映射到推理/训练容器目录:"/dev/shm/ems";同时推理/训练容器内,运行服务的用户能够读写该文件夹及其文件。
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
加速卡计算产生的KVCache连续显存长度。 约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果说明 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcResult 参数名称 参数类型 描述 success int 参数解释: 请求的批量key读写连续成功的个数。
EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接云日志服务 LTS、应用运维管理 AOM等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。 EMS功能限制 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级
减少冗余计算,从而显著提升推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。
EMS内存池故障。 SDK到EMS内存池连接断开。 将EMS服务隔离,待健康检查通过后恢复。 EMS_IO_TIMEOUT 请求IO超时 EMS内存池IO压力较大,业务繁忙。 SDK业务压力大,导致IO排队时间久。 增加超时时间后重试,或者将EMS服务隔离,待健康检查通过后恢复。 EMS_INTERNAL_ERROR