检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ContextCaching相关接口 同步保存KVCache 异步保存KVCache 同步加载KVCache 异步加载KVCache
概念类问题 什么是KVCache
控制台使用类问题 为什么需要激活凭证
安全 责任共担 身份认证与访问控制 数据保护技术 认证证书
基本概念 EMS基本概念 区域和可用区
部署类问题 EMS内存池需要占用AI节点多少DRAM内存 在执行主机配置脚本的过程中,无返回信息怎么办
凭证管理 创建凭证
集群管理 部署EMS 激活EMS 升级EMS 卸载EMS
Ems存储相关接口 获取Context Caching对象 健康检查
常见问题 EMS初始化失败如何定位? ContextCaching接口超时时间如何设置?
收集日志 日志接入 日志授权
nr_hugepages”参数以指定系统中支持的大页数目。操作系统默认使用大小为的常规页面,而设置大页可显著提高大型数据结构访问效率;考虑到EMS需求,应将大页大小设置为“2MB”并确保EMS独占使用权,这一操作会减少系统剩余的普通页面内存。 服务重启与系统适应调整 完成上述内核参数调整
快速入门 初始化EMS客户端 本示例用于初始化EMS客户端配置并启动EMS服务。 # 引入模块 import os, torch, torch_npu from ems import Ems, EmsConfig, EmsException, CcConfig, CcKvOption
请求并发数、每个请求的键值对数量有关系,当前单个请求超时时间默认5秒,用户可以根据SLO(Service Level Objective,服务级别目标,例如吞吐、首token时延等)、请求batch数和KVCache数据量,合理设置超时时间。例如:长序列场景要求的首token时延是5秒,超时时间建议设置为3秒。
确保将宿主机EMS服务端容器共享的unix domain socket目录"/mnt/paas/kubernetes/kubelet/ems",通过增加负载配置文件hostPath项,将目录映射到推理/训练容器目录:"/dev/shm/ems";同时推理/训练容器内,运行服务的用户能够读写该文件夹及其文件。
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
加速卡计算产生的KVCache连续显存长度。 约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果说明 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcResult 参数名称 参数类型 描述 success int 参数解释: 请求的批量key读写连续成功的个数。
EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接云日志服务 LTS、应用运维管理 AOM等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。 EMS功能限制 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级
减少冗余计算,从而显著提升推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。
卸载EMS EMS使用helm uninstall命令卸载EMS后台系统,同时通过主机配置脚本,还原系统大页配置。 卸载EMS后台系统 返回到CCE控制台,在左侧导航栏中单击“集群管理”。在右侧集群列表中,找到对应集群,在右侧单击“命令行工具”进入命令行。 待命令行工具界面初始化完毕后,在命令行输入helm