搜索_华为云

SDK接口概览 - 弹性内存存储 EMS

检查异步IO状态 ContextCaching.is_ready 检测返回的异步Future对象是否已完成计算。获取异步IO结果 ContextCaching. get_result 获取返回的异步Future对象的结果。

帮助中心 > 弹性内存存储 EMS > Python
什么是KVCache - 弹性内存存储 EMS

什么是KVCache KVCache（Key-Value Cache）是用于加速大型语言模型（如Transformer模型）推理过程的技术，KVCache通过缓存Attention机制中的Key和Value矩阵（K和V），以避免在生成新Token时重复计算历史序列的中间结果，减少冗余计算，从而显著提升了推理效率。

帮助中心 > 弹性内存存储 EMS > 常见问题 > 概念类问题
EMS以存代算 - 弹性内存存储 EMS

在Transformer模型的推理过程中，由于AI服务器的显存容量限制，现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题，系统通常会丢弃已处理对话的KV缓存，以腾出显存空间来服务新的请求。然而，当这些被丢弃的KV缓存对应的对话再次出现时，系统必须重新计算这些KV缓存，如图1

帮助中心 > 弹性内存存储 EMS > 产品介绍
什么是弹性内存存储 - 弹性内存存储 EMS

什么是弹性内存存储弹性内存存储（Elastic Memory Service，EMS）是一种以DRAM内存（动态随机存取存储器）为主要存储介质的云基础设施服务，为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理，将LLM推理场景下多轮对话及公共前缀等历史K

帮助中心 > 弹性内存存储 EMS > 产品介绍
在执行主机配置脚本的过程中，无返回信息怎么办 - 弹性内存存储 EMS

the kernel parameters.. If the process takes too long, restart the host to apply the changes. 可能原因这通常是因为脚本在最后阶段会调整大页内核参数，将常规页面转换为大页。由于主机系统经过长

 帮助中心 > 弹性内存存储 EMS > 常见问题 > 部署类问题
异步保存KVCache - 弹性内存存储 EMS

print(f"failed to save, {e}.") exit(2) try: for future in future_list: result = future.result() print(f"rsult:{result}") except

帮助中心 > 弹性内存存储 EMS > Python > ContextCaching相关接口
获取异步IO结果 - 弹性内存存储 EMS

get_result(ccfuture) 请求参数说明表1 请求参数列表参数名称参数类型是否必选描述 ccfuture 表2 是参数解释：异步计算返回的Future对象。约束限制：必须为async_save或async_load等接口返回的CcFuture实例，不能为None。

帮助中心 > 弹性内存存储 EMS > Python > ContextCaching相关接口
ContextCaching接口超时时间如何设置？ - 弹性内存存储 EMS

Context Caching的读写相关接口执行时间，跟请求并发数、每个请求的键值对数量有关系，当前单个请求超时时间默认5秒，用户可以根据SLO（Service Level Objective，服务级别目标，例如吞吐、首token时延等）、请求batch数和KVCache数据量，合理设置超

 帮助中心 > 弹性内存存储 EMS > Python > 常见问题
检查异步IO状态 - 弹性内存存储 EMS

is_ready(ccfuture) 请求参数说明表1 请求参数列表参数名称参数类型是否必选描述 ccfuture 表2 是参数解释：异步计算返回的 Future 对象。约束限制：必须为async_save或async_load 等接口返回的 CcFuture 实例，不能为None。

帮助中心 > 弹性内存存储 EMS > Python > ContextCaching相关接口
异步加载KVCache - 弹性内存存储 EMS

print(f"failed to save, {e}.") exit(2) try: for future in future_list: result = future.result() print(f"rsult:{result}") except

帮助中心 > 弹性内存存储 EMS > Python > ContextCaching相关接口
注册KVCache - 弹性内存存储 EMS
注册KVCache - 弹性内存存储 EMS

context_caching.register_kvcache(kvcache) print("register_kvcache: success") except EmsException as e: print(f"register_kvcache failed:

帮助中心 > 弹性内存存储 EMS > Python > ContextCaching相关接口
EMS基本概念 - 弹性内存存储 EMS

EMS基本概念 KVCache KVCache（Key-Value Cache）是用于加速大型语言模型（如Transformer模型）推理过程的技术，KVCache通过缓存Attention机制中的Key和Value矩阵（K和V），以避免在生成新token时重复计算历史序列的中间

 帮助中心 > 弹性内存存储 EMS > 产品介绍 > 基本概念
部署EMS - 弹性内存存储 EMS
部署EMS - 弹性内存存储 EMS

ems-server-{cluster_id} ems-server-kv_server-{cluster_id} hostpath /var/log/ems/ems-server/kv/kv_server/kv.INFO ems-server-mempool-{cluster_id}

帮助中心 > 弹性内存存储 EMS > 用户指南 > 集群管理
计费说明 - 弹性内存存储 EMS
计费说明 - 弹性内存存储 EMS

计费说明计费模式 EMS支持按需付费（后付费）计费方式。按需付费（后付费）即先使用后付费的付费方式。您在华为云账户先充值，系统每小时统计前一小时的实际使用量并进行结算，从账户余额中扣除实际消费金额。详细的服务资费费率标准请提工单咨询。计费项计费项为安装EMS业务集群节点使用的时长。

帮助中心 > 弹性内存存储 EMS > 产品介绍
卸载EMS - 弹性内存存储 EMS
卸载EMS - 弹性内存存储 EMS

卸载EMS EMS使用helm uninstall命令卸载EMS后台系统，同时通过主机配置脚本，还原系统大页配置。卸载EMS后台系统返回到CCE控制台，在左侧导航栏中单击“集群管理”。在右侧集群列表中，找到对应集群，在右侧单击“命令行工具”进入命令行。待命令行工具界面初始化完毕后，在命令行输入helm

帮助中心 > 弹性内存存储 EMS > 用户指南 > 集群管理
责任共担 - 弹性内存存储 EMS
责任共担 - 弹性内存存储 EMS

图1 华为云安全责任共担模型云安全责任基于控制权，以可见、可用作为前提。在客户上云的过程中，资产（例如设备、硬件、软件、介质、虚拟机、操作系统、数据等）由客户完全控制向客户与华为云共同控制转变，这也就意味着客户需要承担的责任取决于客户所选取的云服务。如图1所示，客户可以基于自身的

 帮助中心 > 弹性内存存储 EMS > 产品介绍 > 安全
应用场景 - 弹性内存存储 EMS
应用场景 - 弹性内存存储 EMS

推理吞吐，加速了大模型推理服务的效率。建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。图1 LLM大语言模型推理

 帮助中心 > 弹性内存存储 EMS > 产品介绍
升级EMS - 弹性内存存储 EMS
升级EMS - 弹性内存存储 EMS

升级EMS 当客户需要使用EMS新版本时，需要执行升级操作更新EMS后台系统。系统通过Helm的滚动升级能力进行升级，一次升级一个节点。前提条件客户已经下载了新版本的Helm包。升级前检查，所有的EMS进程均正常（参考部署后检查），如果不正常，请联系EMS技术支持。请注

 帮助中心 > 弹性内存存储 EMS > 用户指南 > 集群管理
获取错误码 - 弹性内存存储 EMS

EmsException, CcConfig_v1, CcKvOption, KvBufferWrapper from ems.common.exception import EmsErrorCode # 初始化cc配置 cc_config = CcConfig_v1(rank_id=8

帮助中心 > 弹性内存存储 EMS > Python > 异常处理
使用前须知 - 弹性内存存储 EMS

Caching特性（大模型推理过程中计算产生的KV Cache缓存）相关读写接口。 / 其他使用前须知请确认您已阅读弹性内存存储（Elastic Memory Service，EMS）的产品文档。

帮助中心 > 弹性内存存储 EMS > Python

总条数： 25

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消