检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcFuture 方法名称 参数 返回结果 描述 result 无 CcResult 参数解释: 获取异步执行的结果。
什么是KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新Token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升了推理效率。
加速卡计算产生的KVCache连续显存长度。 约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果说明 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcResult 参数名称 参数类型 描述 success int 参数解释: 请求的批量key读写连续成功的个数。
于AI服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的
约束限制: 无 取值范围: 大于0。 默认取值: 无 返回结果说明 表4 返回结果 类型 说明 CcFuture 参数解释: 返回异步执行Future句柄。 取值范围: 无 表5 CcFuture 方法名称 参数 返回结果 描述 result 无 CcResult 参数解释: 获取异步执行的结果。
nr_hugepages”参数以指定系统中支持的大页数目。操作系统默认使用大小为的常规页面,而设置大页可显著提高大型数据结构访问效率;考虑到EMS需求,应将大页大小设置为“2MB”并确保EMS独占使用权,这一操作会减少系统剩余的普通页面内存。 服务重启与系统适应调整 完成上述内核参数调整
EMS基本概念 KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间
常规页面转换为大页。由于主机系统经过长时间运行后,物理内存可能出现严重的碎片化现象,内核需要整理并分配连续的大页内存区域。在分配大量大页内存的情况下,这一过程可能非常耗时。 解决方式 为了确保大页分配能够顺利进行并生效,建议可以考虑重启主机,利用系统初始化的过程来完成大页的重新分配与配置。
推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。 图1 LLM大语言模型推理
理面。请参考图1 EMS产品架构。 图1 EMS产品架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该SDK主要应用于大语言模型的推理,通过分布式内存池提升处理效率并降低成本。
Token”,请联系EMS运维人员提供“身份凭据”。 “跳过证书认证”选择“是”。 根据需求选择“规格配置”。 插件规格: 选择“系统预置规格”时,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 选择“自定义规格”时,您可根据需求调整插件实例数和
容器内挂载 /var/log/dfv/infrastructure/zookeeper4sl/*.log dmk_zk-zk_log_0-{cluster_id} 容器内挂载 /var/log/dfv/infrastructure/zookeeper4sl/*.log.0 EMS根据
ContextCaching接口超时时间如何设置? ContextCaching的读写相关接口执行时间,跟请求并发数、每个请求的键值对数量有关系,当前单个请求超时时间默认5秒,用户可以根据SLO(Service Level Objective,服务级别目标,例如吞吐、首token
升级EMS 当客户需要使用EMS新版本时,需要执行升级操作更新EMS后台系统。系统通过Helm的滚动升级能力进行升级, 一次升级一个节点。 前提条件 客户已经下载了新版本的Helm包。 升级前检查,所有的EMS进程均正常(参考部署后检查),如果不正常,请联系EMS技术支持。 请注
计费说明 计费模式 EMS支持按需付费(后付费)计费方式。 按需付费(后付费)即先使用后付费的付费方式。您在华为云账户先充值,系统每小时统计前一小时的实际使用量并进行结算,从账户余额中扣除实际消费金额。 详细的服务资费费率标准请提工单咨询。 计费项 计费项为安装EMS业务集群节点使用的时长。
卸载EMS EMS使用helm uninstall命令卸载EMS后台系统,同时通过主机配置脚本,还原系统大页配置。 卸载EMS后台系统 返回到CCE控制台,在左侧导航栏中单击“集群管理”。在右侧集群列表中,找到对应集群,在右侧单击“命令行工具”进入命令行。 待命令行工具界面初始化完毕后,在命令行输入helm
获取错误码 调用EMS接口时,需要对EmsExcepiton异常进行捕获,并根据异常中不同错误码进行不同策略处理。 功能介绍 EMS捕获到接口异常,可以通过接口获取异常状态码。 方法定义 EmsExcepiton.status_code() 常见的状态码及其含义: EMS异常状态码
使用前须知 本文介绍EMS SDK的版本变更,并提供版本兼容性说明,以及其他使用前须知。 变更及兼容性说明 如表1所示,本节将为您展示EMS SDK的版本变更情况。 表1 Python SDK版本变更及兼容性说明 版本 变更类型 说明 25.4.T7 初始公测版本 支持访问Context
使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云
日志授权 用户需通过创建委托的方式,将日志资源权限委托给EMS运维账号,以便EMS运维账号能够获取日志。 操作步骤 使用管理员账号登录IAM控制台。 在统一身份认证服务的左侧导航窗格中,选择“委托”页签,单击右上方的“创建委托”。 “委托名称” 输入ems-lts-{account-name},