检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。 公平调度介绍 在实际业务中,经常会遇到将集群稀缺资源分配给多个用户
CCE对节点内存的预留规则v1 CCE节点内存的总预留值等于系统组件预留值与Kubelet管理Pod所需预留值之和。 公式为:总预留值 = 系统组件预留值 + Kubelet管理Pod所需预留值 表1 系统组件预留规则 内存总量范围 系统组件预留值 内存总量 <= 8GiB 0MiB 8GiB
集群节点支持CentOS 7.1操作系统,支持操作系统选择 Windows集群支持对接二代ELB 支持弹性文件服务SFS导入 裸金属场景支持对接SFS文件存储、OBS对象存储 v1.7.3-r9 主要特性: 工作负载支持跨AZ部署 容器存储支持OBS对象存储服务 支持ELB L7负载均衡 Windows集群支持EVS存储
网关型应用配置最佳实践 应用场景 NGINX、API Gateway等网关型应用通常作为系统的统一流量入口,承担着高并发请求的调度、转发、认证等核心功能。 当系统面临短时间内大量外部请求(如促销活动、系统切换、定时任务触发等高峰时段)时,网关所在节点会迅速建立大量连接,此时节点的连接跟
Interface,简称ENI)能力,采用VPC网段分配容器地址,支持ELB直通容器,享有高性能。 图1 云原生网络2.0 约束与限制 仅CCE Turbo集群支持使用云原生网络2.0。 适用场景 性能要求高,需要使用VPC其他网络能力的场景:由于云原生网络2.0直接使用的VPC网络,性能
17d # 通用文件系统(原SFS 3.0 容量型) csi-obs everest-csi-provisioner 17d # 对象存储 csi-sfsturbo everest-csi-provisioner
不建议修改,请自行恢复。 通过ELB的控制台修改CCE创建的监听器后端服务器组,添加、删除后端服务器 导致Service/Ingress访问不通。 在集群升级等需要重启控制节点的场景,所做修改会被CCE侧重置: 用户删除的后端服务器会恢复 用户添加的后端服务器会被移除 重新创建或更新Service/Ingress。
如何确认网卡不被集群占用? 操作场景 在CCE Turbo集群中,v1.23.17-r0、v1.25.12-r0、v1.27.9-r0、v1.28.7-r0、v1.29.3-r0及以上版本的集群支持删除容器子网。 删除集群容器子网属于高危操作,您需要确保当前集群正在使用的网卡中没
调度器主动驱逐低优先级业务,保障高优先级业务可以正常调度。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。 优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务
之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。 组调度介绍 Gang调度策略是volcano-scheduler的
基于GPU监控指标配置工作负载弹性伸缩 在Standard/Turbo集群中,用户可以通过GPU监控指标为使用GPU资源的工作负载配置弹性伸缩(HPA),使应用在业务高峰期自动扩容、低负载时缩容,从而优化资源利用率并降低成本。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。
EulerOS 2.9系统安装NVIDIA驱动失败 问题现象 在EulerOS 2.9系统中,手动安装GPU驱动时,即未通过CCE AI套件(NVIDIA GPU)插件安装驱动,出现错误,且错误提示如下: ERROR: Unable to find the kernel source
请将镜像资源迁移至容器镜像服务(SWR)。 CCE不支持ReadWriteMany的云硬盘存储,在原集群中存在该类型资源时,需要先修改为ReadWriteOnce。 Velero对存储卷进行备份还原时不支持HostPath类型的存储卷,详情请参见文件系统备份限制。若您需备份该类型
##根据实际情况填写 集群信息。也可不写 启动prometheus服务。 配置完毕后,启动prometheus服务 ./prometheus --config.file=prometheus.yml 登录prometheus服务访问页面,查看监控信息。 父主题: 监控
Burst提供了一种可以短暂突破CPU Limit值的弹性限流机制,以降低业务长尾响应时间。其原理是业务在每个CPU调度周期内使用的CPU配额有剩余时,系统对这些CPU配额进行累计,在后续的调度周期内如果需要突破CPU Limit时,使用之前累计的CPU配额,以达到突破CPU Limit的效果。
如果用户已有密钥对,可重复使用,不需多次创建。 操作步骤 登录管理控制台,选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 单击“创建密钥对”,并按照提示完成创建,详情请参见密钥对。 创建完成后,系统生成密钥文件,自动保存在系统默认目录下。 父主题: 附录
节点挂载检查异常处理 检查项内容 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0及以上版本的集群将软链修改为挂载绑定。 节点为非共享磁盘场景 CCE默认挂载/va
云原生日志采集插件可采集Kubernetes事件上报到云日志服务(LTS)和应用运维管理(AOM),用于保存事件信息和事件告警。 费用说明 LTS创建日志组免费,并每月赠送每个账号一定量免费日志采集额度,超过免费额度部分将产生费用(价格计算器)。 Kubernetes事件上报云日志服务(LTS) 根据不同的场景,
String 参数解释: 服务器企业项目ID。CCE服务不实现EPS相关特性,该字段仅用于同步服务器企业项目ID。 约束限制: 创建节点/节点池场景:可指定已存在企业项目,当取值为空时,该字段继承集群企业项目属性。 更新节点池场景:配置修改后仅会对新增节点的服务器生效,存量节点需前往EPS界面迁移。
在云原生网络2.0下,支持为StatefulSet工作负载或直接创建的Pod分配固定的公网IP(EIP)。 约束限制 仅以下指定版本的CCE Turbo集群支持用户配置Pod固定EIP: v1.19集群:v1.19.16-r20及以上版本 v1.21集群:v1.21.10-r0及以上版本