检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
v1.21及以上版本集群:/var/log/cce/canal v1.19及以下版本集群:/var/paas/sys/log/canal 系统日志 /var/log/messages 容器引擎日志 docker节点:/var/lib/docker containerd节点:/va
"cluster_id" : "a870253f-5dc7-11ee-bf71-0255ac100b03", "cluster_name" : "sfs-turbo-test", "create_at" : "2023-11-14T20:30:57+08:00", "description"
"cluster_id" : "a870253f-5dc7-11ee-bf71-0255ac100b03", "cluster_name" : "sfs-turbo-test", "create_at" : "2023-11-14T20:30:57+08:00", "description"
通常情况下,节点池内的节点均具有如下相同属性: 节点操作系统。 节点登录方式。 节点容器运行时。 节点所属企业项目。 节点Kubernetes组件启动参数。 节点自定义启动脚本。 节点“K8s标签”及“污点”设置。 此外,CCE将同时围绕节点池扩展以下属性: 节点池级别操作系统。 节点池级别每节点的Pod数上限。
storage 是 PVC申请容量,单位为Gi和Mi,仅支持设置为整数。 若storage被设置为小数,系统将自动向上取整创建本地持久卷。例如storage值设置为10.1Gi时,系统将自动创建11Gi的本地持久卷。 说明: 本地持久卷使用LVM实现,LVM基本单位逻辑区域(Logical
FullAccess权限。授权方法请参见给IAM用户授权。 查看审计事件 用户进入云审计服务创建管理类追踪器后,系统开始记录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录。
pvc”。 例如,存储卷名称前缀设置为“test”,则实际创建的底层存储名称test-{uid}。 实例类型 并行文件系统:一种对象存储服务提供的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS。 对象桶:OBS对象存储提供高可靠、高性能、高安全、低
为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 Prometheus(停止维护) Prometheus是一套开源的系统监控报警框架。在云容器引擎CCE中,支持以插件的方式快捷安装Prometheus。 云原生异构计算插件 插件名称 插件简介 CCE AI套件(NVIDIA
ndots:域名中必须出现的"."的个数。如果域名中的"."的个数不小于ndots,则该域名为一个全限定域名,操作系统会直接查询;如果域名中的"."的个数小于ndots,操作系统会在搜索域中进行查询。 域名解析服务器地址:即dnsConfig字段中的nameservers参数,您可对自
登录CCE控制台,单击集群名称进入集群。 查看集群“概览”页,在右边“连接信息”模块的“证书认证”中,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。 下载的证书包含client.key、client.crt、ca.crt三个文件,请妥善保管您的证书,不要泄露。
将按照节点池内规格优先级的顺序,尝试创建下一个优先级的规格,原实例进入5分钟的冷却时间。 如果一个节点池中的所有规格都无法成功创建实例,系统将顺延至下一个优先级的节点池继续尝试。 手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格进行伸缩。当选择的节点规格资源不足或配额不足时,会导致扩容失败。
ECS)实际使用时长计费,秒级计费,按小时结算。竞价计费模式允许您以折扣价购买节点,性能与常规购买的节点无异。但是当库存资源不足,或市场价格上浮超过您的预期价格时,系统会自动释放您的节点资源,对这些折扣售卖的节点进行中断回收。一般适用于对用云成本控制要求比较高的场景。 CCE集群中仅创建节点(弹性云服务器
节点kube-proxy故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点操作系统内核故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点的连接跟踪表已满
sage_seconds_total计算的,系统会定期更新CPU使用量和更新时间点。Prometheus默认情况下不会使用指标自带的时间点,而是使用采集时间点,此时会导致CPU使用量的时间点不真实,出现较小的时延。 举例如下,假设系统每6s更新一次CPU用量,采集周期为15s,P
当用户节点指定了云服务器名称作为K8s节点名称时,该云服务器名称的修改将无法同步到CCE控制台。更多说明请参见云服务器名称、节点名称与K8s节点名称说明。 不支持同步数据:操作系统、镜像ID、磁盘配置。 同步单个云服务器 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。
提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA Toolkit版本,必须使用非推荐的驱动版本,则需要您自行验证机型、系统及驱动版本间的配套兼容性。 CUDA Toolkit版本 兼容性所需的最低驱动版本(Linux x86_64) CUDA 12.x >=525
根据集群规模和高可用模式计费。 节点(弹性云服务器 ECS) 实例规格 包括vCPU和内存。 云硬盘 随按需计费云服务器创建的云硬盘,其计费模式也为按需计费。包括系统盘和数据盘。 弹性公网IP 通过CCE控制台创建的按需计费云服务器支持同时绑定“按带宽计费”或“按流量计费”的弹性公网IP。CCE控制台不
S和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、
算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该
在左侧导航栏中选择“插件中心”,在右侧找到节点本地域名解析加速插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据集群规模选择“单实例”或“高可用”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “单实例”为单实例部署DNS