检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
重试集群升级任务 功能介绍 重新执行失败的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/pro
实现GPU基础、虚拟化及Pod级资源指标的全面监控 监控GPU资源指标能够优化计算性能、快速定位故障并合理分配资源,从而提升GPU利用率、降低运维成本。通过Prometheus和Grafana,您可以实现对GPU资源的全面监测,精确捕捉资源使用情况。本文将对Prometheus和Grafana的配置流程进行详细介绍。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
集群 基础配置 网络 认证 访问配置 权限管控 容器驱逐配置 端口范围配置 特性开关 调度器性能配置 集群调度器配置 调度算法 部署策略 控制器性能配置 集群控制器并发配置 节点生命周期控制器(node-lifecycle-controller)配置 负载弹性伸缩控制器(hori
工作负载推荐配置 当您在CCE集群中部署工作负载时,需要结合实际的业务场景和环境,对您的工作负载进行适合的配置,以保证您的工作负载可以稳定、可靠地运行。本文为您提供部署工作负载时的一些推荐配置及建议。 声明Pod的资源(Request和Limit) 容器的Request及Limi
如何查看Pod是否使用CPU绑核? 以4U8G节点为例,并提前在集群中部署一个CPU request为1,limit为2的工作负载。 登录到节点池中的一个节点,查看/var/lib/kubelet/cpu_manager_state输出内容。 cat /var/lib/kubel
获取集群升级任务详情 功能介绍 获取集群升级任务详情,任务ID由调用集群升级API后从响应体中uid字段获取。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。
自定义节点池纳管节点 功能介绍 该API用于在指定集群自定义节点池下纳管节点。竞价实例不支持纳管。 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点、DeH(专属主机)节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。
多个Ingress使用同一个ELB对外端口的配置说明 在同一个集群中,多个Ingress可以使用同一个监听器(即使用同一个负载均衡器的同一个端口)。如果两个Ingress设置了不同的监听器配置,则实际生效的监听器配置将以最早创建的Ingress(以下简称为“首路由”)配置为准。关
为Nginx Ingress配置跨域访问 在Web开发中,由于浏览器的同源策略,一个域下的网页通常不能直接请求另一个域下的资源。CORS(跨资源共享,Cross-Origin Resource Sharing)提供了一种安全的方式来绕过这个限制,允许跨域请求。 使用CORS允许跨域访问的场景较多,可能的场景如下:
更新指定集群升级引导任务状态 功能介绍 该API用于更新指定集群升级引导任务状态,当前仅适用于取消升级流程 调用该API时升级流程引导任务状态不能为进行中(running) 已完成(success) 已取消(cancel),升级子任务状态不能为running(进行中) init(已初始化)
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
CCE容器拉取私有镜像时报错“Auth is empty” 问题描述 在CCE的控制台界面中为已经创建的工作负载更换镜像,选择我上传的镜像,容器在拉取镜像时报错“Auth is empty, only accept X-Auth-Token or Authorization”。 Failed
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub
在CCE中实现应用高可用部署 基本原则 在CCE中,容器部署要实现高可用,可参考如下几点: 集群选择3个控制节点的高可用模式。 创建节点选择在不同的可用区,在多个可用区(AZ)多个节点的情况下,根据自身业务需求合理的配置自定义调度策略,可达到资源分配的最大化。 创建多个节点池,不
在CCE集群中使用工作负载Identity的安全配置建议 工作负载Identity允许集群中的工作负载模拟IAM用户来访问云服务,从而无需直接使用IAM账号的AK/SK等信息,降低安全风险。 本文档介绍如何在CCE中使用工作负载Identity。 约束与限制 支持1.19.16及以上版本集群。
集群视图 基于集群的指标和PromQL语句,提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表,帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明,其中图表中对于数值过大的字节(bytes)会换算为MB、KB、GB等。 指标说明 集群
节点磁盘利用率高的问题排查 问题现象 节点磁盘利用率高,执行df -h命令,输出中存在使用率超过90%的场景: 问题根因 以下原因均可能导致节点磁盘利用率偏高: 场景一:磁盘上存在大文件。 场景二:由于容器挂载hostPath或者emptyDir的,大量容器数据写入主机导致。 场
获取任务信息 功能介绍 该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。