为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
集群外资源迁移 若您的集群不涉及表1中的集群外资源,或迁移后无需使用其他云服务进行资源替换,可忽略本章节内容。 容器镜像迁移 为保证集群迁移后容器镜像可正常拉取,提升容器部署效率,十分建议您将私有镜像迁移至容器镜像服务SWR。CCE配合SWR为您提供容器自动化交付流水线,采用并行
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”页签。
工作负载状态异常定位方法 工作负载状态异常时,建议先查看Pod的事件以便于确定导致异常的初步原因,再针对性解决问题。 定位流程 工作负载状态异常定位步骤如下: 查看Pod状态是否正常 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 在页面左上角选择命名空间,找到对应的工作负载,查看其状态。
NPU插件从1.x.x升级到2.x.x后Pod无法启动如何解决? 问题现象 NPU插件从1.x.x版本升级到2.x.x版本之后,按照原先的配置部署业务,业务的Pod一直处于Pending状态无法启动。 通过kubectl describe pod命令查询,发现该Pod存在以下报错导致创建容器失败。
基础配置 实例名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 由小写字母、数字、中划线组成,24个字符以内,开头为小写字母开头,结尾为小写字母或数字 无 支持初始化时配置,不支持后续修改 - 模板实例名称 命名空间 参数名 取值范围 默认值 是否允许修改 作用范围
设置镜像拉取策略 创建工作负载会从镜像仓库拉取容器镜像到节点上,当前Pod重启、升级时也会拉取镜像。 默认情况下容器镜像拉取策略imagePullPolicy是IfNotPresent,表示如果节点上有这个镜像就直接使用节点已有镜像,如果没有这个镜像就会从镜像仓库拉取。 容器镜像
当集群状态为“不可用”时,如何排查解决? 当集群状态显示为“不可用”时,请参照如下方式来排查解决。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:安全组是否被修改
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
登录容器实例 操作场景 如果在使用容器的过程中遇到非预期的问题,您可登录容器进行调试。 约束与限制 在CloudShell中使用kubectl时,kubectl的权限由登录用户的权限决定。 CloudShell暂不支持委托账号和子项目。 同一用户在使用CloudShell组件连接
配置Gitlab项目 获取源码到本地。本实践中将使用一个Java示例。 在Gitlab上创建ccedemo项目组。 在ccedemo项目组中添加java-demo项目。 上传项目代码至本地Gitlab仓库。 cd ~/java-demo-main //目录地址按实际情况 git
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
插件检查异常处理 检查项内容 当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件
模板包信息 name 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 支持初始化时配置,不支持后续修改 - 模板名称 version 参数名 取值范围 默认值 是否允许修改 作用范围 version 无 无 上传新版本后更新 - 模板版本 description
如何确认监听器配置生效的Ingress CCE支持将多个Ingress对接到同一个ELB的监听器,并创建不同的转发策略。由于监听器配置参数通过annotation方式承载,因此可能存在同一个监听器配置在多个Ingress上有不同配置参数的场景。本文为您介绍如何确认监听器配置生效Ingress。
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
Pod PodTemplate Container配置 容器resource资源
节点标签更新导致的Pod容器退出问题 问题现象 工作负载通过节点标签调度到节点运行后,如果更新节点标签,然后修改节点的kubelet配置参数导致kubelet组件重启。kubelet组件重启后约30s,查看工作负载状态,会出现异常事件“Predicate NodeAffinity
如果不配置集群管理权限,是否可以使用kubectl命令呢? 使用kubectl命令无需经过IAM认证,因此理论上不配置集群管理(IAM)权限是可以使用kubectl命令的。但前提是需要获取具有命名空间权限的kubectl配置文件(kubeconfig),以下场景认证文件传递过程中
安全组检查异常处理 检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为控制节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索框内输入集群名称,此时预期过滤出两个安全组:
您即将访问非华为云网站,请注意账号财产安全