检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Job B要求,则系统会优先回收Job A资源。若回收Job A后资源仍得不到满足,则会再考虑回收Job C资源。 图1 层级队列资源回收 前提条件 已创建v1.27及以上版本的CCE Standard/Turbo集群,具体步骤请参见购买Standard/Turbo集群。 已安装Volcano插件,且插件版本在1
助容器(FUSE Sidecar Container)与主容器一起部署在同一Pod中,以增强主容器的功能,如文件系统挂载、缓存加速等。该模式轻量级、灵活,适合文件系统挂载和临时存储,但可能带来较大的资源开销。 Kubernetes集群现有问题 目前,在Kubernetes集群中运行AI和大数据任务面临以下挑战:
说明: Annotations不用于标识和选择对象。Annotations中的元数据可以是small或large,structured或unstructured,并且可以包括标签不允许使用的字符。 可通过加入"cluster.install.addons.external/install":
于不同账户下时,选择该项。 当前账户 对端项目 当账户选择“当前账户”时,系统默认填充对应的项目,无需您额外操作。 比如vpc-demo1和vpc-demo2均为账户A下的资源,并且位于区域A,那么此处系统默认显示账户A下,区域A对应的项目。 - 对端VPC 当账户选择“当前账户”时,该项为必选参数。
Prometheus(停止维护) 插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统,由工作在SoundCloud的Google前员工在2012年创建,作为社区开源项目进行开发,并于2015年正式发布。2016年,Prometheus正式加入Cloud
NPU指标。更多指标信息,请参见昇腾MindX DL官方文档。官方文档中,不同产品形态支持的NPU指标不同,CCE Standard/Turbo集群中节点对应产品形态如下: 当节点内NPU卡为Snt3(可登录节点,通过npu-smi info命令查询)时,请关注产品形态为“推理服务器(插Atlas
disabled的标签,避免DNSConfig自动注入,详情请参见常见问题。 node-local-dns-injection标签为NodeLocal DNSCache使用的系统标签,除避免DNSConfig自动注入的场景外,应避免使用该标签。 插件安装 CCE提供了节点本地域名解析加速插件,可以快捷安装NodeLocal
显存隔离模式:支持将任务所需的显存资源拆分到多张GPU卡上,实现跨卡显存共享。例如,当某应用申请M MiB显存并指定由N张GPU卡(需位于同一GPU节点)分配时,系统会将M MiB显存均匀分配至N张GPU卡。在任务执行过程中,每张GPU卡仅能使用其分配的M/N MiB显存,从而实现任务间的显存隔离,避免资源争用。
参数 参数类型 描述 type String 参数解释: 资源类型 约束限制: 不涉及 取值范围: cluster:Standard/Turbo集群 autopilot_cluster:Autopilot集群 默认取值: 不涉及 quota Integer 参数解释: 总配额 约束限制:
CCE是否支持账户余额变动提醒? 系统会以邮件、短信形式给客户发送账户余额变动通知,包括账户余额调整、充值到账、客户在线充值等。 父主题: 计费类
这些生成的命令后可以完成kubeconfig文件配置。 图1 Dex登录验证流程 使用Dex登录验证的流程如下所示: 用户访问登录页面。 系统会将登录请求重定向到Dex进行身份登录验证。 Dex将身份验证请求转发给第三方身份认证服务(Identity Provider)。 如果用
受攻击主机的完全root权限,目前漏洞POC/EXP已公开,风险较高。 Polkit(PolicyKit)是一个用于在类Unix操作系统中控制系统范围权限的组件。pkexec是Plokit框架中的一部分,执行具有提升权限的命令,是sudo的替代方案。请使用Polkit的用户及时安排自检并做好安全加固。
23集群:v1.23.6-r0及以上版本 v1.25集群:v1.25.2-r0及以上版本 v1.25以上版本集群 该功能只支持直通场景,即CCE Turbo集群中使用独享型ELB的场景。 该功能需在Pod中配置特定的readinessGates字段,指定标签target-health.elb
低延迟、高吞吐量的实时数据处理能力,同时支持复杂事件处理和数据分析。在CCE集群中部署Flink,可以帮助您构建高效、可靠且灵活的数据处理系统,支持多样化的业务应用,并充分利用大数据环境中的集群资源。本示例将展示如何在CCE集群中部署Flink,并通过WordCount任务演示如
作用的集群类型 取值范围: CCE:CCE Standard集群 Turbo:CCE Turbo集群 Autopilot:CCE Autopilot集群 默认取值 为空时默认为CCE Standard,CCE Turbo集群 请求示例 无 响应示例 状态码:200 ok { "kind"
的快速弹性伸缩。此外,StatefulSet对Pod的删除和重建策略较为严格,可能影响服务的快速恢复。 对此,CCE Standard/Turbo集群提供了LeaderWorkerSet插件,这是一种专为AI/ML推理设计的CRD资源,能够更有效地解决在LLM分布式推理场景中De
作用的集群类型 取值范围: CCE:CCE Standard集群 Turbo:CCE Turbo集群 Autopilot:CCE Autopilot集群 默认取值 为空时默认为CCE Standard,CCE Turbo集群 请求示例 无 响应示例 状态码:200 OK { "kind"
区域的控制台选项进行确认。ELB已支持的区域请参见后端服务器组支持GRPC协议。 前提条件 已创建一个CCE Standard或CCE Turbo集群,且集群版本满足以下要求: v1.23集群:v1.23.10-r20及以上版本 v1.25集群:v1.25.5-r20及以上版本 v1
的日志数据,并转发到统一的日志系统。 监控进程:例如Prometheus Node Exporter等,部署在每个节点上收集节点层面的性能数据。 前提条件 在创建工作负载前,您需要存在一个可用集群。若没有可用集群 ,请参照购买Standard/Turbo集群中内容创建。 工作负载
为ELB Ingress配置了HTTPS证书后访问异常的原因有哪些? 为ELB Ingress配置了HTTPS证书后,如果证书配置出现以下问题,可能导致访问异常,您可以参考表格中的原因进行排查。 访问异常原因 问题现象 解决方案 证书已过期 通过curl命令测试时报错信息如下: SSL