检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开通智能洞察 AOM智能洞察引擎持续监控您的应用和资源,通过历史数据和问题特征发现问题,并针对每个问题会给出相应的根因分析和建议。 功能介绍 事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常
采集管理使用限制 操作系统使用限制 对于Linux x86_64服务器,采集管理支持表4中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本。
智能洞察(BETA) 开通智能洞察 通过AOM查看事件巡检数据 通过AOM查看事件根因分析结果 通过AOM查看故障传播链
只要主机的操作系统满足AOM支持的操作系统(AOM支持的操作系统详见操作系统使用限制)且主机已安装ICAgent,即可将主机接入到AOM中进行监控。 ICAgent ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。
查看组件调用链监控项 在企业微服务之间调用复杂的场景下,Agent会抽样一些请求,拦截对应请求及后续一系列的调用信息。本章节主要介绍如何查看某个组件的调用链情况。 查看组件调用链 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速筛选
通过AOM查看故障传播链 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 查看故障传播链图谱 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(
通过应用监控您可以及时了解应用的资源使用、状态和告警等信息,以便快速响应,保证系统顺畅运行。 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。
如图1所示,当分组条件设为“告警级别等于紧急”时,表示系统会先根据分组条件从告警中过滤出满足告警级别为紧急的告警子集,然后根据通知合并方式对告警子集合并,合并后的告警可以关联行动规则,触发告警通知。 图1 分组流程 创建分组规则 用户最多可创建100条分组规则。
通过调用链查看微服务间调用关系 在企业微服务之间调用复杂的场景下,Agent会抽样一些请求,拦截对应请求及后续一系列的调用信息。您可以通过调用链查看微服务间调用关系。 通过调用链查看微服务间调用关系 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 调用链”,进入调用链页面
IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。
通过AOM查看事件根因分析结果 智能洞察提供异常事件快速根因定位分析的功能。根因分析基于事件巡检看护的服务历史数据,根据服务指标、调用链数据进行下钻分析,细粒度定位事件根因。 查看事件根因分析结果 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围
磁盘分区指标 当主机类型为“CCE”时,可以查看磁盘分区指标,支持的系统为:CentOS 7.6版本、EulerOS 2.5。 以root用户登录CCE节点,执行docker info | grep 'Storage Driver'命令查看docker存储驱动类型。
、对象存储服务(OBS)、云数据库(RDS for MySQL)、云数据库(RDS for PostgreSQL)、云数据库(RDS for SQLServer)、湖仓构建(LakeFormation)、消息通知服务(SMN)、弹性文件服务(SFS)、高性能弹性文件服务(SFS Turbo
步骤二:监控AOM系统指标数据 将AOM系统监控数据(如告警数据、Prometheus监控数据等),呈现在业务指标监控大屏页面上。 步骤三:自定义业务指标监控大屏 根据自身实际业务的需求,自定义大屏页面呈现的内容。
开源监控系统接入AOM AOM作为华为云服务可观测性分析统一入口,提供接入中心,通过创建Prometheus 通用实例实现开源监控系统接入AOM。
Prometheus通用实例 指标 开源监控系统接入AOM Prometheus API/SDK接入 应用运维管理AOM API 指标 通过API接入相关的指标数据。
通过AOM查看事件巡检数据 事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小时内的历史数据
系统默认关闭智能合并模式开关,打开开关后,用户可以按照选择的告警属性智能合并告警。 告警名称:触发的告警中有相同或相似的告警名称,智能合并为一组发送告警通知。 告警信息:提取触发的告警信息中关键特征,对告警进行算法聚类降噪,智能合并为一组发送告警通知。
文件系统指标及其维度 表1 文件系统指标 指标名称 指标含义 取值范围 单位 可用磁盘空间(aom_node_disk_available_capacity_megabytes) 还未经使用的磁盘空间。
例如java的日志异常监控,一旦用户采用log系统打印日志,就会被采集上来。具体的异常采集类型会根据不同的采集器类型有变化。 查看组件异常日志 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。