检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 堆内存溢出可能导致服务崩溃。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。
GS_JOB_ARGUMENT GS_JOB_ARGUMENT系统表提供了DBE_SCHEDULER定时任务和程序的参数属性。 表1 GS_JOB_ARGUMENT字段 名称 类型 描述 oid oid 行标识符(隐含字段)。 argument_position integer 定时任务或程序的参数位置。
GS_JOB_ARGUMENT GS_JOB_ARGUMENT系统表提供了DBE_SCHEDULER定时任务和程序的参数属性。 表1 GS_JOB_ARGUMENT字段 名称 类型 描述 oid oid 行标识符(隐含字段)。 argument_position integer 定时任务或程序的参数位置。
GS_JOB_ARGUMENT GS_JOB_ARGUMENT系统表提供了DBE_SCHEDULER定时任务和程序的参数属性。 表1 GS_JOB_ARGUMENT字段 名称 类型 描述 oid oid 行标识符(隐含字段)。 argument_position integer 定时任务或程序的参数位置。
PERF03-09 选择合适的RabbitMQ 风险等级 中 关键策略 版本选择:RabbitMQ服务版本随时间更迭,选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。
如何处理开启了安全认证的ServiceComb引擎专享版开启IPv6后服务注册失败? 问题描述 基于Java Chassis开发的微服务注册到开启了安全认证的ServiceComb引擎专享版,微服务的注册中心地址使用微服务引擎注册中心的IPv4地址,可以注册成功并正常启动。 如果
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
推理服务部署 准备推理环境 启动推理服务 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.901)
推理服务性能评测 语言模型推理性能测试 多模态模型推理性能测试 获取模型推理的Profiling数据 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.902)
推理服务部署 准备推理环境 启动推理服务 父主题: 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.3.912)
量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化 父主题: 推理关键特性使用
执行训练任务 执行训练任务(推荐) 执行训练任务(历史版本) 父主题: 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${OUTPUT_SAVE_DIR}/log路径下获取。 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
训练性能测试 流程图 训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行性能比较脚本 完成benchmark启动任务。 进入test-benchmark目录执行命令。 ascendfactory-cli performance <cfgs_yaml_file> --baseline
SFT全参微调训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
SFT全参微调训练任务 步骤1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
测试验证场景说明 场景 验证方法 华为云日志接入安全云脑 请在“安全分析”中查看是否存在已接入云服务日志。 安全云脑日志转出至第三方系统/产品 请在第三方系统/产品侧确认日志是否接收成功。 第三方(非华为云)日志接入安全云脑 参考本章节进行验证。 测试验证 在安全云脑控制台的采集通道中查看数据。
bigint 用户执行的DML语句的数量。 bg_dml_count bigint 数据库后台线程执行的DML语句的数量。 父主题: 其他系统视图
SUMMARY_STAT_XACT_SYS_TABLES 显示集群内所有节点的Schema中系统表的事务状态统计信息(在CN节点使用,按表名对每个节点中表的事务状态统计信息汇总求和),如表1所示。 表1 SUMMARY_STAT_XACT_SYS_TABLES字段 名称 类型 描述