检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监测日志和指标,确保系统运行情况正常。
在压力逐步上升的过程中,观察云上业务系统在承载和源端压力相当时的性能表现,并对比收集到的指标,确定是否存在问题。 验证系统的稳定性和可靠性:通过长时间、高负载的测试,验证云上业务系统在各种情况下的稳定性和可靠性,包括系统资源的管理、数据传输、异常处理等。
业务系统从源端切换到目的端,切换方案可以分为3类,即停服切换、停写不停读切换和不停服切换。
基础环境设计 企业在云上的基础环境主要就是Landing Zone,企业在将任何业务系统云化之前,都需要提前规划和设计一个架构卓越、稳定可靠、易扩展和安全合规的云上运行环境。 具体内容请参考章节 Landing Zone设计。
作业双跑是指在新的大数据平台上同时运行原有系统和新系统的作业,以验证新系统的结果和原有系统的一致性。这可以通过比较作业输出、日志和指标等来判断两个系统的结果是否一致。 应用割接 最后,作业双跑一段时间没有问题后,就可以进行大数据应用割接,业务全部切换到新大数据平台。
数据层:包括数据库、对象存储、文件系统,数据库一般通过华为云的数据迁移工具DRS做迁移,对象存储一般通过华为云对象存储迁移工具OMS做迁移,文件系统一般通过Rsync等迁移工具来迁移。
设计存在单点故障 架构设计时未考虑高可用性,导致关键组件成为单点故障,一旦发生故障,整个系统将无法正常工作。 优化建议:实现冗余设计,采用负载均衡策略,确保应用的关键服务在多节点上运行,提升系统的可靠性和可用性。
风险控制:上云迁移是一个复杂的过程,涉及到不同的系统和业务。通过进行迁移试点,企业可以在小范围内验证整个迁移流程的可行性,发现潜在问题并及时解决,确保后续的大规模迁移顺利进行。
停服操作需考虑系统的可用性机制,部分系统检测到应用停止会有自动拉起功能,所以需先关闭可用性机制,防止出现应用一直无法停止的风险。
从业务对外体验上,多数用户感知不到停服的影响,比如某购物平台,用户仍然可以浏览商品,但是不能下单,下单时可友好的提示:系统正在升级中,预计凌晨4点恢复,请您稍后重试下单等。
企业云原生应用系统以微服务架构为主,通常部署在容器中,这种场景,多数企业也同时会拥有自己的开发流水线CI/CD系统,所以,这种场景的应用上云可以使用容器镜像迁移的方式迁移,或者使用CI/CD流水线重新发布的方式迁移。
调研评估 概述 组建调研评估团队 基础设施调研 应用系统调研 大数据调研 调研方式 云服务选型 调研评估的反模式
大规模迁移的执行主要是按照批次规划逐批次进行迁移,如下图: 图1 分批迁移 整体迁移:对于不能分批的,应用的关联关系往往非常复杂,只能选择所有业务系统整体一个批次迁移,如下图: 图2 整体迁移 父主题: 采用实施
采用冗余设计和自动故障恢复机制,以确保系统的持续可用性。例如,使用多个调度节点和备份策略来防止单点故障,并确保任务不会因节点故障而中断。 安全性和数据保护:云上部署的任务调度平台需要具备安全性和数据保护机制。
应用的调研:持续整个上云过程,在评估规划阶段只需要调研业务全景图,而在迁移试点和大规模上云阶段,则需要打开到每个应用系统的详细技术架构,收集每个应用系统的技术组件的详细信息,如组件版本信息,组件相关配置参数等。
同一供应商的系统安排在同一批或相邻的批次上云 同一供应商的多个系统之间耦合度较高,将这些系统的上云时间安排在一起,更有利于供应商在一段较短的时间内集中人力资源,确保各项目组之间的协同,有利于上云迁移实施的顺利开展。
边缘业务 90% 电商系统的首页推荐数据、用户浏览数据、用户画像数据等,如果有一部分损失,并不会影响客户的业务使用可体验。建议进行表级的的行数对比,抽样内容对比。
- - 数据库检查项 运维相关 - 是 - - - 运维相关 - 是 - - - 大数据检查项 大数据相关 - 是 - - - 大数据相关 - 是 - - - 应用检查 运维相关 - 是 - - - 执行脚本检查 运维相关 - 是 - - - 运维相关 - 是 - - - 日志系统检查
调研方法请参考应用系统调研的内容,需要调研的内容包括应用的技术架构、详细的组件信息。 图3 应用调研 父主题: 应用迁移上云
固定数量模式:设置最小/最大期望资源数量,当实例数量低于下限/超过上限时,系统会自动添加/移出资源,使得资源数量等于下限/上限。 手动模式:手动进行弹性伸缩,包括手动添加、移出或者删除已有的资源。 父主题: 可扩展性设计