检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
除。 数据规划 将数据文件上传至HDFS中。 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”,内容如下: Miranda,32 Karlie,23 Candice,27 在HDFS路径下建
select语句执行,分成多个批次来执行。 不要使用OR作为JOIN条件。 不建议频繁地进行数据delete修改操作,将要删除的数据攒批,偶尔进行批量删除,且需要带上条件,提升系统稳定性和删除效率。 大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。例如: 将from table
弹性云服务器的网卡需要与MRS集群在同一个网段中。 申请弹性IP,绑定新申请的弹性云主机IP,并配置安全组出入规则。 下载客户端程序。 登录MRS Manager系统。 选择“服务管理 > 下载客户端 ”,下载“完整客户端”到“远端主机”上,即下载客户端程序到新申请的弹性云服务器上。 以root用户安装集群客户端。
Cp工具依赖于集群间拷贝功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间拷贝功能。 对系统的影响 启用集群间复制功能需要重启Yarn,服务重启期间无法访问。 前提条件 两个集群HDFS的参数“hadoop.rpc.protect
enabled true 是否开启使用Guardian。 进入Guardian服务“概览”页面,选择“更多 > 重启服务”。 配置Hive对接OBS文件系统。 在FusionInsight Manager界面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 在左侧的导航列表中选择“HiveServer
Records处理: 为了使数据处理应用程序为用户增值,不可避免地需要对数据进行某种程度的集成。在大多数情况下,数据质量问题源于生成源数据的上游(主要)系统。 有两种完全不同的方式处理Bad Data: 按照原始数据加载所有数据,之后进行除错处理。 在进入数据源的过程中,可以清理或擦除Bad Data,或者在发现Bad
对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader
extraLibraryPath”。 不添加表1中配置项时,使用方式与原有方式一致,程序可正常执行,只是在不同模式下需切换配置。 配置参数 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,在搜索框中输入参数名称。 表1 参数介绍
换服务中断的问题,实现服务不中断或少中断,还可以通过横向扩展集群来提高并发能力。 配置描述 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
例入方向和出方向的网络流量。 更多关于安全组和安全组规则的说明可参考安全组和安全组规则。 图1 安全组架构 创建MRS集群时,用户可以选择系统自动创建安全组,也可以手动选择已有的安全组。MRS集群所在的安全组需要确保当前用户所在的IP地址范围允许访问TCP 9022端口,以确保用
开通自动续费后,还可以手动续费该MRS集群。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 本章节主要介绍如何开通包年/包月MRS集群的自动续费功能,更多自动续费相关操作请参见自动续费。
备切换。 ZooKeeper和YARN的关系 ZooKeeper与YARN的关系如图2所示。 图2 ZooKeeper与YARN的关系 在系统启动时,ResourceManager会尝试把选举信息写入ZooKeeper,第一个成功写入ZooKeeper的ResourceManager被选举为Active
.withFieldDelimiter("|"); // 同步策略,每1000个tuple对文件系统进行一次同步 // HdfsBolt必选参数 SyncPolicy syncPolicy = new Co
ameNode文件对象总量增加,需要消耗更多的内存,使集群现有硬件可能会难以满足业务需求,且导致集群难以扩展。 规划存储大量文件的HDFS系统容量,就是规划NameNode的容量规格和DataNode的容量规格,并根据容量设置参数。 容量规格 以下相关参数可以参考修改集群服务配置
enabled true 是否开启使用Guardian。 进入Guardian服务“概览”页面,选择“更多 > 重启服务”。 配置Hive对接OBS文件系统。 在FusionInsight Manager界面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 在左侧的导航列表中选择“HiveServer
eytab。 Kerberos服务的renewable、forwardable开关和票据刷新周期的设置在Kerberos服务的配置页面的“系统”标签下,票据刷新周期的修改可以根据实际情况修改“kdc_renew_lifetime”和“kdc_max_renewable_life”的值。
Receiver将数据流分成一系列小块,存储到Executor内存中。另外,在启用预写日志(Write-ahead Log,简称WAL)以后,数据同时还写入到容错文件系统的预写日志中。 通知Driver(绿色箭头) 接收块中的元数据(Metadata)被发送到Driver的StreamingContext。这个元数据包括:
命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 通过Kerberos模式认证: ./sqoop2-shell -uk true -k user.keytab -s userPrincipal 系统显示如下信息: Welcome to sqoop
impl”:指定使用Hive还是Spark SQL native作为SQL执行引擎来读取ORC数据,默认为hive。 配置参数 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围
点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。 对系统的影响 修改磁盘选择策略为“节点磁盘可用空间块放置策略(org.apache.hadoop.hdfs.server.blockmanagement