检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群管理员可以将某服务所有配置数据导入或者导出,实现配置结果的快速复制。 修改配置参数、导出实例配置或导入实例配置时不影响其他实例。 对系统的影响 修改角色实例配置后,如果实例状态为“配置过期”,则需要重启此实例。重启时对应的实例不可用。 配置HBase、HDFS、Hive、S
compression.codec”配置项只适用于设置非分区表的parquet压缩格式。 配置参数 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
文件和文件夹,只有其所有者或者具备root权限的用户才能进行删除或重命名操作。 hdfs dfs -chmod 1777 /user 为了系统文件的安全,建议用户将非临时目录进行安全加固,例如: /user:777 /mr-history:777 /mr-history/tmp:777
队列,从而达到资源隔离,且JDBCServer根据需求动态启动,可避免浪费资源。 配置描述 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
除。 数据规划 将数据文件上传至HDFS中。 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”,内容如下: Miranda,32 Karlie,23 Candice,27 在HDFS路径下建
select语句执行,分成多个批次来执行。 不要使用OR作为JOIN条件。 不建议频繁地进行数据delete修改操作,将要删除的数据攒批,偶尔进行批量删除,且需要带上条件,提升系统稳定性和删除效率。 大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。例如: 将from table
弹性云服务器的网卡需要与MRS集群在同一个网段中。 申请弹性IP,绑定新申请的弹性云主机IP,并配置安全组出入规则。 下载客户端程序。 登录MRS Manager系统。 选择“服务管理 > 下载客户端 ”,下载“完整客户端”到“远端主机”上,即下载客户端程序到新申请的弹性云服务器上。 以root用户安装集群客户端。
enabled true 是否开启使用Guardian。 进入Guardian服务“概览”页面,选择“更多 > 重启服务”。 配置Hive对接OBS文件系统。 在FusionInsight Manager界面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 在左侧的导航列表中选择“HiveServer
Records处理: 为了使数据处理应用程序为用户增值,不可避免地需要对数据进行某种程度的集成。在大多数情况下,数据质量问题源于生成源数据的上游(主要)系统。 有两种完全不同的方式处理Bad Data: 按照原始数据加载所有数据,之后进行除错处理。 在进入数据源的过程中,可以清理或擦除Bad Data,或者在发现Bad
saveAsTextFile(path, compressionCodecClass) 把dataset写到一个text file、HDFS或者HDFS支持的文件系统中,spark把每条记录都转换为一行记录,然后写到file中。 saveAsSequenceFile(path, compressionCodecClass=None)
”文件中,添加待对接数据源所在集群的主机名称和对应的IP映射,及其“/etc/hosts”文件中的“10.10.10.10 hadoop.系统域名”(如“10.10.10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。
extraLibraryPath”。 不添加表1中配置项时,使用方式与原有方式一致,程序可正常执行,只是在不同模式下需切换配置。 配置参数 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,在搜索框中输入参数名称。 表1 参数介绍
换服务中断的问题,实现服务不中断或少中断,还可以通过横向扩展集群来提高并发能力。 配置描述 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
开通自动续费后,还可以手动续费该MRS集群。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 本章节主要介绍如何开通包年/包月MRS集群的自动续费功能,更多自动续费相关操作请参见自动续费。
.withFieldDelimiter("|"); // 同步策略,每1000个tuple对文件系统进行一次同步 // HdfsBolt必选参数 SyncPolicy syncPolicy = new Co
<table_name>:待导出的表名称。 <user>:用户名。 <passwd>:用户密码。 命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 父主题: 数据迁移方案介绍
例入方向和出方向的网络流量。 更多关于安全组和安全组规则的说明可参考安全组和安全组规则。 图1 安全组架构 创建MRS集群时,用户可以选择系统自动创建安全组,也可以手动选择已有的安全组。MRS集群所在的安全组需要确保当前用户所在的IP地址范围允许访问TCP 9022端口,以确保用
备切换。 ZooKeeper和YARN的关系 ZooKeeper与YARN的关系如图2所示。 图2 ZooKeeper与YARN的关系 在系统启动时,ResourceManager会尝试把选举信息写入ZooKeeper,第一个成功写入ZooKeeper的ResourceManager被选举为Active
ameNode文件对象总量增加,需要消耗更多的内存,使集群现有硬件可能会难以满足业务需求,且导致集群难以扩展。 规划存储大量文件的HDFS系统容量,就是规划NameNode的容量规格和DataNode的容量规格,并根据容量设置参数。 容量规格 以下相关参数可以参考修改集群服务配置
eytab。 Kerberos服务的renewable、forwardable开关和票据刷新周期的设置在Kerberos服务的配置页面的“系统”标签下,票据刷新周期的修改可以根据实际情况修改“kdc_renew_lifetime”和“kdc_max_renewable_life”的值。