检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调测Hive Python3样例程序 Python3样例工程的命令行形式运行 赋予“python3-examples”文件夹中脚本的可执行权限。在命令行终端执行以下命令: chmod +x python3-examples -R。 将“python3-examples/pyCLI_nosec.py
选择“系统 > 权限 > 角色”。 单击“添加角色”,配置如下参数创建一个角色,详情请参见创建角色。 填写角色的名称,例如mrrole。
场景说明 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行数据表的创建、数据加载、查询和删除。 数据规划 确保以HA模式启动了JDBCServer服务,并至少有一个实例对外服务。在hdfs上创建"/home/data"目录,新增包含如下内容的文件并上传到hdfs
在FusionInsight Manager界面选择“系统 > 权限 > 角色 > 添加角色”。 填写角色的名称,例如developrole,单击“确定”保存角色。
对系统的影响 保存新的配置需要重启NodeManager角色实例,此时对应的角色实例不可用。 操作步骤 MRS 3.x之前的版本集群执行以下操作: 登录MRS控制台,选择“现有集群”,单击集群名称。选择“组件管理 > Yarn > 实例”。
配置参数 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
hdfs dfs -chmod 1777 /user 为了系统文件的安全,建议用户将非临时目录进行安全加固,例如: /user:777 /mr-history:777 /mr-history/tmp:777 /mr-history/done:777 /user/mapred:755
配置描述 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。
登录MRS Manager系统。 选择“服务管理 > 下载客户端 ”,下载“完整客户端”到“远端主机”上,即下载客户端程序到新申请的弹性云服务器上。 以root用户安装集群客户端。 执行以下命令解压客户端包。
对系统的影响 修改角色实例配置后,如果实例状态为“配置过期”,则需要重启此实例。重启时对应的实例不可用。 配置HBase、HDFS、Hive、Spark、Yarn、Mapreduce服务属性后,需要重新下载并更新客户端配置文件。
使用广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大
对系统的影响 启用集群间复制功能需要重启Yarn,服务重启期间无法访问。 前提条件 两个集群HDFS的参数“hadoop.rpc.protection”需使用相同的数据传输方式。设置为“privacy”表示加密,“authentication”表示不加密。
数据源为文件系统,该参数才有效。用户如果需增量导入数据建议设置该参数。 例如设置为“.txt”,源文件为“test-loader.csv”,则导出后源文件名为“test-loader.csv.txt”。
在大多数情况下,数据质量问题源于生成源数据的上游(主要)系统。 有两种完全不同的方式处理Bad Data: 按照原始数据加载所有数据,之后进行除错处理。 在进入数据源的过程中,可以清理或擦除Bad Data,或者在发现Bad Data时让数据加载失败。
saveAsTextFile(path, compressionCodecClass) 把dataset写到一个text file、HDFS或者HDFS支持的文件系统中,spark把每条记录都转换为一行记录,然后写到file中。
配置Spark对接OBS文件系统。如果集群不存在Spark组件请跳过该步骤。 在FusionInsight Manager界面,选择“集群 > 服务 > Spark > 配置 > 全部配置”。
选择“系统 > 权限 > 用户”。 选择对应的数据源用户,在“操作”列中选择“更多 > 下载认证凭据”。 从下载的文件中解压获取“user.keytab”和“krb5.conf”文件。 数据源的代理用户需要具有对HBase的相关操作权限。
Spark Core内存调优 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到合适。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点
配置参数 参数入口: 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,在搜索框中输入参数名称。
配置描述 登录FusionInsight Manager系统。 详细操作请参考访问集群Manager。 选择“集群 > 服务 > Spark2x/Spark > 配置”,单击“全部配置”,搜索并调整以下参数。