检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Oozie应用开发概述 Oozie应用开发简介 Oozie应用开发常用概念 Oozie应用开发流程 Oozie应用开发样例工程介绍 父主题: Oozie开发指南(普通模式)
调测HBase应用 在本地Windows环境中调测HBase应用 在Linux环境中调测HBase应用 父主题: HBase开发指南(安全模式)
的工具,可以通过该工具多并发设置目录中所有文件的副本数、属主、权限、ACL信息等。 约束与限制 本章节适用于MRS 3.x及后续版本。 对系统的影响 因为集群内使用文件并发修改命令会对集群性能造成较大负担,所以在集群空闲时使用文件并发操作命令。 前提条件 已安装包含HDFS的客户
agent-keytab - 服务端使用的keytab文件地址,必须使用机机账号。建议使用Flume服务安装目录下flume/conf/flume_server.keytab。 agent-principal - 服务端使用的安全用户的Principal,必须使用机机账户。建议使用Flume服务默认用户flume_server/hadoop
确定表索引 表索引介绍 索引类型 索引特点 支持引擎 优选场景 SIMPLE 分区级更新,同主键数据写到不同分区时不会触发更新,会出现数据重复。 比较吃内存,采用join方式完成更新。 Spark cow表,批场景。 BUCKET 每一行数据都按照设置的桶数去哈希到对应的bucket桶,写入速度最快。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。
字符串空格清除转换 概述 “字符串空格清除转换”算子,用于配置已生成的字段通过清除空格,转换出新的字段。 输入与输出 输入:需要清除空格的字段 输出:转换后的字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 清除空格的字段 配置字符串空格清除的字段相关信息:
HBase数据恢复任务报错回滚失败 问题 HBase恢复任务执行失败后系统自动回滚数据,若页面详情中提示“Rollback recovery failed”信息,表示回滚失败。由于回滚失败后就不会处理数据,所以有可能产生垃圾数据,需要如何解决? 回答 在下次执行备份或恢复任务前,需要手动清除这些垃圾数据。
务信息不被其他用户获取。 例如,用户A提交的应用正在运行,此时用户B登录系统并查看应用列表,用户B不应该访问到A用户的应用信息。 配置描述 查看Yarn服务配置参数 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入表1中参数名称。 表1 参数描述 参数
删除Hive on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
使用Hue提交Oozie Streaming作业 操作场景 该任务指导用户通过Hue界面提交Streaming类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“数据流”按钮,将其拖到操作区中。 在弹出的“Streaming”窗口中
Editors > Hive”。 在“Databases”选择一个Hive中的数据库,默认数据库为“default”。 系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。 单击指定的表名,可以显示表中所有的列。 在HiveQL语句编辑区输入HiveQL语句。
配置Spark Core广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。
CREATE TABLE创建表 本章节主要介绍ClickHouse创建表的SQL基本语法和使用说明。 基本语法 方法一:在指定的“database_name”数据库中创建一个名为“table_name ”的表。 如果建表语句中没有包含“database_name”,则默认使用客户端登录时选择的数据库作为数据库名称。
DESC查询表结构 本章节主要介绍ClickHouse查询表结构的SQL基本语法和使用说明。 基本语法 DESC|DESCRIBE TABLE [database_name.]table [INTO OUTFILE filename] [FORMAT format] 使用示例 例如查询表t1的表结构:
建议慎用delete、update的mutation操作 标准SQL的更新、删除操作是同步的,即客户端要等服务端返回执行结果(通常是int值);而ClickHouse的update、delete是通过异步方式实现的,当执行update语句时,服务端立即返回执行成功还是失败结果,但是实际上此时数据还没有修改完成,而是
10亿级数据量场景的解决方案有哪些? 问: 10亿级数据量场景的解决方案有哪些? 答: 有数据更新、联机事务处理OLTP、复杂分析的场景,建议使用云数据库TaurusDB。 MRS的Impala + Kudu也能满足该场景,Impala + Kudu可以在join操作时,把当前所有的join表都加载到内存中来实现。
创建OBS并行文件系统,用于存放Spark样例程序、样例数据、作业执行结果和日志。 登录华为云管理控制台。 在“服务列表”中,选择“存储 > 对象存储服务”。 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为“obs-demo-analysis-hwt4”的文件系统。策略等参数保持默认值。
e.java:858) 回答 出现该问题的主要原因为RegionServer分配的内存过小、Region数量过大导致在运行过程中内存不足,服务端对客户端的响应过慢。在RegionServer的配置文件“hbase-site.xml”中需要调整如下对应的内存分配参数。 表1 RegionServer内存调整参数
HBase恢复数据任务报错回滚失败 问题 HBase恢复任务执行失败后系统自动回滚数据,如果页面详情中提示“Rollback recovery failed”信息,表示回滚失败。由于回滚失败后就不会处理数据,所以有可能产生垃圾数据,需要如何解决? 回答 在下次执行备份或恢复任务前,需要手动清除这些垃圾数据。