检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
闲置。 针对单个应用程序任务,只能使用一次DFSColocationAdmin和DFSColocationClient实例。如果每次对文件系统操作都获取此实例,会创建过多HDFS链接,消耗HDFS资源。 Colocation提供了文件同分布的功能,执行集群balancer或mov
准备ClickHouse应用开发环境 准备ClickHouse应用开发环境 准备ClickHouse应用运行环境 导入并配置ClickHouse样例工程 父主题: ClickHouse开发指南(普通模式)
Connection方法中。 在创建连接时传入表1中配置的user和password作为认证凭据,ClickHouse会带着用户名和密码在服务端进行安全认证。 clickHouseProperties.setPassword(userPass); clickHouseProperties
查询ClickHouse数据 本章节介绍查询ClickHouse数据样例代码。 查询语句1:querySql1查询创建ClickHouse表创建的tableName表中任意10条数据;查询语句2:querySql2通过内置函数对创建ClickHouse表创建的tableName表中的日期字段取年月后进行聚合。
删除ClickHouse表 本章节介绍删除ClickHouse表样例代码。 以下代码片段在com.huawei.clickhouse.examples包的“Demo”类的dropTable方法中。 用于删除在创建ClickHouse表中创建的副本表和分布式表。 private void
创建Kudu表 功能简介 通过KuduClient.createTable(String name, Schema schema, CreateTableOptions builder)方法创建表对象,其中需要指定表的schema和分区信息。 代码样例 如下是创建表的代码片段: //
使用HBase过滤器Filter 功能简介 HBase Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现,如设置RowKey、列名或者列值的过滤条件。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“
HDFS Shell命令介绍 HDFS Shell 您可以使用HDFS Shell命令对HDFS文件系统进行操作,例如读文件、写文件等操作。 执行HDFS Shell的方法: 初始化环境变量。 source /opt/client/bigdata_env 如果当前集群已启用Ker
则会抛出异常。如果设置为false(默认值),Kryo会自动将未注册的类名写到对应的对象中。此操作会对系统性能造成影响。设置为true时,用户需手动注册类,针对未序列化的类,系统不会自动写入类名,而是抛出异常,相对比false,其性能较好。 配置KryoSerializer作为数据序列化器和类注册器。
Spark SQL join优化 操作场景 Spark SQL中,当对两个表进行join操作时,利用Broadcast特性(请参见使用广播变量),将小表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。
Flink Jar作业提交SQL样例程序 Flink Jar作业提交SQL样例程序开发思路 Flink Jar作业提交SQL样例程序(Java) 父主题: 开发Flink应用
HBase对外接口介绍 HBase Shell接口介绍 HBase Java API接口介绍 Sqlline接口介绍 HBase JDBC API接口介绍 HBase Web UI接口介绍 父主题: HBase应用开发常见问题
HBase Rest接口调用样例程序 使用REST接口查询HBase集群信息 使用REST接口获取所有HBase表 使用REST接口操作Namespace 使用REST接口操作HBase表 父主题: 开发HBase应用
Kafka常用API介绍 Kafka Shell命令介绍 Kafka Java API接口介绍 父主题: Kafka应用开发常见问题
准备MapReduce应用开发环境 准备MapReduce开发和运行环境 导入并配置MapReduce样例工程 (可选)创建MapReduce样例工程 配置MapReduce应用安全认证 父主题: MapReduce开发指南(安全模式)
End Action 功能描述 流程任务执行的终点,每个流程任务有且仅有一个该节点。 参数解释 End Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name end活动的名称 样例代码 <end name="end"/> 父主题: Oozie样例代码说明
message 根据业务需要,自定义的流程异常打印信息 ${wf:errorMessage(wf:lastErrorNode())} Oozie系统内置的异常信息函数 样例代码 <kill name="fail"> <message> This workflow
ClickHouse分布式表设计 建议 分布式表建表参考: CREATE TABLE default.my_table_dis ON CLUSTER default_cluster AS mybase.my_table_local ENGINE = Distributed(default_cluster
ClickHouse日志管理规则 日志路径 ClickHouse相关日志的默认存储路径为:“${BIGDATA_LOG_HOME}/clickhouse”。 ClickHouseServer运行相关日志:“/var/log/Bigdata/clickhouse/clickhouseServer/
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfilter机制,将布隆索引内容写入到Parquet文件的footer中。