检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
批量写入Hudi表 操作场景 Hudi提供多种写入方式,具体见hoodie.datasource.write.operation配置项,这里主要介绍UPSERT、INSERT和BULK_INSERT。 INSERT(插入): 该操作流程和UPSERT基本一致,但是不需要通过索引去查询具体更新的文件分区
ZooKeeper客户端连接数规格是否满足“maxCnxns”、“maxClientCnxns”参数配置要求,否则适当调整参数值使满足系统要求。
Spark应用开发建议 RDD多次使用时,建议将RDD持久化 RDD在默认情况下的存储级别是StorageLevel.NONE,即既不存磁盘也不放在内存中,如果某个RDD需要多次使用,可以考虑将该RDD持久化,方法如下: 调用spark.RDD中的cache()、persist()
HBase Phoenix API接口介绍 版本关系 若使用Phoenix,需下载与当前使用MRS集群相对应的Phoenix版本,具体请参见http://phoenix.apache.org。其对应关系如表1所示: 表1 MRS与Phoenix版本对应关系一览表 MRS版本 Phoenix
但在系统内,该类型是一个统一的IPv6地址。 对于IPv4的支持,是通过将IPv4映射到IPv6的取值范围(RFC 4291#section-2.5.5.2)来实现的。当创建一个IPv4时,会被映射到IPv6。当格式化时,如果数据是IPv4又会被重新映射为IPv4。
ALM-19012告警HBase系统表目录或文件丢失告警误报。 健康检查脚本执行异常导致上报HBase服务不可用误告警。 解决Yarn问题: RM长时间运行后发现大量ContainerIdPBImpl对象占用导致内存泄漏。 提交HiveSQL任务长时间卡住无法往下运行。
在FusionInsight Manager管理界面,选择“系统 > 权限 > 用户”,选择“更多 > 下载认证凭据”下载用户flume_hdfs的kerberos证书文件并保存在本地。 配置Flume角色的服务端参数,并将配置文件上传到集群。
Storm Flux开发指引 操作场景 本章节只适用于MRS产品中Storm组件使用Flux框架提交和部署拓扑的场景。本章中描述的jar包的具体版本信息请以实际情况为准。 Flux框架是Storm提供的提高拓扑部署易用性的框架。通过Flux框架,用户可以使用yaml文件来定义和部署拓扑
使用Spark BulkLoad工具同步数据到HBase表中 Spark BulkLoad工具支持快速同步Hive或Spark表数据到HBase表中,支持全量或增量导入ORC/PAQUET等格式的表数据。 约束与限制 使用Spark BulkLoad同步数据类型数据到HBase表中时
在FusionInsight Manager管理界面,选择“系统 > 权限 > 用户”,选择“更多 > 下载认证凭据”下载用户flume_hdfs的kerberos证书文件并保存在本地。 配置Flume角色的服务端参数,并将配置文件上传到集群。
Storm Flux开发指引 操作场景 本章节只适用于Storm组件使用Flux框架提交和部署拓扑的场景。本章中描述的jar包的具体版本信息请以实际情况为准。 Flux框架是Storm提供的提高拓扑部署易用性的框架。通过Flux框架,用户可以使用yaml文件来定义和部署拓扑,并且最终通过
Flux开发指引 操作场景 本章节只适用于MRS产品中Storm组件使用Flux框架提交和部署拓扑的场景。本章中描述的jar包的具体版本信息请以实际情况为准。 Flux框架是Storm 0.10.0版本提供的提高拓扑部署易用性的框架。通过Flux框架,用户可以使用yaml文件来定义和部署拓扑
Loader客户端安装后,系统自动在“Loader客户端安装目录/loader-tools-1.99.3/loader-tool/job-config/”目录生成各种场景对应的作业模板,不同模板中配置项存在差异。作业模板中包含作业信息以及关联的连接器信息。
Loader客户端安装后,系统自动在“Loader客户端安装目录/loader-tools-1.99.3/loader-tool/job-config/”目录生成各种场景对应的作业模板,不同模板中配置项存在差异。作业模板中包含作业信息以及关联的连接器信息。
用户通过Spark2x客户端对配置了数据脱敏策略的表执行select操作,系统将对数据进行处理后进行展示。 父主题: Ranger权限策略配置示例
用户通过Spark2x客户端对配置了数据脱敏策略的表执行select操作,系统将对数据进行处理后进行展示。 父主题: Ranger权限策略配置示例
Geohash是Gustavo Niemeyer发明的公共域地理编码系统,它将地理位置编码为一串由字母和数字组成的短字符串。它是一种分层的空间数据结构,把空间细分为网格形状的桶,是被称为Z阶曲线和通常称为空间填充曲线的许多应用之一。
Flink SQL逻辑开发建议 在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发生
Geohash是Gustavo Niemeyer发明的公共域地理编码系统,它将地理位置编码为一串由字母和数字组成的短字符串。它是一种分层的空间数据结构,把空间细分为网格形状的桶,是被称为Z阶曲线和通常称为空间填充曲线的许多应用之一。
ifNotExists 如果设置为true, 当分区已经存在,系统报错。