EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
HDFS样例程序开发思路 场景说明 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件夹、写文件、追加文件内容、读文件和删除文件/文件夹;HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为: HDFS初始化
HDFS样例程序开发思路 场景说明 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件夹、写文件、追加文件内容、读文件和删除文件/文件夹;HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为: HDFS初始化
MRS集群补丁说明 EulerOS补丁说明 MRS 3.3.1-LTS.1.2补丁说明 MRS 3.3.1-LTS.1.1补丁说明 MRS 3.3.0-LTS.1.1补丁说明 MRS 3.3.0.3.1补丁说明 MRS 3.2.0-LTS.1.10补丁说明 MRS 3.2.0-LTS
批量构建HBase全局二级索引数据 场景介绍 在用户的表中预先存在大量数据的情况下,可基于MapReaduce任务,批量构建已有数据的索引数据。 批量构建全局二级索引数据 只有处于INACTIVE状态的索引才能进行批量构建,如需重建索引数据,请先修改索引状态。 数据表中存在大量数
Doris建表规范 该章节主要介绍创建Doris表时需遵循的规则和建议。 Doris建表规则 在创建Doris表指定分桶buckets时,每个桶的数据大小应保持在100MB~3GB之间,单分区中最大分桶数量不超过5000。 表数据超过5亿条以上必须设置分区分桶策略。 表的分桶列不
备NameNode节点长时间未启动,导致启动失败 问题 长时间没有启动备NameNode,edits文件由于老化策略被自动清理后,重新启动NameNode时找不到所需的edits文件,从而报错。 There appears to be a gap in the edit log.
Hue中的输入框输入中文会出现混乱 用户问题 Hue中的输入框输入中文会出现混乱。 问题现象 Hue的输入框中输入中文时,会出现混乱,第一次输入不了的情况,也即输入的中文会首先出现英文,中文并未输入,再次输入会带上之前的内容,示例如下: 原因分析 Hue对中文的处理存在混乱的情况,需要进行修正。
Flume客户端安装失败 问题现象 安装Flume客户端失败,提示JAVA_HOME is null或flume has been installed。 CST 2016-08-31 17:02:51 [flume-client install]: JAVA_HOME is null
使用curl命令操作OpenTSDB 写入数据 例如,录入一个指标名称为testdata,时间戳为1524900185,值为true,标签为key,value的指标数据。 curl -ki -X POST -d '{"metric":"testdata", "timestamp":1524900185
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
同步Hive表配置 参数 描述 默认值 hoodie.datasource.hive_sync.enable 是否同步hudi表信息到hive metastore。 注意: 建议该值设置为true,统一使用hive管理hudi表。 false hoodie.datasource.hive_sync
Spark SQL无法查询到ORC类型的Hive表的新插入数据 问题 为什么通过Spark SQL无法查询到存储类型为ORC的Hive表的新插入数据?主要有以下两种场景存在这个问题: 对于分区表和非分区表,在Hive客户端中执行插入数据的操作后,会出现Spark SQL无法查询到最新插入的数据的问题。
Spark SQL无法查询到ORC类型的Hive表的新插入数据 问题 为什么通过Spark SQL无法查询到存储类型为ORC的Hive表的新插入数据?主要有以下两种场景存在这个问题: 对于分区表和非分区表,在Hive客户端中执行插入数据的操作后,会出现Spark SQL无法查询到最新插入的数据的问题。
配置HDFS细粒度锁 操作场景 历史版本的HDFS使用了全局锁,读-写互斥,写-写互斥,即全局一把锁。但是实际上并非所有的读-写,写-写操作都会产生资源竞争。因此在该版本汇总引入了细粒度锁特性(FGL)。FGL对全局锁按照目录以及操作类型进行拆分,只有会产生资源竞争的操作才会使用同一个锁。因此极大地提升了写性能。
调整Hive元数据超时 大分区表包含过多分区,导致任务超时,同时大量分区可能需要更多时间来加载与元存储缓存同步。因此,为了在更大规模存储中获得更好的性能,建议相应地调整加载元数据缓存最大超时时间和加载元数据连接池最大等待时间。 使用HetuEngine管理员用户登录FusionInsight
SparkSQL访问Hive分区表启动Job前耗时较长如何处理? 问题背景 使用SparkSql访问Hive的一个数据存放于OBS的一个分区表,但是运行速度却很慢,并且会大量调用OBS的查询接口。 SQL样例: select a,b,c from test where b=xxx
Flink on Hudi作业参数规则 Flink作业参数配置规范 Flink作业参数配置规范如下表所示。 表1 Flink作业参数配置规范 参数名称 是否必填 参数描述 建议值 -c 必填 指定主类名。 根据实际情况而定 -ynm 必填 Flink Yarn作业名称。 根据实际情况而定
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
FlinkSQL Redis表开发规则 Flink Redis作业参数规范 Flink Redis作业参数配置规范如下表所示。 表1 Flink Redis作业参数规范 配置项 是否必选 类型 描述 zSetScoreColumn 可选 String Redis作为维表时,ZSet格式score字段对应的列名。
您即将访问非华为云网站,请注意账号财产安全