
大数据(hadoop)
文章平均质量分 61
Ink__Bamboo
心安则无事,心静则踏实,coding coding coding!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Iceberg 背后的设计
Iceberg优秀文章翻译,推荐原创 2023-01-17 18:06:45 · 1506 阅读 · 0 评论 -
flink写入orc文件到hive表,hive表读取报数组越界
组件版本:flink1.13.2cdh6.3.2hive2.1.1问题描述:flink实时读取日志数据写入hdfs中,保存为orc格式文件。flink写入文件格式:hive表建表语句:hive表查询时报:org.apache.hive.service.cli.HiveSQLException: java.io.IOException: java.lang.ArrayIndexOutOfBoundsException: 7查看yarn日志:Caused原创 2022-05-18 11:13:50 · 2316 阅读 · 2 评论 -
apache griffin 功能介绍及安装使用
官网地址:Griffin - Quick Start (apache.org)架构图:支持数据监控形式:1. 两张表根据指定字段做数据比对:计算公式: (a.id=b.id)/a.id*100%2.计算单张表的数据情况,空值,topN,去重计数等。组件安装教程:griffin/deploy-guide.md at master · apache/griffin (github.com)需要组件:依赖准备JDK (1.8 or later v..原创 2022-01-05 17:04:05 · 2569 阅读 · 4 评论 -
多层json结构指定层级解析
主要需求: 针对嵌套多层json,可以指定解析到的层级,并返回完整的解析后信息。目前没在工具类中找到类似的函数故自己实现了,如果大神知道的话请告知下.1.目前默认认定数组为最底层结构不做解析,以数据返回。2.默认数据格式全部转换为string类型,针对需要匹配bean对象最赋值,请自行调整。public class JsonParseUtils<T> { private int jsonlevel = 0; /** * 递归解析json并对重复字段根据解析层级调原创 2021-08-17 16:35:28 · 2935 阅读 · 0 评论 -
flink 连接hive parquet格式文件写入报错
版本:cdh6.3.2flink版本:1.13.2cdh hive版本:2.1.1报错信息:java.lang.NoSuchMethodError: org.apache.parquet.hadoop.ParquetWriter$Builder.<init>(Lorg/apache/parquet/io/OutputFile;)V at org.apache.flink.formats.parquet.row.ParquetRowDataBuilder.<init>(Par原创 2021-08-15 10:57:32 · 1991 阅读 · 1 评论 -
Hbase 读写操作的部分实践总结
Hbase 读写操作的部分实践总结主要包含个人开发过程中遇到的操作hbase数据,读写操作的一些代码样例,已经全部测试通过的。从hbase获取数据的功能代码,包含有filter的,根据rowkey的范围检索,以及全表扫描三部分的structtype构造例子 val strctTupe = new StructType(Array( StructFiel原创 2018-03-05 16:52:36 · 1342 阅读 · 0 评论 -
完全分布式安装配置
ssh-keygen ssh-cpoy-id mini2 /etc/sysconfig/network 修改IP地址:和HWaddr(mac)地址与上面的文件中的HWaddr地址一样 ONBOOT=yes BOOTPROTO=static IPADDR=192.168.183.130 GATEWAY=192.168.1原创 2017-10-22 11:43:38 · 479 阅读 · 0 评论 -
Maven打在本地库和远程库,ecpliseidea中使用
文章部分参考自:http://blog.youkuaiyun.com/dhmpgt/article/details/9998321从Maven中央仓库下载所需的jar包,需要外网的支持如果公司不能上外网的话则不能从中央仓库下载所需jar包,公司网速慢的时候也会影响项目构建的速度。用户可以用nexus创建私有的maven仓库。首先下载nexus,下载地址是http://www.son原创 2017-05-05 10:43:44 · 733 阅读 · 0 评论 -
hadoop 错误锦集
1.启动hadoop集群时namenode可以启动,并且namenode所在的机器的datanode能够启动。但是集群中其他机器的datanode无法启动,日志中报错(datanode unsigned)原因分析: 由于namenode进行过格式化,或者新加入的datanode之前在其他集群,导致hadoop集群启动时识别出此datanode不属于此集群,为了保护数据集群便不操作此节点。原创 2017-02-24 11:41:08 · 6692 阅读 · 0 评论 -
获取hadoop版本关联到eclipse中的安装包
转载自:http://blog.youkuaiyun.com/jiutianhe/article/details/39233609我们如果想搞开发,研究源码对我们的帮助很大。不明白原理就如同黑盒子,遇到问题,我们也摸不着思路。所以这里交给大家一.如何获取源码二.如何关联源码一.如何获取源码1.下载hadoop的maven程序包(1)官网下载这里我们先从官网上下载mave转载 2017-02-13 10:51:27 · 955 阅读 · 0 评论 -
Hadoop家族学习路线图
Hadoop家族学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Cr转载 2016-11-11 16:18:26 · 699 阅读 · 0 评论