- 博客(4)
- 收藏
- 关注
原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作
RDD、DataFrame、Dataset都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。RDD,作为Spark的核心数据抽象,是Spark当中不可或缺的存在,而在SparkSQL中,Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet
2022-12-12 08:03:00
494
原创 【无标题】Flume采集数据到Hive&HBase
Flume的HBaseSinks分为两大类:1.它提供的两种序列化模式SimpleHbaseEventSerializer(将整个事件的event的body部分当作完整的一列写入HBase,且只能被插入一个Column)和RegexHbaseEventSerializer(根据正则表达式将event的body拆分到不同的列当中,可插入同一个rowkey对应的同一个columnFamily的多个column)优点:安全性较高,支持FLUME-1626,支持往secure hbase写数据;
2022-11-11 20:23:30
393
原创 Hive整合Hbase
注意:整合完成之后,如果在hive当中创建的为内部表,那么在hive中删除该表时,hbase上对应的表也会删除;Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现。(三)通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。3. 启动hbase,在hive中创建映射表,创建完成后在hbase中查看是否同时在hbase中也创建成功。
2022-11-04 21:44:13
606
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人