
大数据
鹏飞九万里
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark Streaming的使用
Spark Streaming Spark Streaming是构建在Spark 批处理之上一款流处理框架。与批处理不同的是,流处理计算的数据是无界数据流,输出也是持续的。Spark Streaming底层将Spark RDD Batch 拆分成 Macro RDD Batch实现类似流处理的功能。因此spark Streaming在微观上依旧是批处理框架。 批处理 VS 流处理区别 数据形式原创 2020-05-16 23:00:53 · 359 阅读 · 0 评论 -
HBase的初步使用
** HBase 一、概述 Hbase全称Hadoop database(基于HDFS的数据库),该设计源于goole 的bigtable论文,hbase仿照bigtable设计(bigtable时google filesystem之上NoSQL数据库)基于HDFS之上构建一款数据库.(HDFS和Hbase关系|区别?) [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-76Zb4dPf-1589638532038)(assets/hdfs&hbase.png)] 1.1原创 2020-05-16 22:26:55 · 463 阅读 · 0 评论 -
flume的初步使用
一、概述 1.1 日志分类 1.1.1 业务操作日志 存储到RDBMS,多用于出现在后台管理系统,记录管理员操作行为 (数据量不大) 1.1.2 系统运行日志 采集运行日志,进行系统监测(运维). 1.1.3 用户行为日志 点击(商品/广告栏位)/收藏/加入购物车/下订单等行为日志 1.2 Flume [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WbVHZJnj...原创 2020-01-16 22:21:41 · 301 阅读 · 0 评论 -
Hadoop生态圈初步认识
Hadoop 一、概述 1.1 大数据概念 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。——来自研究机构Gartner [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f63hZpLh-1569943019406)(assets/u=398268955,4066448055&fm=27&g...原创 2019-10-07 21:52:54 · 814 阅读 · 0 评论