
大数据
数据汪东哥
这个作者很懒,什么都没留下…
展开
-
大数据: Week 4 处理大型数据流
数据流的用例什么是流(Streaming)•到目前为止,我们真的只是在谈论处理历史的,现有的大数据•在HDFS上•在数据库中•但是新数据如何进入您的集群? 尤其是如果它是“大数据”?•流使您可以将这些数据实时发布到您的群集中•您甚至可以实时处理传入的数据特点:•数据流:分布式,连续,无界,快速,时变,嘈杂。 。 。用例•数据流管理:各种现代应用程序•网络监控和流量工程•传感器网络•电信呼叫详细记录•网络安全•金融应用程序•制造过程•Web日志和点击流•其他海原创 2020-06-11 02:22:54 · 267 阅读 · 0 评论 -
大数据:Week 4 分布式数据处理和处理图数据
Map/Reduce framework1.什么是MapReduce•MapReduce是用于高效分布式计算的编程模型•其工作方式类似于Unix管道–cat input | grep | sort | uniq-c | cat > output–Input | Map |Shuffle & Sort | Reduce | Output•效率高–传输数据,减少寻道–管道整理•非常适合许多应用–日志处理– Web索引建立•商品硬件原创 2020-06-10 05:11:59 · 422 阅读 · 0 评论 -
大数据分析: Week 3 对大数据量的资源管理和分析查询
对大数据量的资源管理和分析查询概念数据模型1.OLTP 概念数据模型在线事务处理特点是大量的短在线事务(插入、更新、删除)其重点在于非常快速的查询处理、在多访问环境中保持数据完整性和以每秒事务数衡量的有效性举例: ATM POS2.OLAP概念数据模型在线分析处理目标是支持业务分析师的临时查询业务分析师熟悉电子表格扩展电子表格分析模型以处理仓库数据多维数据视图是OLAP的基础3.OLTP vs OLAP线交易处理(OLTP):–用于在运营或交易系统(例如销售点系统)上执原创 2020-06-09 23:17:37 · 434 阅读 · 0 评论 -
Big Data Analysis: Week 1
Week 1 大数据分析介绍大数据的四个维度:4V① Volume(数据量):生成和存储的大量数据(通常按TB或PB的顺序)②Variety(数据形式):所使用的数据类型和数据源的范围,包括非结构化数据③Velocity(数据速度):收集,共享和分析数据的速率-通常是实时流式数据(例如,来自社交媒体)④ Veracity(数据的可靠性):数据质量的不确定性(准确性,出处,相关性和一致性)Scale-up VS Scale-outScale-up 纵向扩展:仅在一定程度上增加计算机(即磁盘,内存原创 2020-06-09 06:23:58 · 328 阅读 · 0 评论