
大数据
猪逻辑公园
数据分析 机器学习 NLP 风控 营销推荐
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
orc格式和parquet格式对比
相比传统的方式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐,尤其是在数据列column数很多,单词操作仅针对若干列的情景,列式存储引擎的性价比更高. 在互联网数据应用场景下,大部分情况下,数据很大且数据字段很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列式存储引擎parquet 和orc ,在最近一年内,他们都晋升apache顶...转载 2019-11-12 11:24:03 · 10692 阅读 · 2 评论 -
大数据概述
大数据特性通过快速的数据流转Velocity、海量的数据规模Volume、多样的数据类型Variety,发现数据的价值Value分布式架构应用架构原创 2018-06-11 22:08:48 · 1051 阅读 · 0 评论 -
Hadoop概述
通过存储海量数据、快速处理海量数据、从海量数据中进行分析,以产生价值Hadoop 2.x核心组件Hadoop Common:为其它Hadoop模块提供基础设施。Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,主要负责数据的存储。Hadoop MapReduce:分布式、离线、并行计算框架,一般用于对HDFS上的数据处理。Hadoop YARN: 集群任务调度与资源管理,主要负责对于任...原创 2018-06-11 22:55:50 · 1084 阅读 · 0 评论 -
使用Apriori进行关联分析
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能的方法在合理时间内找到答案。Apriori就是其中的一种关联分析算法。基...转载 2018-06-22 14:24:45 · 475 阅读 · 0 评论