
大数据
文章平均质量分 89
好啊啊啊啊
这个作者很懒,什么都没留下…
展开
-
DataFrame
为什么推出Spark SQL?·关系数据库已经很流行 ·关系数据库在大数据时代已经不能满足要求 首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据 其次,用户需要执行高级分析,比如机器学习和图像处理 ·在实际大数据应用中,经常需要融合关系查询和复杂分析算法(比如机器学习或图像处理),但是,缺少这样的系统而Spark SQL填补了这个鸿沟:首先,可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系型操作 其次,可以支持大数据中的大量数据.原创 2021-12-22 23:19:06 · 2265 阅读 · 0 评论 -
大数据基础架构
一、大数据两大核心技术:分布式存储:HDFS、HBase、NoSQL、NewSQL分布式处理:MapReduce二、大数据计算模式:三、代表性大数据技术:1.Hadoop:ETL工具(extract、transform、load)YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统 一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架,并由YARN为这些计算框架提供统一的资源调度管理服务,可以动态调整各自占用的资源。一个企业当中同时存在各种.原创 2021-12-17 15:40:05 · 9187 阅读 · 0 评论 -
RDD编程基础
一、转换函数1.filter().filter(func):筛选出满足函数func的元素,并返回一个新的数据集>>>lines = sc.textFile("file:/l/usr/local/spark/mycode/rdd/word.txt")>>>linesWithSpark = lines.filter(lambda line: "Spark" in line)>>> linesWithSpark.foreach(print)S原创 2021-12-16 22:13:11 · 3136 阅读 · 2 评论 -
Spark、Hive、Hbase比较
1.sparkspark是一个数据分析、计算引擎,本身不负责存储; 可以对接多种数据源,包括:结构化、半结构化、非结构化的数据; 其分析处理数据的方式有多种发,包括:sql、Java、Scala、python、R等;其中spark-sql用来对结构化数据分析处理,它将数据的计算任务通过SQL的形式转换成了RDD的计算。2.hive数据仓库,主要负责数据存储和管理,看作MapReduce计算引擎+HDFS分布式文件系统,直观理解就是Hive的SQL通过很多层解析成了MR程序,然后存储是放在了HD原创 2021-12-15 22:07:26 · 5104 阅读 · 3 评论