- 博客(4)
- 收藏
- 关注
原创 一图总结Hadoop、Hive和Spark的关系
Hadoop主要由两部分组成,分布式存储(HDFS)和分布式计算(MapReduce)。Hive使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。Spark 将大数据集合抽象成一个 RDD 对象,然后提供了 transformation(转换)、action(动作)两大类算子函数,对RDD进行处理,并得到一个新的 RDD,然后继续后续迭代计算,像 Stream 流一样依次执行,直到任务结束。内部也是采用分片处理,每个分片都会分配一个执行线程。
2022-10-30 19:41:03
1976
原创 MySQL基础篇01之SQL语句(笔记整理)
本文是MySQL数据库基础篇关于数据库概述和SQL语句的整理汇总,可作为手册查阅。其中,系统而详细地讲解关系数据库标准语言SQL的分类,包括 DDL(数据定义语言)用来定义数据库对象(数据库、表、字段)、DML(数据操作语言)用来对数据库表中的数据进行增删改、DQL(数据查询语言)用来查询数据库中表的记录、DCL(数据控制语言)用来创建数据库用户、控制数据库的控制权限。
2022-10-28 00:21:41
350
原创 python爬虫基础知识(有案例)
爬虫是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。通过python的requests库可以实现高效的数据爬取,本文介绍了爬虫的基本概念和requests库的基本使用,来实现用python爬虫爬取网页小说或者其他的正文部分,并将结果保存到input.txt文件中的案例。
2022-10-23 14:52:03
1162
商务与经济统计 原第13版第七章抽样与抽样分布英文题库
2023-03-05
商务与经济统计 原第13版第一章英文课后答案
2023-03-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人