- 博客(66)
- 收藏
- 关注
原创 SparkSQL、DSL、sparkSQL与rdd相互转换
一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe
2022-05-28 10:32:03
1148
原创 Spark算子:转化算子、执行算子;累加器、广播变量
transformations转换算子:延迟执行--针对RDD的操作 Action操作算子:触发执行,转换算子是懒执行,需要一个action算子触发执行一、转换算子1、map val conf = new SparkConf() conf.setMaster("local") conf.setAppName("map") val sc = new SparkContext(conf) //用parallelize构建rdd,不用读数据去创建rd.
2022-05-15 16:33:30
725
原创 Scala高级函数使用、集合
1、字符串拼接//java 的方式 val builder = new StringBuilder() builder.append("java") builder.append("scala") builder.append("hadoop") println(builder.toString())//scala的方式 val a = "java" val b = 1000 val c = 3.14 //底层还是St
2022-05-11 16:36:16
638
原创 Scala语言的用法
目录一、Scala与Java语言的关系二、运行环境搭建三、Scala语言具体用法1、输出语法2、变量使用和转换3、方法(函数)4、循环判断5、IO流6、异常,一般函数异常Scala已经抛出,不用在手动抛出。7、连接数据库jdbc8、字符串转换json格式9、类的重载和重写10、case类11、apply()方法一、Scala与Java语言的关系Java和Scala语言本质上是一样的,Scala就是在Java的基础上对Java语言进行
2022-05-10 21:15:56
753
原创 Hbase:简介、结构、shell命令
一、简介和启动1、 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物...
2022-05-01 15:57:28
2674
原创 hive简单数据查询、函数
一、简单数据查询1、whereWHERE + 过滤条件 between/ in / is NULL / IS NOT NULL / > < = ! ... 如果多个存在多个过滤条件 可以用 AND OR 进行条件关联 或者是用NOT 进行条件结果取反2、JOINJOIN 内连接 左外连接 右外连接 自连接 满连接 内连接: 注意:关联时一定要跟上关联条件SELECT T1.age,T2.gen...
2022-04-13 09:14:39
2571
原创 hive分区、数据加载、数据导出、数据类型
一、hive分区1、特点: 分区表与其他表不同点在于,分区字段的值为表目录下的子目录格式 ,为: 分区字段=值2.建表语句create database learn2;CREATE TABLE IF NOT EXISTS learn2.partition_student(id STRING COMMENT "学生ID",name STRING COMMENT "学生姓名",age int COMMENT "年龄",gender STRING COMMENT "性别"...
2022-04-12 20:54:54
2727
原创 Hive概念、架构、启动方式、基本命令
一、概念Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库,英文名称为Data W
2022-04-11 20:07:20
5757
原创 切片、Combiner编程、mapjoin、MapReduce工作流程详解、yarn工作机制
一、切片1、split切分数据最好和block块一致2、虚拟切片(处理多个数据量小的文件)在driver中加入以下代码import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;CombineTextInputFormat.setMaxInputSplitSize(job,4194304); //设置最大切片大小,单位字节job.setInputFormatClass(CombineTextInput
2022-04-10 19:09:58
1086
原创 MapReduce
一、概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常
2022-04-09 19:55:50
593
原创 Python数据爬虫
一、Scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 二、Scrapy架构图(绿线是数据流向) Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯,信号、数据传递等。 Sch
2022-03-31 19:38:13
2473
原创 MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用
MySQL:where和having、表纵向连接、select * from a,b 表横向连接、连表联查、SQL作为表使用
2022-03-11 20:23:07
1594
原创 mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN
mysql:时间、逻辑判断(if、case when)、排序、自定义数据查询、MSQL三大范式、group分组、TopN
2022-03-10 21:53:27
2280
原创 MySQL:alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作
alter修改库、表和字段;添加数据;修改数据;筛选数据;查询语句;删除数据;常用函数和操作
2022-03-09 21:46:26
7275
原创 shell编程:流程控制语句、循环语句、键盘录入read、数组、方法、显示时间、重定向、定时器。
shell编程:if语句;for循环:是不是素数,水仙花,乘法口诀;键盘录入read、数组、方法、显示时间、重定向、定时器。
2022-03-04 20:34:41
382
原创 多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器
多线程:死锁问题、线程间通信、线程组、线程池、多线程实现方式(三)、使用匿名内部类实现多线程、定时器
2022-02-23 16:50:17
292
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人