- 博客(22)
- 收藏
- 关注
原创 SparkSQL-02
SparkSQL将所有常用的数据源接口都进行了封装,只需要指定读写的类型和地址就可以实现读写。方式一:给定读取数据源的类型和地址方式二:直接调用对应数据源类型的方法特殊参数:option,用于指定读取时的一些配置选项1、代码演示最普通的文件读取方式:2) 通过jdbc读取数据库数据先在本地数据库或者linux数据库中插入一张表:dept的数据:接着放驱动程序:Python环境放入MySQL连接驱动第一种情况:假如你是windows环境:我的最终的路径是在这里
2025-03-30 12:21:23
926
原创 SparkSQL-01
SparkSQL是Spark中专门为结构化数据计算设计的模块,基于SparkCore之上。结构化数据: text、数据库的半结构的数据:JSON 等非结构化数据:音频 、视频、日志提供SQL和DSL开发接口,将SQL或者DSL语句转换为SparkCore程序,实现结构化的数据处理SparkSQL的语法和用法兼容 了Hive所有方式:语法兼容性高达90%。整个Spark最主要广泛应用的模块就是SparkSQL。
2025-03-30 12:16:23
911
原创 SparkCore之RDD算子
解决定义:弹性 分布式 数据集通过以上英文,我们知道弹性分布式数据集,获取RDD有两种方式1) 将一个现有的集合,丢进去,变为一个分布式的RDD2) 读取外部数据,变为RDD。
2025-03-30 12:15:23
631
原创 Spark的环境搭建与本地开发
DataBricks官网:https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的,Spark计算是基于内存的。spark的发展历程:2009年,Spark诞生于伯克利AMPLab,伯克利大学的研究性项目。2014年2月成为Apache顶级项目,同年5月发布Spark 1.0正式版本2018年Spark2.4.0发布,成为全球最大的开源项目,目前是Apache中的顶级项目之一。
2025-03-30 12:13:50
905
原创 大数据-工具-sqoop
假如一个sqoop脚本执行一半报错了,再执行的时候就会报如上错误,相当于是hdfs中的 user/root/emp 是一个临时文件,如果sqoop导入成功,会删除这个临时文件的,但是由于没有成功,所以临时文件也没删除,第二次必定报错,解决方案:删了吧!1、一定要记得的是 Sqoop的执行脚本,底层使用的MR中的map,所以输出文件的名字都是part-m 开头。mysql 导入数据到 hive,hive 中的数据库必须提前有,hive 中的表无需创建,会自动生成的。
2025-03-29 21:18:45
579
原创 大数据-工具-DataX
mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。
2025-03-29 21:17:51
706
原创 大数据-hive-03
hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。而自定义函数可以分为以下三类:1)UDF: user defined function:用户自定义函数,一对一的输入输出 (最常用的)。比如abs()2)UDAF: user defined aggregation function:用户自定义聚合函数,多对一的输入输出,比如:count sum max avg。
2025-03-29 21:15:30
1015
原创 大数据-hive-02
内部表:表面来看,我们建的所有的表,默认都是内部表,内部表又叫做管理表,它的位置也很固定/user/hive/warehouse下面。外部表:创建的时候需要加关键字external 修饰,而且,外部表它的数据的存储位置可以不在/user/hive/warehouse,可以指定位置。id int,这个location 是本地的意思还是hdfs的路径呢?答案是必须在hdfs上。
2025-03-29 21:14:30
765
原创 大数据-hive-01
Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的市场,FaceBook就这么干。(脸书)FaceBook --> Meta (元宇宙) --> 社交网站(校内网)在大数据中,发展趋势:所有的技术全部都变为SQL。1、Hive是一个数据仓库工具2、可以将数据加载到表中,编写sql进行分析。
2025-03-29 21:13:19
654
原创 大数据-Hadoop-Yarn
1)实现Writable 接口 2) 实现WritableComparable接口如果自定义的数据类型,是当做Key值,因为Key值必须能排序才行,所以需要实现WritableComparable接口,当做Value值,直接实现Writable接口即可。手机号码Key PhoneFlowWritable 是Value在MR程序中,只有能排序的数据类型才能当做Key。因为Key需要排序。Map端很多地方输出的结果都是有序的,什么有序?--》 key值有序。/**
2025-03-29 21:11:45
614
原创 大数据-Hadoop-MapReduce
需求:不仅单词统计,还需要将a-p 的单词存放在一起,q-z的单词存放在一起,其他单词存放在另一个文件中。如果要完成以上的需求:就需要引入新的组件Partitioner。1、编写代码/*** Map任务 --> Partitioner --> Reducer* Partitioner 其实就是Map端的输出*/// 分区的区号,一定是从0开始的,中间不能断 0 1 2 3 4..@Override// text就是一个单词return 0;return 1;}else{
2025-03-29 21:10:45
1103
原创 大数据-Hadoop-HDFS
Hadoop 分为三部分 : Common、HDFS 、Yarn、MapReduce(有点过时了)Hadoop生态圈:除了hadoop技术以外,还有hive、zookeeper、flume、sqoop、datax、azkaban等一系列技术。Hadoop 是 道格·卡丁 本身他是Lucene的创始人。Lucene 其实是一个jar包。检索现在主流的是Solr以及ES(Elastic Search)。
2025-03-29 21:09:43
949
原创 大数据学习-shell
具体放在/usr/local/sbin:/usr/local/bin ,因为这两个文件夹中没有任何的可执行文件,所以一般存放咱们自己的脚本非常合适。每次都要创建一个新的文件,比较麻烦,而且每次都要写 #!b.sh中使用a.sh中的数组(使用之前要加载,类似于java中的导包)检测左边的数是否大于等于右边的,如果是,则返回 true。检测左边的数是否小于等于右边的,如果是,则返回 true。检测左边的数是否大于右边的,如果是,则返回 true。检测左边的数是否小于右边的,如果是,则返回 true。
2025-03-29 21:07:00
804
原创 大数据学习-Linux
在普通的物理机上,虚拟出来一块资源,安装另一个操作系统,这样的软件就称之为虚拟机。它可以自动的切割一些资源(内存,硬盘,CPU,网络)相当于是模拟器(windows -->模拟器--> 安卓系统-->王者荣耀)远程连接工具非常多:XShell(xftp)、FinalShell、SSH shell、Moba等FinalShell官网Xterminal - 更好用的开发工具,但不止于(SSH/控制台/More)
2025-03-29 21:05:49
998
原创 Linux的远程连接
远程连接工具非常多:XShell(xftp)、FinalShell、SSH shell、Moba等WindTerm:双击连接,第一次会出现提示点击:接收并保存,以后就不提示了。
2025-03-29 20:44:43
246
原创 Linux基础操作
rm [-r -f] [linux路径1] [linux路径2] 含义:表示删除文件\文件夹,r表示支持删除文件夹,f表示强制删除,路径1、路径2表示可支持删除多个文件。cp [-r] [linux路径1] [linux路径2] 含义:表示可复制文件\文件夹,r表示支持复制文件夹,路径1是被复制文件,路径2是新复制的文件。wc [-c -l -w -m] [文件路径] 含义:表示统计文件的行数、单词数量等,c统计bytes数量,l统计字符数量,w统计行数,m统计单词数量。
2025-03-29 18:26:31
253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人