自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 SparkSQL-02

SparkSQL将所有常用的数据源接口都进行了封装,只需要指定读写的类型和地址就可以实现读写。方式一:给定读取数据源的类型和地址方式二:直接调用对应数据源类型的方法特殊参数:option,用于指定读取时的一些配置选项1、代码演示最普通的文件读取方式:2) 通过jdbc读取数据库数据先在本地数据库或者linux数据库中插入一张表:dept的数据:接着放驱动程序:Python环境放入MySQL连接驱动第一种情况:假如你是windows环境:我的最终的路径是在这里

2025-03-30 12:21:23 926

原创 SparkSQL-01

SparkSQL是Spark中专门为结构化数据计算设计的模块,基于SparkCore之上。结构化数据: text、数据库的半结构的数据:JSON 等非结构化数据:音频 、视频、日志提供SQL和DSL开发接口,将SQL或者DSL语句转换为SparkCore程序,实现结构化的数据处理SparkSQL的语法和用法兼容 了Hive所有方式:语法兼容性高达90%。整个Spark最主要广泛应用的模块就是SparkSQL。

2025-03-30 12:16:23 911

原创 SparkCore之RDD算子

解决定义:弹性 分布式 数据集通过以上英文,我们知道弹性分布式数据集,获取RDD有两种方式1) 将一个现有的集合,丢进去,变为一个分布式的RDD2) 读取外部数据,变为RDD。

2025-03-30 12:15:23 631

原创 Spark的环境搭建与本地开发

DataBricks官网:https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的,Spark计算是基于内存的。spark的发展历程:2009年,Spark诞生于伯克利AMPLab,伯克利大学的研究性项目。2014年2月成为Apache顶级项目,同年5月发布Spark 1.0正式版本2018年Spark2.4.0发布,成为全球最大的开源项目,目前是Apache中的顶级项目之一。

2025-03-30 12:13:50 905

原创 大数据-工具-sqoop

假如一个sqoop脚本执行一半报错了,再执行的时候就会报如上错误,相当于是hdfs中的 user/root/emp 是一个临时文件,如果sqoop导入成功,会删除这个临时文件的,但是由于没有成功,所以临时文件也没删除,第二次必定报错,解决方案:删了吧!1、一定要记得的是 Sqoop的执行脚本,底层使用的MR中的map,所以输出文件的名字都是part-m 开头。mysql 导入数据到 hive,hive 中的数据库必须提前有,hive 中的表无需创建,会自动生成的。

2025-03-29 21:18:45 579

原创 大数据-工具-DataX

mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。

2025-03-29 21:17:51 706

原创 大数据-hive-03

hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。而自定义函数可以分为以下三类:1)UDF: user defined function:用户自定义函数,一对一的输入输出 (最常用的)。比如abs()2)UDAF: user defined aggregation function:用户自定义聚合函数,多对一的输入输出,比如:count sum max avg。

2025-03-29 21:15:30 1015

原创 大数据-hive-02

内部表:表面来看,我们建的所有的表,默认都是内部表,内部表又叫做管理表,它的位置也很固定/user/hive/warehouse下面。外部表:创建的时候需要加关键字external 修饰,而且,外部表它的数据的存储位置可以不在/user/hive/warehouse,可以指定位置。id int,这个location 是本地的意思还是hdfs的路径呢?答案是必须在hdfs上。

2025-03-29 21:14:30 765

原创 大数据-hive-01

Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的市场,FaceBook就这么干。(脸书)FaceBook --> Meta (元宇宙) --> 社交网站(校内网)在大数据中,发展趋势:所有的技术全部都变为SQL。1、Hive是一个数据仓库工具2、可以将数据加载到表中,编写sql进行分析。

2025-03-29 21:13:19 654

原创 大数据-Hadoop-Yarn

1)实现Writable 接口 2) 实现WritableComparable接口如果自定义的数据类型,是当做Key值,因为Key值必须能排序才行,所以需要实现WritableComparable接口,当做Value值,直接实现Writable接口即可。手机号码Key PhoneFlowWritable 是Value在MR程序中,只有能排序的数据类型才能当做Key。因为Key需要排序。Map端很多地方输出的结果都是有序的,什么有序?--》 key值有序。/**

2025-03-29 21:11:45 614

原创 大数据-Hadoop-MapReduce

需求:不仅单词统计,还需要将a-p 的单词存放在一起,q-z的单词存放在一起,其他单词存放在另一个文件中。如果要完成以上的需求:就需要引入新的组件Partitioner。1、编写代码/*** Map任务 --> Partitioner --> Reducer* Partitioner 其实就是Map端的输出*/// 分区的区号,一定是从0开始的,中间不能断 0 1 2 3 4..@Override// text就是一个单词return 0;return 1;}else{

2025-03-29 21:10:45 1103

原创 大数据-Hadoop-HDFS

Hadoop 分为三部分 : Common、HDFS 、Yarn、MapReduce(有点过时了)Hadoop生态圈:除了hadoop技术以外,还有hive、zookeeper、flume、sqoop、datax、azkaban等一系列技术。Hadoop 是 道格·卡丁 本身他是Lucene的创始人。Lucene 其实是一个jar包。检索现在主流的是Solr以及ES(Elastic Search)。

2025-03-29 21:09:43 949

原创 大数据学习-shell

具体放在/usr/local/sbin:/usr/local/bin ,因为这两个文件夹中没有任何的可执行文件,所以一般存放咱们自己的脚本非常合适。每次都要创建一个新的文件,比较麻烦,而且每次都要写 #!b.sh中使用a.sh中的数组(使用之前要加载,类似于java中的导包)检测左边的数是否大于等于右边的,如果是,则返回 true。检测左边的数是否小于等于右边的,如果是,则返回 true。检测左边的数是否大于右边的,如果是,则返回 true。检测左边的数是否小于右边的,如果是,则返回 true。

2025-03-29 21:07:00 804

原创 大数据学习-Linux

在普通的物理机上,虚拟出来一块资源,安装另一个操作系统,这样的软件就称之为虚拟机。它可以自动的切割一些资源(内存,硬盘,CPU,网络)相当于是模拟器(windows -->模拟器--> 安卓系统-->王者荣耀)远程连接工具非常多:XShell(xftp)、FinalShell、SSH shell、Moba等FinalShell官网Xterminal - 更好用的开发工具,但不止于(SSH/控制台/More)

2025-03-29 21:05:49 998

原创 Linux安装MySQL8.0

使用这个sql语句可以修复上面的错误!可以这么干:Y1u2n3h4e5!exit 退出mysql客户端。

2025-03-29 21:02:00 168

原创 Linux安装jdk过程

将软件解压到/opt/installs。

2025-03-29 20:49:25 166

原创 Linux的远程连接

远程连接工具非常多:XShell(xftp)、FinalShell、SSH shell、Moba等WindTerm:双击连接,第一次会出现提示点击:接收并保存,以后就不提示了。

2025-03-29 20:44:43 246

原创 Linux系统配置操作命令

十一、压缩和解压。

2025-03-29 20:31:23 188

原创 Linux文件的权限控制

r表示读权限,w表示写权限,x表示执行权限。

2025-03-29 19:12:43 111

原创 Linux用户和用户组

su [-] [用户名]

2025-03-29 18:52:34 180

原创 vim编辑器的使用

退出输入模式:ESC键。进入:vim 文件名。

2025-03-29 18:39:19 167

原创 Linux基础操作

rm [-r -f] [linux路径1] [linux路径2] 含义:表示删除文件\文件夹,r表示支持删除文件夹,f表示强制删除,路径1、路径2表示可支持删除多个文件。cp [-r] [linux路径1] [linux路径2] 含义:表示可复制文件\文件夹,r表示支持复制文件夹,路径1是被复制文件,路径2是新复制的文件。wc [-c -l -w -m] [文件路径] 含义:表示统计文件的行数、单词数量等,c统计bytes数量,l统计字符数量,w统计行数,m统计单词数量。

2025-03-29 18:26:31 253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除