阿威0317-优快云博客

原创 SparkSQL-02

SparkSQL将所有常用的数据源接口都进行了封装，只需要指定读写的类型和地址就可以实现读写。方式一：给定读取数据源的类型和地址方式二：直接调用对应数据源类型的方法特殊参数：option，用于指定读取时的一些配置选项1、代码演示最普通的文件读取方式：2）通过jdbc读取数据库数据先在本地数据库或者linux数据库中插入一张表：dept的数据：接着放驱动程序：Python环境放入MySQL连接驱动第一种情况：假如你是windows环境：我的最终的路径是在这里

2025-03-30 12:21:23 926

原创 SparkSQL-01

SparkSQL是Spark中专门为结构化数据计算设计的模块，基于SparkCore之上。结构化数据： text、数据库的半结构的数据：JSON 等非结构化数据：音频、视频、日志提供SQL和DSL开发接口，将SQL或者DSL语句转换为SparkCore程序，实现结构化的数据处理SparkSQL的语法和用法兼容了Hive所有方式：语法兼容性高达90%。整个Spark最主要广泛应用的模块就是SparkSQL。

2025-03-30 12:16:23 911

原创 SparkCore之RDD算子

解决定义：弹性分布式数据集通过以上英文，我们知道弹性分布式数据集，获取RDD有两种方式1）将一个现有的集合，丢进去，变为一个分布式的RDD2) 读取外部数据，变为RDD。

2025-03-30 12:15:23 631

原创 Spark的环境搭建与本地开发

DataBricks官网：https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的，Spark计算是基于内存的。spark的发展历程：2009年，Spark诞生于伯克利AMPLab，伯克利大学的研究性项目。2014年2月成为Apache顶级项目，同年5月发布Spark 1.0正式版本2018年Spark2.4.0发布，成为全球最大的开源项目，目前是Apache中的顶级项目之一。

2025-03-30 12:13:50 905

原创大数据-工具-sqoop

假如一个sqoop脚本执行一半报错了，再执行的时候就会报如上错误，相当于是hdfs中的 user/root/emp 是一个临时文件，如果sqoop导入成功，会删除这个临时文件的，但是由于没有成功，所以临时文件也没删除，第二次必定报错，解决方案：删了吧！1、一定要记得的是 Sqoop的执行脚本，底层使用的MR中的map，所以输出文件的名字都是part-m 开头。mysql 导入数据到 hive,hive 中的数据库必须提前有，hive 中的表无需创建，会自动生成的。

2025-03-29 21:18:45 579

原创大数据-工具-DataX

mysql数据导入hive表，使用sqoop，不需要事先在hive中创建表，而datax需要。这样的话，大大提升了工作量。在咱们的datax中没hiveReader，但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型，一般跟hive 表中的字段类型保持一致是不会报错的。读取mysql的数据，将数据展示在控制台上。此时的stream其实就是控制台。

2025-03-29 21:17:51 706

原创大数据-hive-03

hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能，比如：自定义函数、serde、输入输出格式等。而自定义函数可以分为以下三类：1）UDF: user defined function：用户自定义函数，一对一的输入输出（最常用的）。比如abs()2）UDAF: user defined aggregation function：用户自定义聚合函数，多对一的输入输出,比如：count sum max avg。

2025-03-29 21:15:30 1015

原创大数据-hive-02

内部表：表面来看，我们建的所有的表，默认都是内部表，内部表又叫做管理表，它的位置也很固定/user/hive/warehouse下面。外部表：创建的时候需要加关键字external 修饰，而且，外部表它的数据的存储位置可以不在/user/hive/warehouse，可以指定位置。id int,这个location 是本地的意思还是hdfs的路径呢？答案是必须在hdfs上。

2025-03-29 21:14:30 765

原创大数据-hive-01

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具。在这个世界上，会写SQL的人远远大于会写java代码的人，所以假如可以将MR通过sql实现，这个将是一个巨大的市场，FaceBook就这么干。（脸书）FaceBook --> Meta (元宇宙) --> 社交网站（校内网）在大数据中，发展趋势：所有的技术全部都变为SQL。1、Hive是一个数据仓库工具2、可以将数据加载到表中，编写sql进行分析。

2025-03-29 21:13:19 654

原创大数据-Hadoop-Yarn

1）实现Writable 接口 2）实现WritableComparable接口如果自定义的数据类型，是当做Key值，因为Key值必须能排序才行，所以需要实现WritableComparable接口，当做Value值，直接实现Writable接口即可。手机号码Key PhoneFlowWritable 是Value在MR程序中，只有能排序的数据类型才能当做Key。因为Key需要排序。Map端很多地方输出的结果都是有序的，什么有序？--》 key值有序。/**

2025-03-29 21:11:45 614

原创大数据-Hadoop-MapReduce

需求：不仅单词统计，还需要将a-p 的单词存放在一起，q-z的单词存放在一起，其他单词存放在另一个文件中。如果要完成以上的需求：就需要引入新的组件Partitioner。1、编写代码/*** Map任务 --> Partitioner --> Reducer* Partitioner 其实就是Map端的输出*/// 分区的区号，一定是从0开始的，中间不能断 0 1 2 3 4..@Override// text就是一个单词return 0;return 1;}else{

2025-03-29 21:10:45 1103

原创大数据-Hadoop-HDFS

Hadoop 分为三部分： Common、HDFS 、Yarn、MapReduce(有点过时了)Hadoop生态圈：除了hadoop技术以外，还有hive、zookeeper、flume、sqoop、datax、azkaban等一系列技术。Hadoop 是道格·卡丁本身他是Lucene的创始人。Lucene 其实是一个jar包。检索现在主流的是Solr以及ES（Elastic Search）。

2025-03-29 21:09:43 949

原创大数据学习-shell

具体放在/usr/local/sbin:/usr/local/bin ,因为这两个文件夹中没有任何的可执行文件，所以一般存放咱们自己的脚本非常合适。每次都要创建一个新的文件，比较麻烦，而且每次都要写 #!b.sh中使用a.sh中的数组（使用之前要加载，类似于java中的导包）检测左边的数是否大于等于右边的，如果是，则返回 true。检测左边的数是否小于等于右边的，如果是，则返回 true。检测左边的数是否大于右边的，如果是，则返回 true。检测左边的数是否小于右边的，如果是，则返回 true。

2025-03-29 21:07:00 804

原创大数据学习-Linux

在普通的物理机上，虚拟出来一块资源，安装另一个操作系统，这样的软件就称之为虚拟机。它可以自动的切割一些资源（内存，硬盘，CPU，网络）相当于是模拟器（windows -->模拟器--> 安卓系统-->王者荣耀）远程连接工具非常多：XShell（xftp）、FinalShell、SSH shell、Moba等FinalShell官网Xterminal - 更好用的开发工具，但不止于(SSH/控制台/More)

2025-03-29 21:05:49 998

原创 Linux安装MySQL8.0

使用这个sql语句可以修复上面的错误！可以这么干：Y1u2n3h4e5!exit 退出mysql客户端。

2025-03-29 21:02:00 168

原创 Linux安装jdk过程

将软件解压到/opt/installs。

2025-03-29 20:49:25 166

原创 Linux的远程连接

远程连接工具非常多：XShell（xftp）、FinalShell、SSH shell、Moba等WindTerm:双击连接，第一次会出现提示点击：接收并保存，以后就不提示了。

2025-03-29 20:44:43 246

原创 Linux系统配置操作命令

十一、压缩和解压。

2025-03-29 20:31:23 188

原创 Linux文件的权限控制

r表示读权限，w表示写权限，x表示执行权限。

2025-03-29 19:12:43 111

原创 Linux用户和用户组

su [-] [用户名]

2025-03-29 18:52:34 180

原创 vim编辑器的使用

退出输入模式：ESC键。进入：vim 文件名。

2025-03-29 18:39:19 167

原创 Linux基础操作

rm [-r -f] [linux路径1] [linux路径2] 含义：表示删除文件\文件夹，r表示支持删除文件夹，f表示强制删除，路径1、路径2表示可支持删除多个文件。cp [-r] [linux路径1] [linux路径2] 含义：表示可复制文件\文件夹，r表示支持复制文件夹，路径1是被复制文件，路径2是新复制的文件。wc [-c -l -w -m] [文件路径] 含义：表示统计文件的行数、单词数量等，c统计bytes数量，l统计字符数量，w统计行数，m统计单词数量。

2025-03-29 18:26:31 253

weixin_47070990的博客