dddd_疾-优快云博客

原创 springboot总结

Configuration // 可以同时导入多个配置类，比如：@Import({A.class,B.class}) @Import(MoonBookConfiguration.class) public class MoonUserConfiguration { @Bean public UserService userService(BookService bookService) { return new BookServiceImpl(bookService);

2023-06-13 22:31:22 142

原创 spark总结

宽依赖: 一个父(上游)RDD的Partition可以被子(下游)RDD的多个Partition使用(会产生Shuffle), 像多生子女;RDD的Lineage(血统)会记录RDD间的元数据信息和转换行为, 当该RDD的部分分区数据丢失时可以根据这些信息来恢复数据并重新计算。分布式计算中, Driver要往Executor端发数据, 所以数据要支持序列化(算子内经常会用到算子外的数据, 闭包检测)算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。

2023-06-13 22:29:50 207

原创 Spring Boot整合MyBatis

在开发中，通常会涉及到对数据库的数据进行操作，Spring Boot在简化项目开发以及实现自动化配置的基础上，对关系型数据库和非关系型数据库的访问操作都提供了非常好的整合支持。Spring Boot默认采用整合SpringData的方式统一处理数据访问层，通过添加大量自动配置，引入各种数据访问模板xxxTemplate以及统一的Repository接口，从而达到简化数据访问层的操作。Spring Boot提供的常见数据库依赖启动器名称对应数据库。

2023-06-07 16:44:17 706

原创 Spark SQL数据源-基本操作

默认情况下，load()方法和save()方法只支持Parquet格式的文件，Parquet文件是以二进制方式存储数据的，因此不可以直接读取，文件中包括该文件的实际数据和Schema信息，也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。除了使用select()方法查询外，也可以使用SparkSession对象的sql()方法执行SQL语句进行查询，该方法的返回结果仍然是一个DataFrame。

2023-05-31 17:30:50 1072

原创 Spring Boot多环境配置

【代码】Spring Boot多环境配置。

2023-05-31 16:46:11 995

原创 SpringBoot加载自定义配置文件

** 为了在属性文件中使用中文，设置一下idea如下–**在net.dw.boot.config包里创建配置类StudentConfig@Component @PropertySource("classpath:myconfig.properties") //加载自定义配置文件 @ConfigurationProperties(prefix = "student") public class StudentConfig {//学号 private String name;

2023-05-30 10:52:20 1405

原创 Spark Sql概述数据集数据帧

**执行：val ds =spark.read.textFile(“hdfs://master:9000/student2/input/student.txt”)–**定义一个样例类Student，用于存放数据描述信息（Schema）–这样的单列数据集太粗糙，应该加点元数据信息，让它更精细。

2023-05-24 18:10:38 776

原创 Spring Boot两种全局配置和两种注解

全局配置文件能够对一些默认配置值进行修改。Spring Boot使用一个application.properties或者application.yaml的文件作为全局配置文件，该文件存放在src/main/resource目录或者类路径的/config，一般会选择resource目录。

2023-05-24 16:25:18 652

原创 SpringBoot02热部署和web基础

–在Idea设置SpringBoot热部署–web基础开发1、2、3、42.控制器（1）Spring Boot 提供了@controller 和@RestController两种注解来标识此类负责接受和处理HTTP请求（2）如果请求的页面和数据，使用Controller 注解即可；如果只是请求数据则可以使用@RestController注解。（3）Model View Contrlloer (MVC)

2023-05-23 20:34:31 241

原创 Spark大数据SparkRDD案例

1.利用RDD计算总分和平均分。2.利用RDD统计每日新增用户。3.利用RDD实现分组排行榜。

2023-05-10 12:03:11 1376

原创 Spark大数据RDD容错机制

累加器，检查点机制、检查点和持久化的区别

2023-05-10 11:06:40 598

原创学习springboot01项目的创建和基本的使用

使用Spring Boot开发项目时，一旦引入了某个场景的依赖启动器，Spring Boot内部提供的默认自动化配置类就会生效，开发者无须手动在配置文件中进行相关配置(除非开发者需要更改默认配置)，从而极大减少了开发人员的工作量，提高了程序的开发效率。例如，Spring Boot入门较为简单，但是深入理解和学习却有一定的难度，这是因为SpringBoot是在Spring框架的基础上推出的，所以读者想要弄明白Spring Boot的底层运行机制，创建springboot项目的两种方式。

2023-05-09 11:29:01 874

原创 springmvc

创建wd.spring.controller子包，然后在包里创建LoginController类。

2023-03-08 16:34:46 71

原创 Java框架之SpringBoot入门其一

.

2023-03-07 20:33:37 513

原创大二上总结

.

2022-12-21 20:37:25 124

原创 Hadoop总结

一个MapReduce 作业通常会把输入的数据集切分为若干独立的数据块，由map任务以完全并行的方式处理。HDFS是GFS的开源实现，是Hadoop的底层实现部分，存储Hadoop集群中所有存储节点上的文件。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。NameNode用来管理文件系统的命名空间，其将所有的文件和文件夹的元数据保存在一个文件系统树中。

2022-12-20 23:56:21 162

原创大数据MR案例：计算学生成绩

利用MR框架，计算每个同学的平均分。然后新建一个maven项目。创建 sinput文件夹。进入hadoop目录。和score.txt。

2022-12-20 20:20:56 290

原创大数据MapReduce框架原理

问题引出MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？2）MapTask并行度决定机制数据块：Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。

2022-12-20 20:12:11 100

原创大数据5.3MapReduce（序列化）

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。（7）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

2022-12-19 17:19:45 100

原创大数据5.2MapReduce（wordcount）

（3）修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径。（2）在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入。（3）创建包名：com.atguigu.mapreduce.wordcount。（1）用maven打jar包，需要添加的打包插件依赖。（2）在IDEA/Eclipse上运行程序。（2）在pom.xml文件中添加如下依赖。

2022-12-19 17:12:44 147

原创大数据5.1MapReduce(概述)

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

2022-12-19 16:58:37 79

原创大数据4.3HDFS的API操作

参数优先级排序：（1）客户端代码中设置的值 >（2）ClassPath下的用户自定义配置文件 >（3）然后是服务器的自定义配置（xxx-site.xml） >（4）服务器的默认配置（xxx-default.xml）1）需要Windows hadoop依赖文件夹，并且放在非中文路径（比如d:\）。2）将hdfs-site.xml拷贝到项目的resources资源目录下。4）创建包名：com.atguigu.hdfs。2）配置HADOOP_HOME环境变量。5）创建HdfsClient类。

2022-12-19 16:58:13 227

原创大数据4.2HDFS的Shell操作

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。3）-chgrp、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限。2）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去。4）-appendToFile：追加一个文件到已经存在的文件末尾。5）-cp：从HDFS的一个路径拷贝到HDFS的另一个路径。11）-setrep：设置HDFS中文件的副本数量。7）-tail：显示一个文件的末尾1kb的数据。

2022-12-19 16:57:38 81

原创大数据4.1HDFS

1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2）HDFS定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读

2022-12-19 16:56:56 88

原创大数据3.3完全分布式下

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。（3）在配置了ResourceManager的节点（hadoop103）启动YARN。（b）查看HDFS上存储的数据信息。

2022-12-19 16:56:40 72

原创大数据3.4分布式常见错误

原因是在Linux的根目录下/tmp目录中存在启动的进程临时文件，将集群相关进程删除掉，再重新启动集群。（1）在/etc/hosts文件中添加192.168.10.102 hadoop102。9）执行命令不生效，粘贴Word中命令时，遇到-和长–没区分开。10）jps发现进程已经没有，但是重新启动集群，提示进程已经开启。（2）主机名称不要起hadoop hadoop000等特殊名称。5）root用户和atguigu两个用户启动集群不统一。解决办法：尽量不要粘贴Word中代码。2）主机名称配置错误。

2022-12-19 16:56:34 146

原创大数据3.3完全分布中

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）known_hosts：记录ssh访问过计算机的公钥（p）要获取的默认文件文件存放在Hadoop的jar包中的位置。3）.ssh文件夹下（~/.ssh）的文件功能解释。4）在集群上分发配置好的Hadoop配置文件。（3）将公钥拷贝到要免密登录的目标机器上。ssh另一台电脑的IP地址。

2022-12-19 16:56:12 75

原创 3.2完全分布式.上

在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录复制到hadoop103上。在hadoop103上操作，将hadoop102中/opt/module目录下所有目录复制到hadoop104上。命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称。需要输入分别输入hadoop102 和hadoop104的密码。注意：如果用了sudo，那么xsync一定要给它的路径补全。（1）需求：循环复制文件到所有节点的相同目录下。

2022-12-19 16:55:35 76

原创大数据3.1hadoop本地运行

伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。1）Hadoop官方网站：http://hadoop.apache.org/2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。本地模式：单机运行，只是用来演示一下官方案例。完全分布式模式：多台服务器组成分布式环境。如果wcoutput存在就会报错。创建wcinput这个文件夹。首先进入hadoop目录。在里面随便输入点单词。进入wcoutput。

2022-12-14 20:07:43 194

new_renren的博客