- 博客(65)
- 资源 (1)
- 收藏
- 关注
原创 Spark内核学习
Spark core简单wordcount案例spark文件基本流程1、创建spark环境//配置spark对象val conf = new SparkConf()//设置任务名conf.setAppName(“wordcount”)//指定spark代码运行方式,local:本地测试conf.setMaster(“local”)//spark 上下文对象 用于数据读取(后面使用sparksql的时候使用SparkSession)2、RDD转换算子操作(因为转换算子是懒执行)3、R
2022-05-19 23:36:39
1565
原创 学习kafka知识点总结
kafka的大致框架图启动zkzkServer.sh start启动kafkakafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties创建一个topickafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3
2022-05-01 22:16:47
344
原创 学习大数据的第52天(Hive)——day02
学习大数据的第52天(Hive)——day02Hive的分区操作一、开启HIVE中分区表支持中文字段 1.根据HIVE开启分区支持中文.txt中的操作步骤去MySQL中执行,修改HIVE元数据库中的编码格式2. 插入数据 INSERT INTO TABLE filetest.partition_student PARTITION(gender="女生") SELECT "1500100002","吕金鹏",24,"文科六班"; INSERT INTO TABLE filetest.partit
2022-04-14 23:28:17
468
1
原创 学习大数据的第51天(Hive篇)
学习大数据的第51天(Hive篇)——day01Hive框架Hive是什么Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper
2022-04-13 19:37:16
710
原创 学习大数据的第50天(MapReduce篇)——mapreduce的原理概述
Mapreduce的原理Mapreduce的概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现,用户只需要覆盖map()和reduc
2022-04-08 22:29:44
2655
原创 学习大数据的第50天(Mapreduce篇)Hadoop源码分析
Hadoop源码分析:回退上一级源码快捷键:ctrl+alt+ <-数据输入:InputFormat:getSplits(具体由FileInput实现)方法一public List<InputSplit> getSplits(JobContext job) throws IOException { //创建一个时间戳 StopWatch sw = new StopWatch().start(); //最小的切片大小 long minSize = Math.
2022-04-08 22:26:25
1883
原创 学习大数据的第49天(搭建HA)
学习大数据的第49天(搭建HA)高可用HA的环境搭建(不过公司里都是用CDH ) ZK NN DN RM NM JN ZKFCmaster 1 1 1 1 1node1 1 1 1 1 1 1 1node2 1 1 1 1注意: 操作前需要保存一下之前的快照jdk hosts1、防火墙service iptables stop2、时间同步yum install ntpntpdate -u s2c.time.edu.cn或者date -s 201805033、免密钥
2022-04-07 22:44:09
1318
原创 学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识
学习大数据的第46天(Hadoop篇)——Hadoop框架的认识以及基础命令的认识Hadoop的学习笔记大数据的特点:大量、高速、多样化概述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。Hadoop框架三大组件支持:Hadoop是一个统称,目前hadoop主要包含三大组件:(1)HDFS:是一个分布式存储框架,适合海量数据的存储(2)mapreduce:是一个分布式计算框架,适合海量数据的计算(3)yarn:是一个资源调度平台,负责给计算框架分配计算资源HDF
2022-03-31 23:19:32
1839
原创 学习大数据的第45天(Hadoop篇)——搭建Hadoop平台
学习大数据的第45天(Hadoop篇)——搭建Hadoop平台如何安装Hadoop平台Hadoop安装文档基础配置(三台都要安装,切记否则后面会出错)1、关闭防火墙 systemctl status firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动 查看防火墙状态 firewall-cmd --state systemctl status firewalld.servi
2022-03-31 23:17:35
139
原创 学习大数据的第44天(python篇)——学习python的第四天(scrapy爬虫简单实例)
学习大数据的第44天(python篇)——学习python的第四天(scrapy爬虫简单实例)Python——爬虫scrapy框架Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。Scrapy架构图(绿线是数据流向)Scrapy Engine(引擎): 负责Spider、ItemPipe
2022-03-28 23:12:24
1776
原创 学习大数据的第43天(python篇)——学习python第3天
学习大数据的第42天(python篇)——学习python第3天Python的科学计算生态圈NumPy 处理一些多维矩阵Scipy library 主要是积分运算,优化以及图形Matplotlib 画图(二维图形)IPythonSympy 用的不多pandas 主要是数据分析,数据处理(比较重要)数据清洗,提供比较好的数据结构Dataframe (spark中也有)NumpyNumpy 是一个专门用于矩阵化运算,科学计算的开源Python 强大的ndarray
2022-03-28 23:09:37
2291
原创 学习大数据的第42天(python篇)——学习python的第2天
学习大数据的第42天(python篇)——学习python的第2天Python 判断循环判断格式:if 表达式1:代码块1(缩进)代码块2(缩进)代码块3(缩进)elif 表达式2:代码块4(缩进)代码块5(缩进)代码块6(缩进)else:代码块7(缩进)代码块8(缩进)age = 200if age <= 0 | age >= 150: print("成精了...")elif age >= 18: print("成年...")eli
2022-03-26 23:25:47
3149
原创 学习大数据的第41天(python篇)——学习python的第一天
学习大数据的第41天(python篇)——学习python的第一天Pyhton 基础语法Base变量变量的定义要求:1.命名要求: 字母、数字、下划线2.注意: (1)数字不能作为开头(2) 不能以关键字作为变量名注意:输出一串相同的字符串的时候,可以 print(’>>>>’ * 40)五种数据类型整型: int字符串: str小数: float布尔类型: bool空类型:NoneType注意:1.bool类型中的True和False是需要首字母
2022-03-26 23:24:01
116
原创 学习大数据的第39天(redis篇)——安装redis的注意事项
学习大数据的第39天(redis篇)——安装redis的注意事项Redis安装1. 配置阿里云yum源下载配置文件wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo生成缓存yum makecache2、上传并解压tar -zxvf redis-6.2.6.tar.gz -C /usr/local/soft/3、安装编译所需的依赖yum install -
2022-03-19 13:39:39
2023
原创 学习大数据的第38天(mysql篇)——jdbc、自定义工具类和配置文件的方法改进jdbc、如何创建maven项目、Git的使用方法以及创建spring项目的方法
学习大数据的第38天(mysql篇)——jdbc、自定义工具类和配置文件的方法改进jdbc、如何创建maven项目、Git的使用方法以及创建spring项目的方法1.加载驱动程序Class.forName(“com.mysql.jdbc.Driver”);2.获得数据库链接Connection conn=DriverManager.getConnection(URL, USER, PASSWORD);3.通过数据库的连接操作数据库,实现增删改查(使用Statement类)Statement s
2022-03-17 22:42:15
1650
原创 学习大数据的36天(mysql篇)——详解三大范式以及TopN问题
详解三大范式以及TopN问题MSQL三大范式第一范式:原子性 字段不可再分割第二范式:唯一性 字段必须依赖与逐渐问题:(1)数据冗余 (2)更新异常 (3)插入问题 (4)删除第三范式:冗余性 不能进行依赖传递TopN问题类似于查找分组中最大或者前几个信息,也就是这类的问题不能group by 来解决不能再使用group by 解决TopN的问题因为group by所获的数据量是固定的(和组的数量保持一致)TopN数量不固定-- order by se
2022-03-11 21:38:07
2535
原创 学习大数据的第34天(mysql篇)——mysql增删改查(alter、insert、update、select、delete)以及常用的函数和操作
增上改查很重要,必须掌握
2022-03-09 22:45:37
990
原创 学习大数据的第28天——UDP、TCP传输以及类加载器、反射和动态代理
java复习用了28天,java打好基础,后面才能得心应手,不过后面还得学习scala,继续 保持状态
2022-02-26 22:13:38
737
原创 自学linux的第二天——Xshell、Xftp用法、vi、vim编辑器、以及一些指令的学习
自学linux的第二天——Xshell、Xftp用法、vi、vim编辑器、以及一些指令的学习因为有些图片传不上去,如果想要笔记的话,可以私信我奥LInux实操篇——远程登陆Linux系统程序员需要安装远程登陆到Linux的软件——Xshell如果有安装文件需要放到linux系统中,则需要一款远程上传和下载的软件——XFtp5安装Xshell后,远程连接LInux系统首先得知道Linux系统的ip地址:在终端中输入ifconfiglinux的ip地址: inet addr:192.168.1
2022-02-14 22:01:12
1278
原创 自学linux第一天——对linux有基础的认识
Linux的应用领域:个人桌面应用领域服务器领域嵌入式领域Linux的特点Linux运行稳定、对网络的良好支持性、低成本、且可以根据需要进行软件的裁剪,内核最小,可以达到几百KB等特点Linux的学习流程第一阶段:基本的操作命令,包括文件操作命令(rm mkdir chmod chown) 编辑工具使用(vi vim) Linux用户管理(useradd userdel usermod)等第二个阶段:各种配置(环境变量的配置、网路配置、服务配置)第三个阶段:Linu
2022-02-12 22:04:40
811
贪吃蛇snake
2019-01-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人