- 博客(59)
- 收藏
- 关注
原创 Day59 自定义UDTF函数与Hive调优(未完结)
UDF函数老版本UDF 不推荐使用:① 创建自定义类继承UDF 注意 自定义函数名必须使用 evaluate 不然识别不到public class MyUDFAddString extends UDF { /** * 定义函数名 evaluate * 实现将传入的String 增加后缀 ### * * @param col HIVE中使用函数时传入的数据 * @return 一行数据 */ public String e...
2022-05-05 21:15:58
466
原创 Day58 Hive中的窗口函数
后台启动Hive的JDBC连接0表示标准输入,1表示标准输出,2表示标准错误输出,nohup表示挂起,&表示后台启动nohup hive --service hiveserver2 > /usr/local/soft/hive-3.1.2/log/hiveserver2.log 2>&1 &关闭后台启动的jdbc用jps查看RunJob,使用kill -9 关闭RunJob对应的进程号Hive中的wordcount实例使用后台启动hive的jdb
2022-04-25 10:26:19
786
原创 Day57 Hive 分区表、数据加载和导出,简单数据查询以及函数
分区表的创建,数据的加载,导出,数据类型及简单数据查询各种基本函数及其使用
2022-04-13 22:30:25
2632
1
原创 Day56 Hive的安装与JDBC基本命令
Hive的安装前提:安装hive所需要的虚拟机环境为虚拟机安装有Hadoop并且集群成功,同时Hadoop需要在启动状态下,同时需要安装有mysql。不需要有zookeeper和HA,由于HA中含有大量进程,启动会占用很多资源,建议不要有HA安装步骤:上传将hive-3.1.2上传到虚拟机中的/usr/local/soft目录下解压hive-3.1.2输入命令:tar -zxvf apache-hive-3.1.2-bin.tar.gz解压文件:重命名:.
2022-04-10 22:53:34
2433
原创 Day52 Zookeeper的安装与使用、HA的搭建、MapReduce框架概述
ZooKeeper的安装与配置1、上传安装包到master并解压tar -zxvf zookeeper-3.4.6.tar.gz这里所使用的zooKeeper-3.4.6的压缩包版本过低,可能无法完成zookeeper中的一些操作命令,建议安装zookeeper-3.5.7版本或者更高版本2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6 export PA...
2022-04-05 21:39:50
1734
原创 Day51 HDFS的概述及其操作
HDFSHDFS是一种允许文件通过网络在多台主机上分享的文件系统,可让多台机器上的多用户分享文件和存储空间通透性:让实际上是通过网络来访问文件的动作,由程序和用户看起来就像是访问本地的磁盘一样容错:即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失(通过副本机制实现)HDFS是众多分布式文件管理系统中的一种,不适用于小文件Java连接HDFS在使用IDEA连接hdfs之前,需要将虚拟机中的Hadoop启动使用IDEA创建一个maven项目,在其中导入依赖首
2022-04-04 17:29:03
1963
原创 Day47 Pandas数据分析
Pandas的下载控制台中输入命令:pip install pandas进行下载pandaspandas下载成功后,会出现上述界面pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能SeriesSeries是一种类似于一维数组的对象,由数据(各种NumPy数据 类型)以及与之相关的数据标签(即索引)组成可以通过字典构建Series对象,Series对象的索引也是可以修改的
2022-03-27 22:54:12
3100
原创 Day46 python中的选择循环结构、pip的安装与使用、面向对象、类与模块
选择结构python中的选择结构同Java有所不同格式:if 表达式1: 代码块1elif 表达式2: 代码块2else: 代码块3举例:从键盘输入年龄,判断是否成年引入: python中从键盘录入为input,默认为str类型,想要输入int类型需要加入类型转换age = int(input("请输入年龄:"))if age <= 0 | age >= 180: print("数据错误")e...
2022-03-25 22:36:15
2280
原创 Day45 Python的安装、Python基本语法
Python概述python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言python语言的优点:1、优雅、简单、明确,让数据分析师们摆脱了程序本身语法规则的泥潭,更快的进行数据分析2、强大的标准库,完善的基础代码库,覆盖了网络、通信、文件处理、数据库接口、图形系统、XML处理等大量内容,被形象的称为"内置电池"3、良好的可扩展性,大量的第三方模块,覆盖了科学计算、Web开发、数据接口、图形系统等众多领域,开发的代码通过很好的封装,也可以作为第三方模块给别人使用。如Panda
2022-03-24 22:55:22
1584
原创 Day44 Redis集群搭建和Hadoop的安装
集群搭建1、创建安装目录 在master ,node1 ,node2中分别创建mkdir /usr/local/soft/redis-cluster2、将redis 复制到redis-cluster 目录下修改名字为7000复制前删除单机版缓存文件rm -rf appendonly.aof rm -rf dump.rdbcp -r /usr/local/soft/redis /usr/local/soft/redis-clustermv /usr/local/soft
2022-03-22 21:23:34
4228
原创 Day38 Maven的安装与使用
Maven的安装1、将下后的Maven压缩包解压到文件目录2、更改maven的配置文件由于通过Maven 下载项目时,默认访问的是外网,需要将网络改为国内网站点击进入到Maven的解压目录,进入到其中点击conf文件夹,编辑其中的settings.xml将其中有关配置更改为如下所示加入一行:<localRepository>...</localRepository>其中的内容是需要从网上下载的包的位置,可以自己在Maven文件夹下创建一个新的文件夹r.
2022-03-20 15:31:30
445
原创 Day37 Mysql 使用其他编程语言操作mysql
索引提高查询效率每个字段都可以加索引给经常做查询的字段加索引主键默认包含索引alter table 表名 add index 索引名称(字段)alter table student add index nameindex(name);alter table student drop index nameindex;事务mysql批处理 执行一批SQL语句 原子性的 不可再分割 要成功 都成功 要失败都失败sql的执行每一条都是独立的事务可以对于多张表进行同时操
2022-03-13 20:00:39
966
原创 Day36 Mysql mysql中的连表联查
where 和 havingwhere和having都是用做筛选where:处理元数据(from读取的数据)having:对from读取数据的处理结果进行再次筛选where->group by ->havingselect *,age-18 as c from student where c>2; # 报错select *,age-18 as c from student having c>2; # 正确select sex,count(*)
2022-03-11 20:10:08
136
原创 Day35 Linux MySQL中的时间函数,分页及表的设计
时间函数获取时间 获取年月日 获取时分秒 获取年月日时分秒-- 获取所有select CURRENT_TIMESTAMP();select CURRENT_TIMESTAMP;-- 获取年月日select CURRENT_DATE();select CURRENT_DATE;-- 获取时分秒SELECT CURRENT_TIME();SELECT CURRENT_TIME;时间和varchar相互转换 时间转str-- SELECT CURRENT_Date;
2022-03-10 18:57:07
708
原创 Day33 Linux MySQL的安装与使用,Navicat的安装与使用以及表中数据属性的设置
MySQL概述所谓MySQL,其实就是一种关系化数据库。所谓关系化就是存放的数据可以一对一,一对多和多对多。另外还有一种数据库叫做非关系型数据库,也称作NoSQL或者KeyValue数据库,其存储方式和关系化数据库有很大的区别。非关系型数据有很多,比如redis,Hbase等MySQL的安装安装MySQL的目的:MySQL对于数据的存储有明确的规定和详细的划分,方便与管理。安装MySQL其实就是安装了一个数据库管理程序,该程序可以对数据库进行管理和操作,一般为了存储数据,会在数据
2022-03-07 22:21:48
1202
原创 Day32 Linux Shell中的输入、数组、函数、日期、重定向与定时器
从键盘输入,shell中的数组,方法,以及获取日期,文件的重定向,定时器任务的执行
2022-03-05 22:27:33
882
原创 Day31 Linux Shell中的关系运算符以及使用Shell打印水仙花数和九九乘法表,敲七游戏
Shell中的关系运算符的使用if的三种格式,for循环与增强for循环
2022-03-04 21:52:53
4387
原创 Day26 Java 设计模式、网络编程
设计模式设计模式分为三类:创建型:创建对象;结构型:对象的组成;行为型:对象的功能主要说创建型:1、单例模式:指的是在程序的运行过程中,内存中只允许一个对象存在如何保证内存中只允许一个对象存在:1、将构造方法私有化;2、在类的成员变量位置上创建一个对象;3、提供一个静态方法让外界能够获取到这个对象饿汉式:随着类的加载,对象就创建好了懒汉式(延迟加载):用的时候再去创建对象,但内存中始终只有一个对象懒汉式容易出现线程安全问题饿汉式举例:public class
2022-02-22 22:08:22
542
1
原创 Day25 Java 线程之间的通信
多线程(续)Lock锁同步代码块和同步方法虽然解决了线程安全问题,但表达不出在哪里加了锁,在哪里释放了锁,所以在JDK1.5之后提供了一个新的锁对象:LockLock是一个接口,其中有两个方法:void lock():加锁 ;void lock():释放锁在创建Lock对象需要使用他的实现类:ReentrantLock以电影院卖票为例:也就是解决线程安全问题的第二种方式import java.util.concurrent.locks.Lock;import java.uti
2022-02-21 21:52:36
226
原创 Day24 Java 多线程
多线程概述进程: 正在运行的程序,是系统进行资源分配和调用的独立单位。 每一个进程都有它自己的内存空间和系统资源。线程: 是进程中的单个顺序控制流,是一条执行路径。一个进程如果只有一条执行路径,则称为单线程程序。一个进程如果有多条执行路径,则称为多线程程序。线程包含在进程中三个关键词:1、串行指的是一个程序中所有的任务都是按照先后顺序执行的,在前一个任务还没有处理完的情况下,是不会进行处理下一个任务的2、并行指的是将任务分给不同的处理器去处理,每一个处理器中再进行串行处理。
2022-02-19 22:16:39
205
原创 Day23 Java IO流
目录IO流IO流的分类:字节输入流FileInputStream的构造方法字节缓冲流加密解码:字符流字符流的分类字符输出流OutputStreamWriter的构造方法OutputStreamWriter 写数据的方法flush()与close()的区别:字符输入流InputStreamReader的构造方法InputStreamReader读数据的方法(成员方法)字符缓冲流字符缓冲输出流:BufferedWriter:字符缓冲输入..
2022-02-18 22:19:35
312
原创 Day22 Java IO流 File、IO流的字节输出流
File概述:想要实现IO流操作,就必须要知道硬盘上文件的表现形式Java提供了一个类让我们操作硬盘上的文件:File。File也就是文件的表现形式File:文件和目录(文件夹)路径名的抽象表示。File类的构造方法public File(String pathname)通过将给定的路径名字符串转换为抽象路径名来创建新的File实例。 如果给定的字符串是空字符串,则结果是空的抽象路径名。public File(String parent,String child)从父路
2022-02-17 22:34:01
262
原创 Day21 Java IO流 异常
异常Java程序出现不正常的情况异常的分类Java中的异常:Throwable严重的问题:Error,我们不处理,这样的问题一般都是很严重的,比如说内存溢出(OOM)问题:Exception(异常)分为编译时期异常与运行时期异常编译时期异常:除了RuntimeException都是编译时期异常,必须要处理,如果不处理,程序编译无法通过,无法运行运行时期异常:RuntimeException,这样的问题,一般情况下,我们不会对问题本身进行处理,因为这样的问题是在自己写代码的过程中由
2022-02-16 21:20:00
581
原创 Day20 Java Map接口的子类HashMap、TreeMap以及Collections工具类
Map下的子类HashMap与TreeMap,Collections工具类Map集合的嵌套
2022-02-15 22:26:00
233
原创 Day19 Java 泛型,增强for循环,Collection集合中Set接口的子类HashSet与TreeSet
泛型,泛型的优点Set的子类HashSet和TreeSet
2022-02-11 22:11:38
661
原创 Day18 常见的数据结构、List的子类ArrayList类、Vector类与LinkedList类
栈、队列、数组、链表、树、哈希表以及图的理解List的三个子类,ArrayLIst类,Vector类,LInkedList类
2022-02-11 21:42:30
284
原创 Day15 Java StringBuffer类、基本类型包装类
StringBuffer类中的功能,基本包装类,Math类,日期类String与int类型之间的转换
2022-01-21 21:58:04
327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人