
大数据
大数据常见的问题。
小白文
这个作者很懒,什么都没留下…
展开
-
Hive练习
一、创建表1.创建students表创建表create table students( id bigint comment '学生id', name string comment '学生姓名', age int comment '学生年龄', gender string comment '学生性别', clazz string comment '学生班级') comment '学生信息表'row format delimited fields termina原创 2021-09-05 10:27:37 · 342 阅读 · 0 评论 -
Hive搭建
1.安装MySQL(已安装跳过)(1)下载yum Repositorywget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm(2)安装yum Repositoryyum -y install mysql57-community-release-el7-10.noarch.rpm(3)安装mysql5.7yum -y install mysql-community-server(4)开机原创 2021-09-05 01:17:26 · 278 阅读 · 0 评论 -
HiveJDBC
1.添加包依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.6</version> </dependency> <!-- https:/原创 2021-09-08 21:36:34 · 348 阅读 · 0 评论 -
ZookeeperAPI
1.添加包依赖<!-- https://mvnrepository.com/artifact/org.apache.zookeeper/zookeeper --> <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <v原创 2021-09-11 20:57:15 · 125 阅读 · 0 评论 -
Zookeeper集群搭建
Zookeeper集群搭建需要准备三个节点:master、node1、node2。1.上传安装包到master并解压tar -zxvf zookeeper-3.4.6.tar.gz2.配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6#注意:以下内容只需要在PATH后追加**:$ZOOKEEPER_HOME/bin**即可。export PATH=$PATH:$ZOOKEEPER_HOME/b原创 2021-08-30 10:12:24 · 289 阅读 · 0 评论 -
hbase shell基础
1.创建一个test1表,并且有一个info列族create 'test1' ,'info'2.查看所有表list3.查看表详情desc 'test1'4.插入数据put 'test1','001','info:name','zhangsan'5.根据rowKey查询某个记录get 'test1','001'6.查询所有记录scan 'test1'7.统计表记录数count 'test1'8.删除#删除列delete 'test1','000','原创 2021-09-13 00:28:41 · 164 阅读 · 0 评论 -
PhoenixJDBC
PhoenixJDBC1.在pom.xml中加载phoenix依赖 <dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-core</artifactId> <version>4.15.0-HBase-1.4</version> </原创 2021-09-24 17:26:26 · 773 阅读 · 0 评论 -
HBase集群搭建
1.启动hadoop&启动zookeeper#1.启动hadoopstart-all.sh#2.查看进程jps#3.启动zookeeper(需要在三台中分别启动)zkServer.sh start#4.查看zk状态zkServer.sh statusmasternode1node22.上传hbase压缩包并解压上传压缩包解压tar -zxvf hbase-1.4.6-bin.tar.gz -C /usr/local/soft/3.配置环境变量vim /原创 2021-09-12 22:23:35 · 268 阅读 · 1 评论 -
HBase过滤器
1.作用过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端。过滤器可以分为两大类:(1)比较过滤器:可以应用于rowkey、列簇、列、列值过滤器(2)专用过滤器 :只能适用于特定的过滤器2.比较过滤器比较运算符LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >NO_OP 排除所有常见六大比较过滤器BinaryCompa原创 2021-09-24 17:14:22 · 314 阅读 · 0 评论 -
HBaseJavaAPI
1.在pom.xml文件中加入相关依赖<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-client --> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId>原创 2021-09-14 22:21:27 · 207 阅读 · 0 评论 -
Phoenix搭建
1.关闭hbase集群stop-hbase.sh2.上传并解压上传tar -zxvf apache-phoenix-4.15.0-HBase-1.4-bin.tar.gz -C /usr/local/soft/重命名mv apache-phoenix-4.15.0-HBase-1.4-bin phoenix-4.15.03.将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下scp /usr/local/soft/ph原创 2021-09-18 14:34:37 · 164 阅读 · 0 评论 -
Sqoop安装
1.上传Sqoop&mysql驱动2.解压sqooptar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /usr/local/soft/3.重命名mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop-1.4.64.修改配置文件#切换至/usr/local/soft/sqoop-1.4.6/conf目录cd /usr/local/soft/sqoop-1.4.6/conf#复制配置原创 2021-09-22 20:38:23 · 139 阅读 · 0 评论 -
FlinkX安装与使用
FlinkX安装上传flinkX解压flinkX#先安装unzipyum install unzip#解压unzip flinkx-1.10.zip -d /usr/local/soft/配置环境变量vim /etc/profile#追加以下内容#flinkxexport FLINKX_HOME=/usr/local/soft/flinkx-1.10export PATH=$FLINKX_HOME/bin:$PATH给bin/flinkx这个文件加上执行权限chmod原创 2021-09-24 20:58:41 · 881 阅读 · 0 评论 -
Kettle安装及使用
Kettle安装windows下安装1、安装jdk2、下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可3、双击Spoon.bat,启动图形化界面工具,就可以直接使用了Kettle简单使用MySQL TO MySQL把stu1的数据按id同步到stu2,stu2有相同id则更新数据在mysql中创建testkettle数据库,并创建两张表create database testkettle;use testkettle;create table s原创 2021-09-24 21:55:07 · 199 阅读 · 0 评论 -
Flume搭建
1.上传flume2.解压flumetar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/3.重命名mv apache-flume-1.9.0-bin/ flume-1.9.04.配置环境变量vim /etc/profile#追加以下内容#flumeexport FLUME_HOME=/usr/local/soft/flume-1.9.0export PATH=$FLUME_HOME/bin:$PATH#刷新原创 2021-09-23 20:33:36 · 561 阅读 · 0 评论 -
DataX安装及使用
1.DataX安装上传datax解压tar -zxvf datax.tar.gz -C /usr/local/soft/添加环境变量vim /etc/profile#追加以下内容#dataxexport DATAX_HOME=/usr/local/soft/dataxexport PATH=$PHOENIX_HOME/bin:$SQOOP_HOME/bin:$DATAX_HOME/bin:$PATH2.DataX使用编写stream2stream.json# stream原创 2021-09-24 17:44:15 · 272 阅读 · 0 评论 -
Linux文本分析
*文本分析 *cut:显示切割的行数据 * f:选择显示的列 * s:不显示没有分隔符的行 * d:自定义分隔符 **例: cut -d':' -f1 passwd *sort:排序文件的行 * n:按数值排序 * r:倒序 * t:自定义分隔符 * k:选择排序列 * u:合并相同行 * f:忽略大小写 *wc:输出文件中的行数、单词数、字节数 * c:输出字节统计数 * l:输出换行符统计数 * w:输出单词统计数 * L:输原创 2021-08-05 16:34:38 · 172 阅读 · 0 评论 -
Restarting network (via systemctl): Job for network.service failed...
1.错误背景将挂起的虚拟机启动,突然连不上网,重启网络服务失败。2.报错现象Restarting network (via systemctl): Job for network.service failed......3.解决方案停止并禁用虚拟机 NetworkManager 服务#停止并禁用虚拟机 NetworkManager 服务#停止systemctl stop NetworkManager#禁用systemctl disable NetworkManager重启网络se原创 2021-09-25 08:27:06 · 3129 阅读 · 0 评论 -
CentOS7安装教程
CentOS7安装教程虚拟机安装第一步:打开VMware Workstation软件,如下图所示:第二步:单击“创建虚拟机”,弹出“欢迎使用新建虚拟机向导”界面,选择“典型(推荐)(T)”,再单击“下一步”,如下图所示:第三步:选择“稍后安装操作系统(S)”,再单击“下一步”,如下图所示:第四步:选择“Linux(L)”,再在版本(V)下拉框中选择“CetOS64位”,最后点击**“下一步**”,如下图所示:第五步:在虚拟机名称(V)框中写入虚拟机名称(任意起),再选择安装位置,最后单击原创 2021-07-31 22:16:42 · 150 阅读 · 0 评论 -
Linux正则表达式:grep命令
*正则表达式: *grep:显示匹配行 *v:反显示 *e:使用扩展正则表达式 *匹配操作符: *\ --->转义字符 *. --->匹配任意单个字符 *[1249],[^12],[a-k] --->字符序列单字符占位 *^ --->行首 *$ --->行尾 *\<,\>:\<abc --->单词首尾边界 *| --->连接操作符 *(,) --->选择操作符 *\n ---&原创 2021-08-04 15:08:37 · 87 阅读 · 0 评论 -
Linux简单命令
Linux简单命令shell bash*type:命令类型*外部命令&内部命令*用法:type 命令*help:内部命令帮助*help:内部命令清单,附带语法格式,描述。*用法:help 具体内部命令*man:外部命令帮助*安装:yum install man -y*用法:man 具体外部命令 *whereis:定位命令位置*用法:whereis 具体命令*file:文件类型*用法:file 命令路径*echo:打印到标准输出*用法:echo 输出的内原创 2021-08-01 19:56:27 · 117 阅读 · 0 评论 -
vi全屏编辑器
vi全屏编辑器: 1.打开文件: (1)vi 文件名 *vi profile -->打开profile文件 (2)vi +# -->打开文件,并定位于第#行 *vi +3 profile -->打开profile文件,并定位于第3行 (3)vi + -->打开文件,定位至最后一行 *vi + profile -->打开profile文件,定位至最后一行 (4)vi +/PATTERN:打开文件,定位至第一次被PATTERN匹配到的行的行首原创 2021-08-04 10:45:55 · 269 阅读 · 0 评论 -
HDFS读写流程
HDFS概述HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据;Datanode存储了实际的数据。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或原创 2021-09-03 16:54:56 · 347 阅读 · 0 评论 -
mapreduce单词统计
该程序的功能:(1)读取文件(2)统计每个单词出现的数量1.创建words.txt文件并上传到HDFS创建words.txt文件,添加内容vim words.txt#添加单词(任意单词)hadoop,hive,hbasespark,flink,kafkapython,java,scalasqoop,hello,worldsqoop,hello,worldsqoop,hello,worldsqoop,hello,worldsqoop,hello,world上传到HDFShd原创 2021-09-01 09:15:32 · 2067 阅读 · 0 评论 -
YARN HA搭建
1.停止YARN集群stop-yarn.sh2.修改配置文件yarn-site.xml<!-- //////////////以下为YARN HA的配置////////////// --><!-- 开启YARN HA --><property><name>yarn.resourcemanager.ha.enabled</name><value>true</value></property>原创 2021-08-31 21:12:53 · 179 阅读 · 0 评论 -
Hadoop集群搭建
1、上传安装包并解压#使用xftp上传压缩包至master的/usr/local/soft/modulecd /usr/local/soft/module#解压tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/soft/2、配置环境变量vim /etc/profile#jdkexport JAVA_HOME=/usr/local/soft/jdk1.8.0_171export REDIS_HOME=/usr/local/soft/redis/原创 2021-08-28 17:31:57 · 309 阅读 · 0 评论 -
Java操作HDFS的API接口
1.文件操作 (1)create写文件 (2)open读取文件 (3)delete删除文件2.目录操作 (1)mkdirs创建目录 (2)delete删除文件或目录 (3)listStatus列出目录的内容 (4)getFileBlockLocations显示文件存储位置1.创建maven项目在pom.xml中追加hadoop-client依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-cl原创 2021-08-30 14:26:14 · 217 阅读 · 0 评论 -
HDFS HA搭建
HA ZK NN DN RM NM JN ZKFCmaster 1 1 1 1 1node1 1 1 1 1 1 1 1node2 1 1 1 11.免密钥在两个主节点生成密钥文件ssh-keygen -t rsassh-copy-id ipmaster-->master,node1,node2node1-->master,node1,node22.停止HDFS集群stop-dfs.sh3.修改hadoop配置文件core-site.xml&l原创 2021-08-31 20:22:40 · 157 阅读 · 0 评论 -
There are 86 missing blocks. The following files may be corrupted:
1.错误背景集群断电重启块丢失,master:50070页面报错:There are 2 missing blocks. The following files may be corrupted:2.报错现象There are 86 missing blocks. The following files may be corrupted:3.解决方案删除缺失文件hadoop fsck -delete 缺失文件路径检查集群健康状态...原创 2021-09-26 09:03:48 · 726 阅读 · 0 评论 -
MapReduce
MapReduce介绍MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MapReduce是分布式运行的,由两个阶段组成,分别是:Map和Reduce。Map阶段:是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段:是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,map()和reduce()原创 2021-09-02 18:51:57 · 619 阅读 · 0 评论 -
Spark搭建
Spark搭建1.停止hadoop集群#在master上执行stop-all.sh2.上传saprk安装包3.解压至soft目录#解压tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /usr/local/soft/#重命名mv spark-2.4.5-bin-hadoop2.6 spark-2.4.54.配置环境变量#sparkexport SPARK_HOME=/usr/local/soft/spark-2.4.5export P原创 2021-10-10 21:34:53 · 329 阅读 · 0 评论 -
KafKa搭建
KafKa搭建1.上传压缩包2.解压,配置环境变量(master、node1、node2)#解压tar -xvf kafka_2.11-1.0.0.tgz -C /usr/local/soft/#配置环境变量vim /etc/profile#追加以下内容#kafkaexport KAFKA_HOME=/usr/local/soft/kafka_2.11-1.0.0export PATH=$KAFKA_HOME/bin:$PATH#分发到node1、node2中scp /etc原创 2021-10-16 20:00:06 · 489 阅读 · 0 评论