
大数据从入门到精通
文章平均质量分 76
大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
小卓仗剑走天涯
zhuoooo的个人博客
展开
-
【大数据离线开发】9 Pig:数据分析引擎
Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口,使用者可以透过Python或者JavaScript编写Java,之后再重新转写。Pig的特点Pig是一个用来处理大规模数据集的平台,由Yahoo!贡献给ApachePig可以简化MapReduce任务的开发Pig可以看做hadoop的客户端软件。原创 2023-04-24 16:55:15 · 2210 阅读 · 1 评论 -
【大数据离线开发】8.4 Hive的查询、操作以及自定义函数
Hive的自定义函数(UDF:user define function)本质就是一个Java程序可以直接应用于select语句,对查询结构做格式化处理后,再输出内容Hive自定义函数的实现细节自定义UDF需要继承org.apache.hadoop.hive.ql.UDF需要实现evaluate函数,evaluate函数支持重载Hive自定义函数案例案例一:拼接两个字符串。原创 2023-03-06 14:17:23 · 357 阅读 · 0 评论 -
【大数据离线开发】8.3 Hive的数据模型
启动hive,执行下述语句,上述表保存到数据库里,hdfs目录(游览器ip:50070)上也有保存表。当执行完成之后,可以在yarn:50070网页查看桶表信息,也可以用hdfs以命令行的方式进行查看。执行的sql如果是一个MapReduce的话,sql语句就会在yarn后台运行,然后打印在屏幕上。HDFS上查询到员工表数据:hdfs dfs -cat /scott/emp.csv。默认表的分隔符是tab键,重新创建emp1表,格式化表的分隔符为逗号。外部表:只定义表结构,数据保存在HDFS的某个目录下。原创 2023-03-03 13:55:31 · 931 阅读 · 0 评论 -
【大数据离线开发】8.2 Hive的安装和配置
创建一个新的用户:create user ‘hiveowner’@‘%’ identified by ‘Welcome_1’;需要停止Hadoop环境,修改hdfs-site.xml,打开禁用HDFS的权限检查的功能,然后重新启动。查看root用户的密码:cat /var/log/mysqld.log | grep password。在嵌入模式下,在哪个目录下执行的数据库初始化,就应该在哪个目录下执行: hive。启动hive,然后创建测试学生表,同嵌入模式一样,然后通过网页的方式进行查询。原创 2023-02-28 17:19:12 · 498 阅读 · 0 评论 -
【大数据离线开发】8.1 Hive介绍和架构
起源自facebook由Jeff Hammerbacher领导的团队2008年facebook把hive项目贡献给Apache定义了一种类SQL语言HiveQL。可以看成是仍SQL到Map-Reduce的映射器提供Hive shell、JDBC/ODBC、Thrift客户端等接Hive是一个基于HDFS之上的数据仓库HiveHDFS表目录数据文件分区目录桶文件Hive基于Hadoop之上的一个数据分析引擎Hive是一个翻译器,把SQL语句翻译成一个MapReduce程序。原创 2023-02-25 09:37:25 · 517 阅读 · 0 评论 -
【大数据离线开发】7.4 HBase数据保存和过滤器
将编写的程序打包成jar包,上传到全分布或者伪分布环境下,启动环境运行,会有一个exception异常。多个列名前缀过滤器:查询员工的姓名、薪水 select ename, sal from emp;列名前缀过滤器:查询员工的姓名 select ename form emp;业务越来越大,数据越来越大,必然会发生Region的分裂。行键过滤器:通过Row可以查询,类似通过Get查询数据。注意:数据的存储,都需要注意Region的分裂。运维:可以通过增加节点,或者预分配的方式。原创 2023-02-20 11:13:04 · 354 阅读 · 0 评论 -
【大数据离线开发】7.3 JavaAPI操作HBase
将HBase的jar包导入到项目当中,然后就可以通过使用Java API操作HBase。以创建表为例,进行程序测试,启动hadoop环境(伪分布就可以)额外需要导入hamcrest-core-1.3.jar包。启动HBase,然后Run as Junit 运行程序。退出安全模式,在安全模式下,Hbase可能无法写入。原创 2023-02-20 11:05:38 · 145 阅读 · 0 评论 -
【大数据离线开发】7.2 搭建HBase环境
当bigdata112死掉的时候,bigdata114就会成为主节点 ,从节点的一些信息也会显示,因为我们的客户端都是连接zookeeper的。在某个从节点单独启动HMaster:hbase-daemon.sh start master。启动HBase命令:start-hbase.sh————仅仅只启动HMaster。:每台机器的时间同步,可以使用 date -s 11/22/2016 设置时间。可以同本地模式一样在本地操作,也可以在网页上查看,配置的hdfs网址。伪分布和全分布模式主要区别是在 rs。原创 2023-02-20 11:00:52 · 432 阅读 · 0 评论 -
【大数据离线开发】7.1 HBase简介和体系结构
什么是NoSQL数据库?基于Key-Value来保存数据一般来说,NoSQL不支持事务关系型数据库:基于关系模型 —> 二维表。原创 2022-08-16 14:38:24 · 586 阅读 · 0 评论 -
【大数据离线开发】6.3 MapReduce案例锦集
关系型数据库中的多表查询(子查询在Oracle中,绝大多部分的组查询都是转换成多表查询来执行)distinct去掉重复的数据,作用于后面所有的列,只要组合起来的数据不一样就可以。在Oracle中,当查询的数据满足是一棵树的时候,可以使用层次查询来取代自连接。使用MapReduce实现distinct对一个列的去重。举例查询员工信息,要求显示员工老版的名字员工的名字。等值连接实现下面的SQL语句。自连接就是一张表的连接操作。.........原创 2022-07-19 14:32:42 · 969 阅读 · 0 评论 -
【大数据离线开发】6.2 MapReduce的高级特性
Java的序列化:将对象写入到文件中Student.javaTestStudent.java6.2.1.2 Mapreduce的序列化核心:接口 Writable如果一个类实现了的Hadoop的序列化机制(接口:Writable),这个类的对象就可以作为输入和输出的值。案例1: 读取员工数据,生成员工的对象,直接输出到HDFSEmp.javaEmpInforMapper.javaEmoInfoMain.java导出 jar 包,上传虚拟机,执行命令案例2: 使用MapReduce序列化重写“求每原创 2022-07-04 15:28:17 · 192 阅读 · 0 评论 -
【大数据离线开发】6.1 开发MapReduce程序
添加依赖 jar 包/root/training/hadoop-2.7.3/share/hadoop/common/*.jar/root/training/hadoop-2.7.3/share/hadoop/common/lib/*.jar/root/training/hadoop-2.7.3/share/hadoop/mapreduce/*.jar/root/training/hadoop-2.7.3/share/hadoop/mapreduce/lib/*.jarWordCountMap.javaWo原创 2022-06-27 09:43:40 · 461 阅读 · 1 评论 -
【大数据离线开发】5.4、HDFS 的底层特性
什么是RPC?Remote Procedure Call,远程过程调用。也就是说,调用过程代码并不是在调用者本地运行,而是要实现调用者与被调用者二地之间的连接与通信。RPC的基本通信模型是基于Client/Server进程间相互通信模型的一种同步通信形式;它对Client提供了远程服务的过程抽象,其底层消息传递操作对Client是透明的。在RPC中,Client即是请求服务的调用者(Caller),而Server则是执行Client的请求而被调用的程序 (Callee)。举例:服务器端接口MyInterfa原创 2022-06-20 17:43:49 · 164 阅读 · 0 评论 -
【大数据离线开发】5.3、HDFS 的高级特性
定义:安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。HDFS 正常运行的时候,安全模式一定是off(关闭状态),是HDFS 的一种自我保护,如果HDFS 处于安全模式下,则表示 HDFS 是只读的状态。作用:检查数据块的副本率当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-d原创 2022-06-16 14:42:48 · 239 阅读 · 0 评论 -
【大数据离线开发】5.2、HDFS 传输数据的原理
这一部分是HDFS的数据传输原理部分,很重要!!!这一部分是HDFS的数据传输原理部分,很重要!!!这一部分是HDFS的数据传输原理部分,很重要!!!重要的事情说三遍,建议自己动手画图理解。...原创 2022-06-15 11:20:04 · 270 阅读 · 0 评论 -
【大数据离线开发】5.1、操作 HDFS
HDFS管理命令HDFS管理命令帮助信息:hdfs dfsadmin但是因为权限问题,导致本地程序运行失败四种方式可以改变HDFS的权限:第一种方式:设置(环境变量)执行程序的用户是:HADOOP_USER_NAME = root第二种方式:通过使用Java的 -D参数第三种方式:配置:dfs.permissions —> false第四种方式:使用命令改变目录的权限:hdfs dfs -chmod 777 /folder222拓展学习——Java -D参数-Dkey=??? -Dvalus=?原创 2022-06-14 14:08:00 · 241 阅读 · 0 评论 -
【大数据离线开发】4.3、HBase的体系结构
HBase是基于HDFS之上的NoSQL数据库作用:作用:Hregionserver越多,HBase/hadoop的实时查询存储能力越大,查询速度越快把HBase抽象成一个图书馆,Hregionserver抽象成书架HBase和Hadoop属于横向扩展的开源组件数据最终保存在Datanode中(表:目录 记录:Hfile文件) 实时查询/随机访问功能数据元信息保存在Zookeeper中...原创 2022-06-13 15:43:37 · 201 阅读 · 0 评论 -
【大数据离线开发】4.2、Yarn的体系结构
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1206职责:职责:原创 2022-06-13 15:34:56 · 166 阅读 · 0 评论 -
【大数据离线开发】4.1、HDFS的体系结构
职责是HDFS的主节点、管理员接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据等等管理和维护HDFS的日志和元信息日志文件(edits文件):记录的客户端的所有操作,同时体现了HDFS的最新状态是一个二进制文件位置:$HADOOP_HOME/tmp/dfs/name/current 都是edits开头的都是日志文件 其中edits_inprogress_00000000000107 代表:正在操作的日志文件HDFS提供了一个日志查看器(edits viewer),把edi原创 2022-06-06 09:57:24 · 331 阅读 · 0 评论 -
【大数据离线开发】3、Hadoop 2.X的安装与配置
文章目录Hadoop 2.X的安装与配置3.1Hadoop安装部署的预备条件3.2Hadoop的目录结构3.3Hadoop安装部署的三种模式3.3.1本地模式3.3.2伪分布模式3.3.3全分布模式3.4 免密码登录的原理和配置3.5 主从节点的单点故障Hadoop 2.X的安装与配置3.1Hadoop安装部署的预备条件安装Linux和配置Linux配置Linux网卡信息vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=static原创 2022-05-30 10:11:49 · 354 阅读 · 0 评论 -
【大数据离线开发】2.2、Hadoop的起源之Google的基本思想
Hadoop的起源与背景知识2.4 Google的基本思想2.4.1 Hadoop的思想来源:GoogleGoogle搜索引擎,Gmail,安卓,AppspotGoogle Maps,Google earth,Google学术, Google翻译,Google+,下一步Google what?2.4.2 Google的低成本之道不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务全世界多个数据中心原创 2022-05-23 16:03:59 · 517 阅读 · 0 评论 -
【大数据离线开发】2.1、大数据起源之背景知识
Hadoop的起源与背景知识2.1 什么是大数据大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5个特征(IBM提出):l Volume (大量)l Velocity(高速)l Variety (多样)l Value (价值)l Veracity(真实性)大数据的典型案例:l 电商网站的商品推荐问题一:原创 2022-05-23 15:53:36 · 217 阅读 · 0 评论 -
【大数据离线开发】1、大数据准备环境之Linux配置
大数据准备环境1.1 Linux实验环境1.1.1 准备Linux操作系统Linux操作系统:RedHat 7.4 64位 自带netcat服务器(测试:Spark Streaming)VMware版本不能太低:12版本类型:Redhat Linx 7 64位网卡:仅主机模式一共5台虚拟机:安装JDK、配置主机名、关闭防火墙 192.168.157.111 bigdata111 192.168.157.112 bigdata112 192.168.157.11原创 2022-05-16 10:41:49 · 613 阅读 · 0 评论 -
【大数据离线开发】1.2、大数据准备环境之JDK介绍和安装
1.2 JDKJDK介绍JVM、JRE、JDK介绍linux ssh安装JDK1.2.1 JDK介绍下载 JDK:www.oracle.comwindows 安装 JDK傻瓜式安装,下一步即可。建议:安装路径不要有中文或者特殊符号如空格等。当提示安装 JRE 时,继续下一步即可。配置环境变量path(必选):windows系统执行命令时要搜寻的路径。classpath(可选):JDK1.5 之后可选验证是否成功:javac java -version1.2.2JVM、原创 2022-05-16 10:40:13 · 144 阅读 · 0 评论 -
【初识大数据】4、大数据学习路线
文章目录大数据学习路线1.1 基础1.2 Hadoop1.3实时计算1.4 Spark大数据学习路线1.1 基础1、基础JAVA语言(Java SE)变量 类型 循环 if面向对象:类、封装、集成、多态I/O:输入流、输出流——>HDFS会用到反射、泛型——>MapReduce程序JDBC: 操作关系型数据库(RDBMS)——>Hive2、Linux基础: Linux基本操作/常用命令(见初识大数据二/三)3、SQL基础: select(重点)insert、upd原创 2022-04-20 13:23:59 · 2810 阅读 · 0 评论 -
【初识大数据】3、 Linux常用命令
文章目录##三、大数据安装环境###3.1 JDK介绍下载 JDK:www.oracle.com安装 JDK傻瓜式安装,下一步即可。建议:安装路径不要有中文或者特殊符号如空格等。当提示安装 JRE 时,继续下一步即可。配置环境变量path(必选):windows系统执行命令时要搜寻的路径。classpath(可选):JDK1.5 之后可选验证是否成功:javac java -version####3.1.1JVM、JRE、JDK介绍(1)JVM(JVM Java Virtu原创 2022-03-24 16:13:29 · 249 阅读 · 0 评论 -
【初识大数据】2、Linux基础
Linux内核最初只是由芬兰人林纳斯•托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。原创 2022-03-07 11:12:37 · 121 阅读 · 0 评论 -
【初识大数据】1、大数据简介
文章目录一、大数据简介1.1 课前准备,什么是大数据1.2大数据的特征1.3 学习的路线和课程概述1.4 学习后能增加的技能树1.5 就业大数据岗位1.6 起源1.6.1 名字起源1.6.2 项目起源1.7 三大发行版本1.8 大数据软件环境部署1.8.1 实验环境详解1.8.2 我的个人电脑:1.8.3 安装软件一、大数据简介1.1 课前准备,什么是大数据大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和原创 2022-03-03 09:17:07 · 235 阅读 · 0 评论