
大数据
文章平均质量分 83
大数据的基础学习,包括hadoop,hive,spark等的学习
脑袋凉凉
这个作者很懒,什么都没留下…
展开
-
大数据--pyspark远程连接hive
上一篇文章介绍了python连接hive的过程,通过地址+端口号访问到hive并对hive中的数据进行操作,这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive,完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前就已经部署好的,本地安装了hadoop、scala、spark之后,配置好对应的系统环境变量,在p...原创 2022-12-22 13:33:00 · 4089 阅读 · 0 评论 -
大数据--关联规则挖掘案例
环境:虚拟机hive+本地spark+python(pyspark)数据:商品订单数据+商品种类数据步骤:将数据上传到hdfs后,在python中完成hive表的创建,数据处理,关联规则挖掘,数据可视化实现功能:对商品订单中的信息进行挖掘,得到商品组合之间的关联关系(本文只对order进行了处理,没有涉及到type)一.数据准备将GoodsOrder.csv和GoodsTypes.csv文件上传...原创 2022-12-23 17:53:00 · 1112 阅读 · 0 评论 -
大数据--HiveQL语句(实战练习)
题目:1、 创建员工信息数据文件employess.txt,数据文件中包含内容如下(姓名、年龄、薪资、):Lilith Hardy,30,6000,50,Finance DepartmentByron Green,36,5000,25,Personnel DepartmentYvette Ward,21,4500,15.5,Arlen Esther,28,8000,20,Finance Depa...原创 2022-12-05 16:48:00 · 785 阅读 · 0 评论 -
大数据--python远程连接Hive
步骤:启动metastore启动hiveserver2使用beeline进行连接测试,查看地址等是否能够成功连接(确认无误可以跳过)使用python连接hive(粗暴的文件配置以及完整操作见文末)一.启动hiveserver21.配置mode为http,端口为10001(默认)<property> <name>hive.server2.transport.mode&l...原创 2022-12-21 18:24:00 · 5348 阅读 · 3 评论 -
大数据--Hadoop环境部署(1)Linux环境搭建
一.安装三台Linux虚拟机使用centos7系统,命名node_01,node_02,node_03,具体在VMware上的各种安装过程见其他博客二.虚拟机参数设置(温馨提示:直接在root权限下进行配置会减少很多困扰~)1.配置Linux系统网络及主机名创建完成的三台虚拟机默认为动态IP地址,且虚拟机Node_02和Node_03是通过克隆虚拟机Node_01创建的,会导致这两台虚拟机的主机...原创 2022-12-03 04:16:00 · 705 阅读 · 0 评论 -
大数据--Hadoop环境部署(2)主机映射和免密登录
一.主机IP映射就是将虚拟机的IP地址和主机名进行映射,这样就可以直接通过root@主机名的方式找到对应的虚拟机(三台虚拟机都要建立三条映射关系)vim /etc/hosts192.168.121.130 node01192.168.121.131 node02192.168.121.132 node03二.免密连接此时访问其他node时会出现以下提示,总是需要输入要访问node的...原创 2022-12-03 06:23:00 · 597 阅读 · 0 评论 -
大数据--Hadoop环境部署(4)Hadoop集群部署
Hadoop集群的部署方式分为三种,分别是独立模式(Standalone mode)、伪分布式模式(Pseudo-Distributed mode)和完全分布式模式(Cluster mode),独立模式和伪分布式模式主要用于学习和调试,完全分布式通常在实际生产环境使用。为了提高Hadoop集群的高可用性,通常使用ZooKeeper为Hadoop集群提供自动故障转移和数据一致性服务一.Hadoo...原创 2022-12-03 21:53:00 · 2283 阅读 · 0 评论 -
大数据--Hadoop环境部署(5)Hive部署
Hadoop集群部署:https://www.cnblogs.com/Studywith/p/16948866.html一.Hive的三种部署模式1.嵌入模式使用内嵌的Derby数据库存储元数据,是Hive最简单的部署方式。嵌入模式下的Hive不支持多会话连接,不适合生产环境,只适合测试环境。2.本地模式使用本地独立数据库存储元数据,这里的独立数据库通常使用MySQL数据库。本地模式部署的...原创 2022-12-04 16:54:00 · 1569 阅读 · 0 评论 -
大数据--Hadoop环境部署(3)JDK和ZooKeeper环境配置
Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.html在完成了Linux虚拟机的基础配置后,接下来进行JDK和ZooKeeper相关环境的配置一.部署JDK1.官网下载JDKhttps://www.oracle.com/jav...原创 2022-12-03 19:33:00 · 1092 阅读 · 0 评论 -
大数据--HiveQL语句(基本操作)
一.数据库操作1.显示当前所有数据库Show databases;2.创建数据库studyCREATE DATABASE IF NOT EXISTS study COMMENT "This is study database"LOCATION '/user/hive_db/create_db/';3.切换数据库USE study;4.删除数据库DROP DATABASE IF EXISTS st...原创 2022-12-04 20:23:00 · 436 阅读 · 0 评论