
基于Hadoop3.2的搜狗网搜索日志行为分析
文章平均质量分 72
以一个完整的大数据项目为主线,从零开始讲述开发大数据下项目的完整流程,从而获得大数据项目开发经验。内容涵盖hadoop、Flume、Kafka、Hbase、Hive以及Spark等技术。
jasmine_wxy
这个作者很懒,什么都没留下…
展开
-
基于Hadoop3.2的搜狗网搜索日志行为分析(20)--ECharts展示结果
本项目使用ECharts展示结果。ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,2021年后成为Apache下顶级项目。原创 2023-04-14 14:46:56 · 263 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(19)--通过Spark Streaming进行实时分析
Spark Streaming是SparkCore API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。本项目将实时处理Kafka的数据。原创 2023-04-14 09:49:59 · 307 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(18)--通过Spark SQL进行离线分析
Spark SQL源自于Shark项目,但是Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark各个组件的相互集成,所以提出了Spark SQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码。原创 2023-04-06 20:45:10 · 227 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(17)--Spark SQL与Hive和Hbase集成
Spark SQL是从Shark发展而来。Spark SQL是Spark用来处理结构化数据的一个模块,它在RDD之上抽象出来Dataset/Dataframe,并且可以充当分布式SQL查询引擎。本项目使用Spark SQL进行离线分析,批量处理用户行为日志,对用户行为进行分析。离线分析过程:Spark SQL与Hive、Mysql、Hbase集成,其核心就是Spark SQL通过hive外部表来获取HBase的表数据。原创 2023-04-01 07:38:13 · 262 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(16)--安装和配置Spark
本实验使用的Spark版本为spark-3.1.2-bin-hadoop3.2。原创 2023-03-29 16:47:21 · 172 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(15)--集成Flume、Kafka和HBase
在IDEA工具的Terminal中,使用 mvn clean package -DskipTests将HBaseSink打包为flume-ng-hbase2-sink-1.9.0.jar,并上传至namenode的flume安装的lib目录下。在flume的安装目录下找到conf目录,创建flume-hbase-kafka.properties文件,然后修改该配置文件的内容。在IDEA中导入Flume源码中的 flume-ng-hbase2-sink 工程。启动kafka之前需要启动zookeeper。原创 2023-03-29 16:48:43 · 135 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(14)--安装与配置Kafka
本实验使用的kafka版本为kafka_2.12-2.6.0。本平台只在namenode上配置了一个Kafka,datanode上没有配置kafka。原创 2023-03-29 16:46:01 · 88 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(13)--安装与配置Flume
本实验使用的Flume版本为1.9.0。原创 2023-03-29 16:47:21 · 96 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(12)--集成Hive与HBase
在完成Hive与HBase表映射之后,接下来就可以使用Hive 查询HBase中的数据。进入hive安装目录,修改hive-site.xml文件,添加如下内容。修改hive-env.sh配置文件,添加内容如下所示。【注意】请确认在hbase中已经创建sogoulogs。将Hbase相关依赖包复制到Hive的lib目录下。#启动hive的metastore服务。Hive中存在两种表,内部表和外部表。#先启动Hadoop。#查看hive中的表。原创 2023-03-29 16:46:54 · 159 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(11)--安装和配置Hive
本实验使用的Hive版本为3.1.2。原创 2023-03-29 16:46:32 · 99 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(10)--安装MySQL
由于Hive运行过程中需要metaStore支持,本项目使用MySQL充当MetaStore。因此需要首先安装MySQL。原创 2023-03-29 16:45:30 · 98 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(9)--向HBase导入搜狗网数据
由于SogouQ.csv没有HBASE_ROW_KEY,因此需要手工创建HBASE_ROW_KEY(userid+datetime+当前时间),本项目已经变换完毕,保存在sogou-hbase.csv中,直接使用即可。向表fruitTable中插入ROWKEY=1001、“info:name”列,添加数据值为“banana"(注意这条语句不在hbase shell中运行,在Linux下的terminal下运行)创建一个表,该表名称为fruitTable,包含1个列族info。这里只给出部分截图,成功!原创 2023-03-27 07:48:37 · 177 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(8)--安装和配置HBase
本实验使用的HBase版本为2.3.0Hbase安装可以分为单机模式和分布式模式,本平台使用分布式模式安装,且使用Hbase自带的zookeeper。原创 2023-03-27 07:45:56 · 157 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(7)--搭建Hadoop平台
以下操作请在namenode上执行。原创 2023-03-27 07:47:48 · 79 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(6)--配置主节点到其它节点的免密认证登陆
以下所有操作都是在namenode节点上进行的。原创 2023-03-27 07:46:35 · 136 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(5)--克隆生成datanode1和datanode2节点
#1、 克隆生成datanode1(1)、选择菜单“虚拟机–》管理–》克隆”选项(2)、点击“下一步”看到下面的界面(3). 使用默认选项,点击“下一步”,选择“创建完整克隆( F)”,点击“下一步”,如下图所示。(4)、将虚拟机重命名为 datanode1,选择一个存储位置,点击完成。原创 2023-03-27 07:46:02 · 107 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(4)--安装JDK
jdk安装原创 2023-03-27 07:42:57 · 82 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(3)--配置Ubuntu 16.04操作系统
配置Ubuntu 16.04操作系统原创 2023-03-26 17:30:06 · 132 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(1)--需求描述及平台规划
基于Hadoop3.2的搜狗网搜索日志行为分析大数据项目介绍原创 2023-03-26 17:28:42 · 247 阅读 · 0 评论 -
基于Hadoop3.2的搜狗网搜索日志行为分析(2)--VMWare安装Ubuntu 16.04操作系统
使用VMWare安装Ubuntu 16.04的方法原创 2023-03-26 17:26:17 · 177 阅读 · 0 评论