hadoop 项目day1作业

最新推荐文章于 2024-06-11 23:51:04 发布

原创最新推荐文章于 2024-06-11 23:51:04 发布 · 213 阅读

0 ·

CC 4.0 BY-SA版权

面试笔记专栏收录该内容

217 篇文章

订阅专栏

本文详细阐述了大数据离线项目的全过程，从数据产生、收集、清洗，到数据分析及应用，涉及tomcat、nginx服务器数据收集，flume、sqoop数据整合，HDFS、hive、HBASE数据存储，以及MR、HIVE数据分析技术。强调了业务需求导向的数据分析流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【1】大数据离线项目流程

1、数据的产生
tomcat服务器、业务数据、
nginx服务器（前端的点击行为，通过JS代码发送http请求到nginx服务区，nginx服务器将数据生成日志）
2、数据的收集
flume、sqoop（数据整合工具）
存储在哪儿里？
HDFS、hive、HBASE
3、数据的清洗
自有数据 name、age、address
买来的数据:uname,salary
ip:192.168.91.7 ===》北京市昌平区
清除爬虫等产生的数据

清洗后的数据存在哪儿里？
HDFS、hive、HBASE
4、数据的分析
MR、HIVE
分析之后的结果存在哪儿？
mysql（数据展示）、【hive、hbase、hdfs】一般作为辅助分析
5、数据应用
数据展示、数据挖掘、机器学习等

数据在哪儿产生？

我们要存储到哪儿？
HDFS、hive、HBASE

我们要分析什么？
业务，运营部门提出需求，我们协调产生数据，把产生的数据拉取过来进行分析

基于维度进行分析：
维度：不同的角度，观察的方向

分析这些的意义？（商业价值）
分析的结果显示：跳转率高、频繁的点击导航栏（导航不清晰）、
广告投放分析导入了多少流量，转化了多少流量，形成购买的数量
3亿，1亿，0.001%，￥：111111

项目概览：
前端页面
鼠标悬停，页面停留时间，页面点击
将前端收集的数据通过JS代码发送到nginx服务器上(http请求nginx服务1像素的图片)
将要收集的收集拼接到url上（以参数的形式拼接）
nginx将获取到的url的信息生成在日志中，保存在nginx服务器上
http://192.168.91.7/index.html?pl=IOS&ver=1&.......
tt=%E6%B5%8B%E8%AF%95%E9%A1%B5%E9%9D%A23 进行过url编码
针对进行url编码我们处理时要进行转码

2、点击流本次电商项目流程
指标(kpi)的概念
维度(dimension)的概念

3、了解CDH

4、CDH的安装（hadoop,hive,hbase,flume,sqoop）
知识点：hive元数据的编码格式
常见错误：
1）hive的元数据库的权限问题
2）hive的启动方式不同（不能使用hive直接启动，要先启动hive的元数据服务）

5、熟悉数据的产生（必须知道数据来源，数据格式，数据内容）

6、jsSDK和javaSDK的介绍（了解javaSDK的开发原则）

7、安装idea及idea开发工具的使用

8、jsSDK及javaSDK的测试
知识点：单例模式（懒汉式，饿汉式）