hadoop 项目day1作业

本文详细阐述了大数据离线项目的全过程,从数据产生、收集、清洗,到数据分析及应用,涉及tomcat、nginx服务器数据收集,flume、sqoop数据整合,HDFS、hive、HBASE数据存储,以及MR、HIVE数据分析技术。强调了业务需求导向的数据分析流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【1】大数据离线项目流程

1、数据的产生
tomcat服务器、业务数据、
nginx服务器(前端的点击行为,通过JS代码发送http请求到nginx服务区,nginx服务器将数据生成日志)
2、数据的收集
flume、sqoop(数据整合工具)
存储在哪儿里?
HDFS、hive、HBASE
3、数据的清洗
自有数据 name、age、address
买来的数据:uname,salary
ip:192.168.91.7 ===》北京市昌平区
清除爬虫等产生的数据

清洗后的数据存在哪儿里?
HDFS、hive、HBASE
4、数据的分析
MR、HIVE
分析之后的结果存在哪儿?
mysql(数据展示)、【hive、hbase、hdfs】一般作为辅助分析
5、数据应用
数据展示、数据挖掘、机器学习等


数据在哪儿产生?

我们要存储到哪儿?
HDFS、hive、HBASE                                                                                                                                                            

我们要分析什么?
业务,运营部门提出需求,我们协调产生数据,把产生的数据拉取过来进行分析

基于维度进行分析:
维度:不同的角度,观察的方向 

分析这些的意义?(商业价值)
分析的结果显示:跳转率高、频繁的点击导航栏(导航不清晰)、
广告投放 分析导入了多少流量,转化了多少流量,形成购买的数量
3亿,1亿,0.001%,¥:111111

项目概览:
前端页面
鼠标悬停,页面停留时间,页面点击
将前端收集的数据通过JS代码发送到nginx服务器上(http请求nginx服务1像素的图片)
将要收集的收集拼接到url上(以参数的形式拼接)
nginx将获取到的url的信息生成在日志中,保存在nginx服务器上
http://192.168.91.7/index.html?pl=IOS&ver=1&.......
tt=%E6%B5%8B%E8%AF%95%E9%A1%B5%E9%9D%A23 进行过url编码
针对进行url编码我们处理时要进行转码

2、点击流本次电商项目流程
指标(kpi)的概念
维度(dimension)的概念

3、了解CDH

4、CDH的安装(hadoop,hive,hbase,flume,sqoop)
知识点:hive元数据的编码格式
常见错误:
1)hive的元数据库的权限问题
2)hive的启动方式不同(不能使用hive直接启动,要先启动hive的元数据服务)

5、熟悉数据的产生(必须知道数据来源,数据格式,数据内容)

6、jsSDK和javaSDK的介绍(了解javaSDK的开发原则)

7、安装idea及idea开发工具的使用

8、jsSDK及javaSDK的测试
知识点:单例模式(懒汉式,饿汉式)

内容概要:本文档主要展示了C语言中关于字符串处理、指针操作以及动态内存分配的相关代码示例。首先介绍了如何实现键值对(“key=value”)字符串的解析,包括去除多余空格和根据键获取对应值的功能,并提供了相应的测试用例。接着演示了从给定字符串中分离出奇偶位置字符的方法,并将结果分别存储到两个不同的缓冲区中。此外,还探讨了常量(const)修饰符在变量和指针中的应用规则,解释了不同类型指针的区别及其使用场景。最后,详细讲解了如何动态分配二维字符数组,并实现了对这类数组的排序与释放操作。 适合人群:具有C语言基础的程序员或计算机科学相关专业的学生,尤其是那些希望深入理解字符串处理、指针操作以及动态内存管理机制的学习者。 使用场景及目标:①掌握如何高效地解析键值对字符串并去除其中的空白字符;②学会编写能够正确处理奇偶索引字符的函数;③理解const修饰符的作用范围及其对程序逻辑的影响;④熟悉动态分配二维字符数组的技术,并能对其进行有效的排序和清理。 阅读建议:由于本资源涉及较多底层概念和技术细节,建议读者先复习C语言基础知识,特别是指针和内存管理部分。在学习过程中,可以尝试动手编写类似的代码片段,以便更好地理解和掌握文中所介绍的各种技巧。同时,注意观察代码注释,它们对于理解复杂逻辑非常有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值