
hadoop
Eylun
不认命农村人!
展开
-
Cloudera Manager及CDH安装
问题导读:1.安装需要做哪些准备?2.如何安装CM?3.如何通过CM安装CDH?4.CM及CDH安装的过程都包含什么?目 录1 准备工作........................................................................................................转载 2016-09-12 22:58:51 · 529 阅读 · 0 评论 -
电信业Hadoop应用分析
昨日,联通研究院处长王志军在第七届“开源中国 开源世界”高峰论坛上分享了Hadoop在电信行业大数据应用的经验。 随着国内3G网络的发展,或者移动通信网络的发展,中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。而目前中国联通遇到一个世纪问题:随着流量的增长,3G流量的争议也迅转载 2016-09-13 22:57:59 · 878 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2转载 2016-09-27 20:51:26 · 556 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
一、项目背景与数据情况1.1 项目来源 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1 项目来源网站-技术学习论坛 本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。PS:开发该系统的目的是为了获取一些转载 2016-09-27 20:54:47 · 736 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
一、借助Hive进行统计1.1 准备工作:建立分区表 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)hive>CREATE EXTERNAL转载 2016-09-27 20:56:15 · 517 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示了该日志数据的记录格转载 2016-09-27 20:59:30 · 427 阅读 · 0 评论 -
sqoop常用命令一
这些内容是从sqoop的官网整理出来的,是1.4.3版本的Document,如果有错误,希望大家指正。 1.使用sqoop导入数据 sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST 2.账号密码 sqoop import --connect jdb...转载 2019-06-13 11:17:16 · 601 阅读 · 0 评论 -
sqoop常用命令二(数据导出更新复制)
sqoop的导出工具是把HDFS上文件中的数据导出到mysql中mysql中的表现在在linux上创建一个文件,并把这个文件上传到hdfs上cat person.txt 7,no7,778,no8,88$ hadoop fs -mkdir person_export$ hadoop fs -put -f person.txt person_export$ hado...转载 2019-06-13 11:18:52 · 564 阅读 · 0 评论 -
sqoop常用命令三 ---- import导入 与export 覆盖更新,常见问题总结
一.参数说明1.import/export通用选项 含义说明--connect <jdbc-uri> 指定JDBC连接字符串--connection-manager <class-name> 指定要使用的连接管理器类--driver <class-name> 指定要使用的JDBC驱动类--hadoop-mapred-home <...原创 2019-06-18 16:24:23 · 5616 阅读 · 0 评论