
大数据解决方案
鲲鹏飞九万里
过好每一天,就是过好这一生。
展开
-
页面日志采集:ngix+logstash+kafka
页面日志采集是指从页面上采集用户行为,将用户行为信息记录成日志,并将日志信息读取到消息队列的过程。一种比较常用的日志采集技术工具是:ngix+logstash+kafka。 进行页面日志的采集,需要在页面的最下端埋一个js代码片段。这个js代码片段通常在</body>的前面。这个js代码片段中有一行核心的代码:“src=XXXX/track.js”。当访问这...原创 2018-04-15 21:40:04 · 305 阅读 · 0 评论 -
业务系统日志采集:logstash+kafka
业务系统,可以是一个APP,也可以是一个应用网站。通常业务系统所使用的服务器有很多台,业务系统服务器即有可能是Linux服务器,也可能是windows服务器,比如一些游戏开发所选用的服务器是window服务器。 通常业务系统产生的日志会非常多,日志文件会分布在不同的文件夹下。logstash的配置文件中,可以使用通配符的方式,来读取同一层级下多个文件夹里面的文件内容。而且,lo...原创 2018-04-15 22:02:11 · 1648 阅读 · 0 评论 -
数据离线分析:kafka+flume+hdfs
数据采集到kafka中之后,既可以对数据进行离线分析,又可以对数据进行实时分析,有些数据适合进行离线分析,比如用户画像。离线分析,需要将数据从kafka中存到hdfs中,这里使用flume,将数据从kafka中导入到hdfs中。flume的启动配置文件(kafkaToHdfs.conf):# ------------------- 定义数据流---------------------...原创 2018-04-15 22:15:27 · 1479 阅读 · 0 评论 -
离线数据分析:kafka+logstash+elasticsearch
elasticsearch也能够存储大量的数据,和hdfs相比有很大的优势:使用hdfs进行数据分析的时候,需要将所有的数据全部都加载出来,然后用一个filter进行过滤,这个时候占用了大量的资源。有些时候,只是从大量的数据中过滤出很少一部分数据,elasticsearch能够通过查询条件,将想要的数据结果返回给你,这样不会占用大量的资源,所以效率会比较高。通过logstash将ka...原创 2018-04-15 22:40:26 · 476 阅读 · 0 评论 -
hadoop的二级排序——实例
想弄懂hadoop的二级排序,需要对hadoop的shufle过程非常清楚。下面是一个hadoop的二级排序案例:编写mapReduce程序,将下面的左边内容进行排序,排序后变成右边的样子。mapReduce的程序如下:第一步:定义一个组合键的beanpackage com.bigdata.demo15_two_class_paixu;import java.io.DataInput;imp...原创 2018-05-31 11:08:14 · 2133 阅读 · 0 评论