网上的大数据数据库 各种框架 各种概念 我觉得是次要的,有各种基础的,很快就可以学的差不多
怎么做
- 我觉得首先在网站 或 app 中埋点,就是各个页面,各个代码地点 写上一段脚本,作用是把当前用户和用户的操作传到后端,然后后端把相关数据都存到日志文件中。
- 后端也要用自身的aop日志功能,把用户访问各个方法的操作和当前用户信息都存到日志文件中。
- 现在我们有了很大的日志文件描述了各个用户的各种操作,而这些数据量太大了,一般不存到我们传统的如mysql中这种数据库中,所以 前文说到的大数据相关数据库就出现了,大量的数据存到大数据数据库中。
做什么
现在有了大量的用户操作数据了,现在需要对其进行统计,这就用到了上文的大数据相关统计工具了,这些工具可以分析日志,然后建立模型,预测等。并且各种工具都有各自的特性,实时性,容错性等。
预测的什么?比如视频网站,收集的用户数据是这个用户经常浏览的视频,然后现在我们有100个视频,现在从中间预测5个该用户最有可能看的视频,推荐给他,电商等网站,推荐商品之类的同理。
重点
虽然大多数人都觉的上面的 xxx数据库,xxx分析工具,xxx性能工具 等很重要,不过我觉得大数据的核心还是算法,工具只要会用就行。
比如
朴素贝叶斯算法
内梅罗综合指数法
KNN近邻算法
BP神经网络算法
ID3决策树算法
K均值算法
等
这些算法的作用就是,根据输入数据建立数学模型(可以理解为建立一个公式),然后现在有一组数据,我们代入公式,然后得出一组预测结果。