hjr-最简单的大数据理解

本文探讨大数据处理的核心——算法,而非仅限于数据库和工具。介绍了如何通过网站或应用埋点收集用户行为数据,利用大数据数据库存储海量日志,以及运用统计工具进行数据分析和预测。强调了算法在建立数学模型和预测结果中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网上的大数据数据库 各种框架 各种概念 我觉得是次要的,有各种基础的,很快就可以学的差不多

怎么做

  1. 我觉得首先在网站 或 app 中埋点,就是各个页面,各个代码地点 写上一段脚本,作用是把当前用户和用户的操作传到后端,然后后端把相关数据都存到日志文件中。
  2. 后端也要用自身的aop日志功能,把用户访问各个方法的操作和当前用户信息都存到日志文件中。
  3. 现在我们有了很大的日志文件描述了各个用户的各种操作,而这些数据量太大了,一般不存到我们传统的如mysql中这种数据库中,所以 前文说到的大数据相关数据库就出现了,大量的数据存到大数据数据库中。

做什么

现在有了大量的用户操作数据了,现在需要对其进行统计,这就用到了上文的大数据相关统计工具了,这些工具可以分析日志,然后建立模型,预测等。并且各种工具都有各自的特性,实时性,容错性等。

预测的什么?比如视频网站,收集的用户数据是这个用户经常浏览的视频,然后现在我们有100个视频,现在从中间预测5个该用户最有可能看的视频,推荐给他,电商等网站,推荐商品之类的同理。

重点

虽然大多数人都觉的上面的 xxx数据库,xxx分析工具,xxx性能工具 等很重要,不过我觉得大数据的核心还是算法,工具只要会用就行。

比如
朴素贝叶斯算法
内梅罗综合指数法
KNN近邻算法
BP神经网络算法
ID3决策树算法
K均值算法

这些算法的作用就是,根据输入数据建立数学模型(可以理解为建立一个公式),然后现在有一组数据,我们代入公式,然后得出一组预测结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

架构师小侯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值