小草说—-大数据和机器学习为什么这样火
标签(空格分隔): SPARK机器学习
欢迎关注小小草的微信号:大数据机器学习。日后不定期分享大数据,机器学习的学习资料与博文,希望与大家共同学习进步~
很多年前,当我还在应付着微分方程,条件概率,用问卷星写抽样调查报告在QQ群发求填,对着30多条就被称为大样本的数据做检验和回归的时候,“大数据”的概念已经如火如荼地在微博圈和朋友圈里圈圈相传了。
但是到底大数据是什么,和我们生活有什么关系,企业是怎么“大数据”的,它到底在星星之火,还是燃烧燎原,到底是蹒跚陨落还是晨辉未起呢?一切都似乎神秘不可窥探。
写这篇文章绝不是给大家科普,小女子尚未到达大谈己论的火候,只当是对我接触大数据与机器学习以来所思所想所见所学的一道梳理与记录。
大数据有多大?
大数据是数据,就像红苹果是苹果,美少女是少女一样,只是加上了一个平无奇常的定语,便赋予了独有的属性———“大”!这里我说不出它有多大,也不知道大小的界线,每个企业的数据量都不同,要不你自行脑补一下,大到没地方存储,大到简单的计算都非常慢非常吃力,就像一个大胖子,全身的肉都下垂到地上了,动一下都汗流浃背,张嘴讲话都挪不动脸上的肉,哈哈。
数据来自何处?
我将数据的来源分成三大类:
第一,公司自有的用户行为数据,公司有自己的网站,只要有用户打开了这个网站,所有的操作与行为都会被详细记录,包括从什么页面跳转过来,进入网站各个页面的时间点,在每个页面停留的时间段,用户的IP,通过IP号还可以知道用户所在的城市与区域,当然每个用户在网站上的购买行为等等都是公司的可以自由支配的数据。如此一来,拥有越多活跃用户的网站将掌握越丰富的数据,从而也可以从数据中挖掘更多意想不到的价值,比如淘宝,京东,携程网等等。<

最低0.47元/天 解锁文章
3181

被折叠的 条评论
为什么被折叠?



