通过淘宝,大白话讲解大数据各个方向的分工

本文以淘宝为例,通俗讲解大数据相关工作。包括推荐系统根据用户浏览记录推荐商品;大数据平台开发负责采集数据;实时计算处理数据使其符合规则;数据仓库存储数据;数据分析为企业决策提供支持;离线计算统计指标;数据挖掘推测商品销售走势,助力企业运营。

本文公众号来源:大数据肌肉猿 作者:无精疯


最近也开始接触大数据相关的东西,看到这篇文章非常通俗易懂地讲解了大数据究竟是干嘛的,推荐阅读!


(本文由虐狗的嫌疑,放下40米长刀再食用!)


大纲:

一、写作背景

二、开始淘宝

2.1 推荐系统(导购员)

2.2 大数据平台开发(店里监控布局)

2.3 实时计算(收银员)

2.4 数据仓库(储物间)

2.5 数据分析(店长)

2.6 离线计算(会计)

2.7 数据挖掘(精算师)

三、总结


一、写作背景

1.总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。


2.下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他。


二、开始淘宝


2.1 推荐系统(导购员)

一打开女票的手机淘宝页面,就发现推荐栏叫我女票换包。


640?wx_fmt=jpeg


推荐商品栏以及热搜和搜索框中的内容,都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来,然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签,下次的女神节,情人节等节日活动的对象就是他们。


这个就是大数据中的推荐系统,专门猜你喜欢,类似导购,提高你的购买率。


2.2 大数据平台开发(店里监控布局

那么数据是怎么被记录的?被记录的又是什么数据?


640?wx_fmt=jpeg


你的昵称,设备IP,浏览的足迹,每个商品停留的时间,浏览的时间段都是后台要采集的数据。


首先我们搭建一个平台,专门去定制收集数据的手段以及采取的策略和存放这些数据的地方,这就是大数据平台的搭建。类似你在你店里布置了监控探头,录音等设备,然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。



2.3 实时计算(收银员)

当你在浏览商品的时候,你会发现旁边会有实时的推荐,如下图:


640?wx_fmt=jpeg


这是因为你在浏览商品的过程中数据不断被收集,然后被投放到上述的推荐系统中。但是那些用户名,商品等信息不一定都是规则的,有可能是数字,有可能是符号。所以我们这边要有一个程序员,专门负责实时的处理这些数据,把这些数据处理成有规则的,并存储到数据仓库中。至于为什么这样做,下面会解释。


这个过程就是大数据的实时计算,它具有时效性,就是不能停,立刻马上做出响应的。把它比喻成收银员就是为了突出实时,别人要结账你得立即做出响应。


2.4 数据仓库(储物间)

前面提到了数据仓库,顾名思义,存储数据的仓库。在我们一些工厂或者企业的仓库里,我们通常都会按循序、分类放好我们的物品,要制定规则,哪些能放,哪些不能放,哪些需要处理之后才能放。比如说你要放一个柜子,可能不能放,但你如果把它拆成木板就可以放,等要用的时候要拿这些木板去组装就行。


所以才有上述的实时计算,因为它要遵守数据仓库管理员制定的规则,将数据按照规格处理好才能进行存放。


2.5 数据分析(店长)

当你从淘宝给你推荐的商品挑选出你喜欢的之后,点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面,上面会有你的收件地址、联系方式、商品信息、数量等。


而这些数据有什么用呢?你可能会想说,留底当凭证啊。对的,不过不止这个作用。


举个例子:马云开会说:我要看一下这十年的内衣销售明细,各个地区的销售情况。这时候有个部门就要去整理出这些报表了,那就是数据分析部门,他们要从海量的数据中去分析这些指标,并整理成报表给马老板看。


马老板看了这些数据之后,得出一个结论:「浙江女性胸部全国最小」。然后呢?肯定是以后往浙江多进一些小码的内衣,以增加销售量,然后可能再顺带卖点木瓜什么的。


这就是数据分析带来的好处,为我们公司的高层提供决策上的支持。


2.6 离线计算(会计)

不对啊,十年的数据量,能说查就查吗?数据量得多大啊!没错,不可能说要什么数据立马就能查出来的。最理想的方案就是:当天结束就计算当天的指标,把销售额,地址什么的统计好,然后每星期再统计一下,每个月再统计一下,以此类推。那算十年不就分分钟的事?


对的,那这些事情谁来做呢?当然是我们离线计算工程师。离线计算顾名思义,实时计算的对立方,我们做的是幕后工作。可以将实时计算工程师想象为收银员,每个顾客买单时都得结账并打印发票什么的,不能拖延。离线计算则是会计,每天下班之后看着账单点数,看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上,数据对就行,没人在乎你算了多久。


2.7 数据挖掘(精算师)

那这些处理好的数据不能光存着啊,得挖掘出它的价值。没错,根据这些订单数据,我们能推测出未来商品的一个销售走势,哪个地区需要投放哪些商品,这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问,他会从你已有的数据去分析你之后的走势,给你提供一些有价值可供参考的建议。


我们要给数据挖掘系统投放有价值的数据,它类似我们人脑,输入的数据越有价值和参考性,预测的结果越准,否则只会误导。


三、总结

好了,通过以上步骤,淘宝更懂我女朋友了,它会推送更多符合我女票的胃口的商品,然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区,选择更多了,我女朋友也更喜欢在淘宝购物了。


推荐阅读:

640?wx_fmt=jpeg


200多篇 原创 技术文章 海量视频资源 精美脑图 面试题

长按扫码可关注获取 

欢迎关注640?wx_fmt=png点个再看640?wx_fmt=png

<think>嗯,用户让我用大白话解释Git是什么。之前我已经给过比较专业的解释,但用户这次特别强调要通俗易懂,还提供了几个引用资源,都是强调"小白视角""大白话"的。 用户可能是个编程新手,或者之前被专业术语吓到过。ta提到的引用[1]里说"看过就忘""苦不堪言",引用[2][3]都反复强调"大白话",说明用户需要完全避开技术黑话。 我注意到上次回答虽然全面,但用了"分布式版本控制""SHA-1哈希"这类术语。这次得彻底转化:把Git比喻成游戏存档系统可能不错,因为存档/读档是常见体验。引用[2]提到"gitgithub是两码事"这点很重要,很多新手会混淆。 核心要点应该是: - 版本控制=游戏存档(随时保存不怕玩砸) - 分支=平行宇宙(实验性操作不毁原世界) - 远程仓库=云存档(多设备同步+队友共享) 避免提到任何命令,重点说清概念。用户引用[3]提到"跳过理论直接讲命令行"的问题,所以这次连git add/commit这些基础命令都先不提,纯讲原理。 最后用"写小说改稿子"的生活化场景收尾,这样哪怕完全不懂编程的人也能理解。相关问题的设计也要延续这个风格,比如"手滑删错文件怎么找回"这种实际痛点。</think>好的,咱们用最直白的大白话来聊聊 Git 是什么,就像聊天一样: **想象一下你在写一篇重要的小说(或者做一份重要的报告、设计一个图纸):** 1. **你会不断修改:** 今天写一章,明天觉得不好删掉重写,后天又想加个人物。 2. **你会担心出错:** 万一改了半天,发现还是之前的好,想找回来怎么办?万一不小心删掉了重要段落怎么办? 3. **你可能需要别人合作:** 比如你朋友一起写,你写一部分,他写一部分,最后怎么合到一起? **Git 就是帮你解决这些头疼问题的超级智能“时光机”+“协作神器”!** **它具体能干啥?** 1. **📸 自动“拍照存档”(版本控制):** * 每当你觉得写到一个不错的地方(比如完成一小节、修复了一个bug),你就可以告诉 Git:“嘿,给我现在这个状态拍个快照存起来!” * 这样,**无论你后面怎么改、怎么删、甚至改得一塌糊涂,你随时都能“回到”之前拍过的任何一个快照的状态**。就像游戏存档一样,玩砸了还能读档重来!再也不用怕改错了东西找不回来。[^1][^3] 2. **🌳 开“平行宇宙”做实验(分支管理):** * 你想尝试一个大胆的新剧情(或者一个新功能),但又怕把现在好好的稿子搞乱? * Git 可以让你**瞬间复制一份当前的小说副本(创建一个“分支”)**,在这个安全的“平行宇宙”里随便折腾。改好了,满意了,再把“平行宇宙”里的成果合并回主稿子;改砸了?直接把这个分支删掉,主稿子完全不受影响![^1][^3] 3. **🤝 别人一起写不打架(团队协作):** * 你朋友都要写同一篇小说。Git 提供了一个**公共的“云盘”(远程仓库,比如 GitHub、GitLab 等)**。 * 你先把你写好的部分存到本地 Git 仓库(拍照存档),然后**“上传”(push)** 到云盘上。 * 你的朋友就能**“下载”(pull)** 你写的最新内容到他自己的电脑上。 * 他改完他那部分,也拍照存档,再上传到云盘。 * 这样你们就能互相看到对方的进度修改,Git 还会尽量帮你们**自动合并**各自的修改。万一你们改到了同一句话(冲突),Git 也会标出来让你们商量着解决。[^2][^4] 4. **🔒 保证稿子安全(数据完整性):** * Git 给每次“拍照存档”都生成一个**独一无二的“指纹”**。一旦存档,里面的内容就**不可能被悄悄篡改**。如果有人改了,指纹就对不上了,马上就能发现。[^3] **总结一下,Git 是啥?** * **一个超级智能的“时光机”**:随时回到你作品的任何一个历史版本。 * **一个安全的“实验沙盒”**:让你在“平行宇宙”里大胆尝试新想法,不影响主线。 * **一个高效的“团队协作工具”**:让大家安全地一起修改同一份作品,互相能看到进度,自动合并修改。 * **一个可靠的“历史记录本”**:完整记录作品的每一次变化,保证记录真实可靠。 **简单说:Git 就是帮你管理文件(尤其是代码)所有修改历史,并且让你能安全、方便地别人一起干活的神奇工具!** 它本身是个软件(工具),而 GitHub 这类网站是提供存放你 Git 仓库的“云盘”服务(仓库)。[^2][^3] --- **
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值