Harper的大数据漫谈(1):什么是大数据

本文是Harper关于大数据的个人见解,探讨了大数据的本质——数据处理,并通过电商公司案例阐述了数据采集、ETL过程以及面临的挑战。随着业务发展,单一机器无法应对数据增长,从而引入分布式处理,解决成本和灵活性问题。文章提到了分布式处理带来的新问题,如数据分布、任务更新和故障恢复,揭示了大数据技术的发展与演进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言: 关于Harper的大数据漫谈

回顾一下, 自2013年毕业至今已经8年了, 其中前三年在中国联通做通信, 之后五年转战互联网公司从事大数据行业. 很喜欢这个方向, 也积累了一些心得. 最近在帮组内的实习生入门, 正好把自己的思考记录下来, 或许能帮助更多的人, 于是重新捡起了技术博客, 发挥自己意识流写作的特点, 利用工作之余的碎片时间想到哪写到哪, 哈哈😄

由于写的都是个人的理解, 所以难免有错误, 希望大家指出来一起讨论, 共同进步.

概述: 什么是大数据

所谓的大数据, 本质上依然是数据处理, 数据处理才是核心, 大数据技术只是解决了如何在海量数据的场景下对数据进行分析处理的问题而已.

假设你开了一家电商公司卖货, 为了发展壮大, 自然而然就需要对用户的访问行为进行分析, 这样可以猜测出用户可能对什么样的商品感兴趣, 有的放矢地给他推销他需要的商品, 赚更多的钱. 用户的访问行为通常都是以日志的形式记录下来, 比如:

2021-02-14 00:01:02 张三浏览了床单
2021-02-14 00:02:03 张三浏览了肥皂
2021-02-14 00:10:09 张三购买了脸盆

这些叫做用户行为日志, 通常都是通过网站埋点采集的. 这些日志可能是结构化的,也可能是非结构化的. 上面的例子是非结构化的, 如果想要进行分析的话, 我们第一步就是要对它进行结构化,并写入到数据库中, 这个入库的过程就叫做ETL, Extract, Transform, Load. 入库后的数据大概长这个样子.

<
时间 用户 行为 商品
2021-02-14 00:01:02 张三 浏览 床单
2021-02-14 00:01:02
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值