简单大数据处理-学习笔记

最新推荐文章于 2024-05-26 17:05:23 发布

原创最新推荐文章于 2024-05-26 17:05:23 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

试问年轻时谁没有几个梦想？

大数据处理一直在我计划之中，只不过人在江湖，身不由己，公司平台上一直没有接触这方面的工作，因为初创公司的数据量，你懂的...

最近在思考来创业公司的几年打拼经历，感觉收效甚微，技术层次还停留在几年前的水平，这里不是怪公司提供的平台不给力，只是后悔期间自己没有合理的安排学习时间，天天忙碌加班，蹉跎了大把大把的时间。

为了重拾往日的梦想，决定私下着手实际，行动起来：

一，数据准备：写爬虫，抓取大把数据量

先初步计划抓取100万数据，瞄准几家大的新闻门户，期间肯定会遇到各种问题：防抓取/多线程/存储...

上周写了一个单线程的小爬虫，效率不高，而且抓取过的URL都记录在内存中，还不能暂停抓取，问题一堆，但是就在写这篇文章当前它还在不遗余力的跑着，已经抓取了30+万条news

所以接下来第一步打算先整个多并发的抓取，提高生产率

二，数据清洗，去除噪音

清洗数据，为下一步数据处理做准备，目标是识别网页上的新闻正文

三，归类，相关文章

计划把不同网站的针对同一件事的给揪出来，文本相似度

文本分类

四，面对大数据量的计算，各种未知情况

之前从来没有做这么大的数据量的加工，途中肯定会遇到各种未知的问题

尽管这些都有人已经实现，但是自己不动动手，很难沉入进去

计划十一前出个小成果来与大伙分享

美好的一天已经开始，早起的鸟儿有虫吃~~~

持续更新~~~~

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。