简单大数据处理-学习笔记

试问年轻时谁没有几个梦想? 

大数据处理一直在我计划之中,只不过人在江湖,身不由己,公司平台上一直没有接触这方面的工作,因为初创公司的数据量,你懂的...

最近在思考来创业公司的几年打拼经历,感觉收效甚微,技术层次还停留在几年前的水平,这里不是怪公司提供的平台不给力,只是后悔期间自己没有合理的安排学习时间,天天忙碌加班,蹉跎了大把大把的时间。

为了重拾往日的梦想,决定私下着手实际,行动起来:

一,数据准备:写爬虫,抓取大把数据量

先初步计划抓取100万数据,瞄准几家大的新闻门户,期间肯定会遇到各种问题:防抓取/多线程/存储...

上周写了一个单线程的小爬虫,效率不高,而且抓取过的URL都记录在内存中,还不能暂停抓取,问题一堆,但是就在写这篇文章当前它还在不遗余力的跑着,已经抓取了30+万条news



所以接下来第一步打算先整个多并发的抓取,提高生产率

二,数据清洗,去除噪音

清洗数据,为下一步数据处理做准备,目标是识别网页上的新闻正文

三,归类,相关文章

计划把不同网站的针对同一件事的给揪出来,文本相似度

文本分类

四,面对大数据量的计算,各种未知情况

之前从来没有做这么大的数据量的加工,途中肯定会遇到各种未知的问题


尽管这些都有人已经实现,但是自己不动动手,很难沉入进去


计划十一前出个小成果来与大伙分享

美好的一天已经开始, 早起的鸟儿有虫吃~~~

持续更新~~~~奋斗


评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值