试问年轻时谁没有几个梦想?
大数据处理一直在我计划之中,只不过人在江湖,身不由己,公司平台上一直没有接触这方面的工作,因为初创公司的数据量,你懂的...
最近在思考来创业公司的几年打拼经历,感觉收效甚微,技术层次还停留在几年前的水平,这里不是怪公司提供的平台不给力,只是后悔期间自己没有合理的安排学习时间,天天忙碌加班,蹉跎了大把大把的时间。
为了重拾往日的梦想,决定私下着手实际,行动起来:
一,数据准备:写爬虫,抓取大把数据量
先初步计划抓取100万数据,瞄准几家大的新闻门户,期间肯定会遇到各种问题:防抓取/多线程/存储...
上周写了一个单线程的小爬虫,效率不高,而且抓取过的URL都记录在内存中,还不能暂停抓取,问题一堆,但是就在写这篇文章当前它还在不遗余力的跑着,已经抓取了30+万条news
所以接下来第一步打算先整个多并发的抓取,提高生产率
二,数据清洗,去除噪音
清洗数据,为下一步数据处理做准备,目标是识别网页上的新闻正文
三,归类,相关文章
计划把不同网站的针对同一件事的给揪出来,文本相似度
文本分类
四,面对大数据量的计算,各种未知情况
之前从来没有做这么大的数据量的加工,途中肯定会遇到各种未知的问题
尽管这些都有人已经实现,但是自己不动动手,很难沉入进去
计划十一前出个小成果来与大伙分享
美好的一天已经开始, 早起的鸟儿有虫吃~~~
持续更新~~~~
4万+

被折叠的 条评论
为什么被折叠?



