
爬虫学习
韩梅梅meimei
这个作者很懒,什么都没留下…
展开
-
【学习】正则表达式1
想搞一搞爬虫,发现学习正则表达式的必要性!某乎说,入门就从《精通正则表达式》开始。下载了中文和英文版的书但心沉不下来,今日在图书馆翻到这本书,感觉看纸质版确实有动力些。今日阅读了第一章,基本上把正则表达式的元素都搞了个明白,但是还有很多东西值得学习和探索,比如:第三版距今还是有些年代的,不知书中的内容现在是否有变化不同egrep之间的差别涉及到较复杂的具体问题,经常面临考虑是否周到的问题...原创 2019-01-17 20:45:22 · 148 阅读 · 0 评论 -
【学习】 爬虫入门
文章目录我需要学习的内容Bloom FilterScrapy参考资料我需要学习的内容摘自参考1(其实原创是知乎回答)1、基本的爬虫工作原理2、基本的http抓取工具,scrapy3、避免重复抓取网页,这里我们主要讨论使用 Bloom Filter4、如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。5...原创 2019-01-18 22:19:42 · 132 阅读 · 0 评论