爬虫:其实爬虫就像一个浏览器浏览网上的信息 ,只是我们称之为爬虫是因为它不是人为而是机器自动获取某些程序员设定的信 息,对于某些网站,它不想让爬虫获取消息,我们称之为反爬。里面的具体一些技术,我会一 一解释和贴源码 ,文章只是自己学习没有任何商业用途。
1:爬虫用到的语言 python2 html js (python3)
2 用到的技术 http协议 数据库 mysql mongo hbase redis soacket 多线程多进程 协程 代理 图像识别 数据分析 正则 fidder anyproxy 等等