
爬虫
翎羽飘
In order to be irreplaceable, one must always be different.
展开
-
Beautiful Soup写爬虫
1.概念:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.。2.安装:三种方式1)easy_install beautifulsoup42)pip install beautifulsoup43)直接下载安装包,下载后解压,运行sudo python setup.py原创 2017-07-10 09:22:19 · 292 阅读 · 0 评论 -
用python写网络爬虫学习笔记(一)
1. 写爬虫一般用的都是python,pip是python很重要的管理工具,相当于npm置于javascript吧。在Mac上安装pip:sudo easy_install pip2. builtwith模块:用于检查网站构建的技术类型。pip install builtwith3. python-whois查询网站所有者pip install python-whois4. 第一个爬虫脚本im原创 2018-01-12 09:47:03 · 363 阅读 · 0 评论 -
用python写网络爬虫学习笔记(二)
通过网页抓取有用信息1. 正则表达式抓取:import urllib2import redef scrape(html): area = re.findall('.*?(.*?)', html)[0] return areaif __name__ == '__main__': html = urllib2.urlopen('http://example.w原创 2018-01-12 11:28:43 · 218 阅读 · 0 评论 -
用 python 爬虫抓站的一些技巧总结
在程序员大咖公众号看到这篇文章,正巧最近在学习爬虫,就给转载过来了~学用python用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些转载 2018-01-16 17:05:51 · 234 阅读 · 0 评论