Web 爬虫分析:
1. 用twisted 或者 urllib2, 或者其他的包,把Web抓下来。
2. 用BeautifulSoup 类的Parse Web页面
3. 把结果存入数据库
另外也可以引用 pycURL.
pycURL是C写的python的扩展库,用它来抓取Web的速度很快,不过需要好好研究。
如果访问的网页需要用户名与密码,
需要模拟一下用户登录,或者直接装载cookie.
1. 用twisted 或者 urllib2, 或者其他的包,把Web抓下来。
2. 用BeautifulSoup 类的Parse Web页面
3. 把结果存入数据库
另外也可以引用 pycURL.
pycURL是C写的python的扩展库,用它来抓取Web的速度很快,不过需要好好研究。
如果访问的网页需要用户名与密码,
需要模拟一下用户登录,或者直接装载cookie.

本文介绍了一种使用Python进行Web爬虫的方法,包括使用twisted、urllib2等库抓取网页,利用BeautifulSoup解析HTML,并将结果存储到数据库中。还提到了pycURL这一高效抓取工具及如何处理需要登录的网站。

479

被折叠的 条评论
为什么被折叠?



