- 博客(3)
- 收藏
- 关注
转载 Python爬虫(三)——正则表达式
一、正则表达式 之所以叫正则表达式, 是因为它们可以识别正则字符串( regular string) ;也就是说,它们可以这么定义:“ 如果你给我的字符串符合规则,我就返回它”,或者是“如果字符串不符合规则,我就忽略它”。这在要求快速浏览大文档,以查找像电话号码和邮箱地址之类的字符串时是非常方便的。 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要...
2017-03-18 12:35:00
212
转载 python爬虫(二)——第一个爬虫程序
BeautifulSoul Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要...
2017-03-09 14:36:00
303
转载 python爬虫学习(一)——爬虫的工作原理
爬虫的工作原理 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成...
2017-03-04 10:03:00
127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人