auyn97836-优快云博客

转载 Python爬虫（三）——正则表达式

一、正则表达式　　之所以叫正则表达式，是因为它们可以识别正则字符串（ regular string）；也就是说，它们可以这么定义：“ 如果你给我的字符串符合规则，我就返回它”，或者是“如果字符串不符合规则，我就忽略它”。这在要求快速浏览大文档，以查找像电话号码和邮箱地址之类的字符串时是非常方便的。　　在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要...

2017-03-18 12:35:00 245

转载 python爬虫（二）——第一个爬虫程序

BeautifulSoul　　　　　　　　　　Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要...

2017-03-09 14:36:00 323

转载 python爬虫学习（一）——爬虫的工作原理

爬虫的工作原理　　网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成...

2017-03-04 10:03:00 150

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人