
爬虫
文章平均质量分 88
Mu-Shen
python,图像处理与识别,算法,Forward together.
展开
-
正则表达式re库在python3的应用
正则表达式可以从目标文本中快速查找,匹配,替换设置的模式,举个例子py,pyy,pyyy,pyyyy...这个模式就是一个p和一个以上的y组成,常规办法不能穷尽,而且非常麻烦,正则表达式里面直接使用py+就可以表达出来,非常方便.比较常见的表达方式如下:模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。[.....原创 2018-05-18 16:09:06 · 633 阅读 · 0 评论 -
python爬虫实战-爬取猫眼电影榜单top100
猫眼电影是静态网页,并且不需要验证码,非常适合爬虫的入门练习,流程如下-通过url连接获取html内容,在html中通过正则表达式,我们提取排名,名称,主演,上映时间等信息,格式如下["9", "魂断蓝桥", "主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森", "上映时间:1940-05-17(美国)"]import requests import re from bs4 import Beaut...原创 2018-05-22 16:34:29 · 2883 阅读 · 0 评论 -
python3爬虫-中国最好大学排名
使用python的requests和BeautifulSoup爬取前20个中国最好的大学,内容来源于最好大学这个网站,不需要登陆,直接可以访问静态网页内容,网页如下:直接可以提取信息,非常适合练习requests和BeautifulSoup功能.主程序需要几个部分组成首先载入必要的包import requests from bs4 import BeautifulSoup import bs4ge...原创 2018-05-16 16:48:35 · 3122 阅读 · 1 评论