
爬虫
阿飞不修电脑
这个作者很懒,什么都没留下…
展开
-
Python爬虫豆瓣电影Top250个电影数据保存在Excel
from bs4 import BeautifulSoup import urllib.request,urllib.error import re import xlwt #爬取网页 findLink = re.compile(r'<a href="(.*?)">') findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) findTitle = re.compile(r'<span class="title">(.*)&原创 2021-07-23 16:50:15 · 589 阅读 · 0 评论 -
2021-07-21
爬取豆瓣TOP电影各个电影的链接 from bs4 import BeautifulSoup import urllib.request,urllib.error import re #爬取网页 findLink = re.compile(r'<a href="(.*?)">') def main(): baseurl="https://movie.douban.com/top250?start=" datalist=getDate(baseurl) #savepath=原创 2021-07-21 16:54:57 · 121 阅读 · 0 评论 -
爬虫实例1:爬取豆瓣top电影简介
from bs4 import BeautifulSoup import urllib.request,urllib.error import re #爬取网页 def main(): baseurl="https://movie.douban.com/top250?start=" datalist=getDate(baseurl) #savepath=".\\豆瓣电影Top250.xls" print(datalist) def getDate(baseurl):原创 2021-07-21 10:08:49 · 700 阅读 · 0 评论 -
正则表达式教学
re.compile(r" ") 创造正则表达式对象,表示规则(字符串的模式),r的意思是忽略特殊符号,防止翻译错误。 re.findall(参数1,参数2) 参数1:规则 参数2:符合规则的字符串原创 2021-07-16 08:20:33 · 92 阅读 · 0 评论