
爬虫
文章平均质量分 63
qiushuidongshi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫,爬取豆瓣书城首页的书籍信息,requests下载页面,三种解析方式(正则,bs4,xpath)
import requests r=requests.get('https://book.douban.com/') content=r.text 需要解析的主要HTMl # <div class="info"> # <div class="title"> # <a class="" href="htt.原创 2018-07-27 19:19:26 · 683 阅读 · 0 评论 -
request+正则表达式,爬取豆瓣电影top100
import requests,re,json from requests.exceptions import RequestException from multiprocessing import Pool def get_page_source(url): headers={ "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) App...原创 2018-07-27 20:37:16 · 925 阅读 · 0 评论 -
很简单的一个爬取豆瓣音乐前250的一些信息。
from lxml import etree import requests #获取页面地址 def getUrl(): for i in range(10): url = 'https://music.douban.com/top250?start={}'.format(i*25) scrapyPage(url) #爬取每页数据 def scrapyPage(u...原创 2018-08-02 19:43:04 · 490 阅读 · 0 评论