
爬虫
医生的托马斯
这个作者很懒,什么都没留下…
展开
-
v2ex的简单爬虫
''' v2ex的爬虫,只爬首页面,获取贴子的标题和url,再访问帖子url获取主贴内容 长时间频繁执行会被网站封掉 BeautifulSoup4的中文文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ''' import requests from bs4 import BeautifulSoup def get_htm...原创 2019-09-29 16:49:38 · 677 阅读 · 0 评论 -
BeautifulSoup4的学习
>>> from bs4 import BeautifulSoup #用浏览器访问https://movie.douban.com/top250,保存成250.html文件 #将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄. >>> soup = BeautifulSoup(open("250....原创 2019-09-30 15:01:32 · 165 阅读 · 0 评论 -
豆瓣电影数据爬虫
import requests from bs4 import BeautifulSoup import json import re import codecs import time #定义 http的头 headers = { 'Cookie':'xxxxxxxx', 'Host':'movie.douban.com', 'User-Agent':'Mozilla...原创 2019-09-30 15:17:18 · 1013 阅读 · 0 评论