
爬虫
云袖er
这个作者很懒,什么都没留下…
展开
-
python实现下载图片和视频
import requestsurl = "视频图片地址"r = requests.get(url, stream=True)if r.status_code == 200: open('视频图片存放位置', 'wb').write(r.content)原创 2020-02-16 15:42:05 · 328 阅读 · 0 评论 -
用selenium爬取拉勾网职位信息
拉勾网import timefrom selenium import webdriverfrom lxml import etreeimport refrom pymongo import MongoClientclass LaGou: def __init__(self): self.url = "https://www.lagou.com/jobs...原创 2020-02-14 19:52:52 · 176 阅读 · 0 评论 -
Selenuim
获取ajax数据的方式直接分析ajax调用的接口,然后通过代码请求这个接口使用Selenlum+chromedriver模拟浏览器行为获取数据Selenium[səˈliːniəm]相当于是一个机器人,可以模拟人类上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动chrome浏览器的驱动程序,使用他可以驱动浏览器。...原创 2020-02-14 16:21:45 · 286 阅读 · 0 评论 -
用正则表达式爬取古诗词网
url:中国古诗词网import requestsimport refrom pymongo import MongoClientclass Poetry: def __init__(self): self.headers = { "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS ...原创 2020-02-12 15:07:48 · 389 阅读 · 0 评论 -
爬取中国天气网上中国所有城市最低气温,存入mongodb,并用pyecharts展示
from bs4 import BeautifulSoupimport requestsfrom pyecharts.charts import Barfrom pyecharts import options as optsfrom pymongo import MongoClientclass Weather: def __init__(self): ...原创 2020-02-11 15:50:24 · 365 阅读 · 0 评论 -
BeatuifulSoup4
基本使用from bs4 import BeautifulSouphtml = """<div>test</div>"""# 第二个参数指定解释器:# 默认html.parser,容错性差# lxml速度快,需要安装c语言库,容错能力强,常使用bs = BeautifulSoup(html, 'lxml')print(bs.prettify())提...原创 2020-02-09 16:51:23 · 267 阅读 · 0 评论 -
requests+lxml+xpath
requests库获得html页面import requestsr = requests.get(url)r.content.decode()发送带header的请求headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Geck...原创 2020-02-09 08:42:47 · 473 阅读 · 0 评论 -
爬取电影天堂电影列表和详情页
爬取电影天堂电影列表和详情页import requestsfrom lxml import etreebase_list_url = 'https://www.dytt8.net'headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHT...原创 2020-02-07 13:11:59 · 7738 阅读 · 0 评论