
爬虫
goodstudy@419
这个作者很懒,什么都没留下…
展开
-
Python 爬取微信公众号文章里的视频
**单独爬取一个网页里的视频 url = "https://mpvideo.qpic.cn/0bf22maaoaaao4ah7764pvqfbu6da7jqabya.f10002.mp4?dis_k=a7afcdd26bf11ed9706b4e9d4f13180b&dis_t=1625201119&spec_id=MjM5MzM5MDY1MQ%3D%3D1625201118&vid=wxv_1937252877962362881&format_id=10002&su原创 2021-07-02 13:29:34 · 4611 阅读 · 4 评论 -
介绍爬虫基本遇到的各种反爬虫机制与解决办法
一什么是爬虫和反爬虫?爬虫:使用任何技术手段,批量获取网站信息的一种方式。反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。二 Headers and referer 反爬机制headers进行反爬是最常见的反爬虫策略。还有一些网站会对 Referer (上级链接)进行检测(机器行为不太可能通过链接跳转实现)headers知识汇总User-Agent会告诉网站服务器,访问者是通过什么工具来请求的,如果是爬虫请求,一般会拒绝,如果是用户浏览器,就会应答。'''host:提供了主原创 2020-10-22 14:42:13 · 3281 阅读 · 0 评论 -
爬取网易云的华语歌手的前50歌曲,可以用来练手熟悉爬虫
# coding:utf-8from bs4 import BeautifulSoupimport refrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitimport csvbrowser = webdriver.Chrome()wait = WebDriverWait(browser, 5) # 设置等待时间# 返回歌手名字和歌手iddef get_singer原创 2020-10-22 12:40:19 · 428 阅读 · 1 评论 -
利用python爬取小说(转载)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/xjm850552586/article/details/78585286 </div> <link rel="styleshe...转载 2019-03-18 21:09:00 · 1931 阅读 · 0 评论 -
豆瓣top250爬取
"""爬取豆瓣电影Top250"""import osimport reimport timeimport requestsfrom bs4 import BeautifulSoup#开始导入网页def download(url, page): # print(f"正在爬取:{url}p # pattern = re(r'(?<=<br/>...原创 2019-08-22 10:48:19 · 202 阅读 · 0 评论 -
爬取网络小说最细致的详解
from bs4 import BeautifulSoup#导入BeautifulSoup这个模块爬虫中很关键在第二篇中讲import requests#我们大概分三个步骤#1.获取章节和章节对应的链接信息#2.获取对应章节的内容#3.把章节名字已经对应章节的内容写进text文件里面class spiderstory(object): def __init__(self):...转载 2019-08-22 15:22:30 · 1139 阅读 · 0 评论 -
jupyter MARKDOWN
这篇博客是有关Jupyter Notebook与Markdown的1>Markdown:(1)换行与段落:写完第一行的内容...转载 2019-09-21 16:12:13 · 5397 阅读 · 0 评论