
爬虫
爬虫实战项目
Vax_Loves_1314
正不断走向秃顶的程序猿人生~
展开
-
【爬虫】新浪微博爬虫——环境部署
1.先安装Python环境,作者是Python 2.7.82.再安装PIP或者easy_install3.通过命令pip install selenium安装selenium,它是自动测试、爬虫的工具4.然后修改代码中的用户名和密码,填写你自己的用户名和密码5.运行程序,自动调用Firefox浏览器登陆微博注意:手机端信息更加精致简单,而且没有动态加载的一些限制,但是如微博或粉丝id只显示20页,这是它的缺点;而客户端可能存在动态加载,如评论和微博,但是它的信息更加完整。[源码] 爬取移动端微原创 2021-09-30 23:21:41 · 771 阅读 · 0 评论 -
【Python爬虫】爬取酷狗TOP500的数据
该文利用Requests和BeautifulSoup第三方库,爬去酷狗网榜单中酷狗TOP500的信息。首先分析页面:https://www.kugou.com/yy/rank/home/1-8888.html网页版酷狗不能手动翻页,进行下一步的浏览,但观察url可以尝试把1-8888的1替换成为2,在进行浏览,恰好返回的是第二页的信息。经过多次尝试。发现更换不同数字,即跳转不同的页面,因此只需要更改home/后面的数字即可,由于每页只显示22条信息,所以我们抓取前500总共需要23个页面原创 2021-07-09 09:51:34 · 5807 阅读 · 1 评论 -
【爬虫】爬取女神套图
疲惫的生活里总要有些温柔梦想吧目标URL:http://www.win4000.com/meinvtag4_1.html爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图一、网页分析翻页查看 URL 变化规律:http://www.win4000.com/meinvtag4_1.htmlhttp://www.win4000.com/meinvtag4_2.htmlhttp://www.win4000.com/meinvtag4_3.htmlhttp://w转载 2021-05-04 10:52:18 · 1215 阅读 · 0 评论 -
【Python】学完python爬虫,你都掌握了什么?
目录初学爬虫Ajax、动态渲染多进程、多线程、协程分布式验证码封 IP奇葩的反爬JavaScript 逆向App智能化运维结语当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因为涵盖的方向多,因此原创 2021-03-31 21:51:36 · 534 阅读 · 0 评论 -
【爬虫】简书首页信息爬取
import requestsfrom lxml import etreeimport pymongofrom multiprocessing import Poolclient = pymongo.MongoClient('localhost', 27017)mydb = client['mydb']jianshu_shouye = mydb['jianshu_shouye']def get_jianshu_info(url): html = requests.get(url).原创 2021-02-28 23:41:08 · 225 阅读 · 0 评论 -
【爬虫】简书七天文章一览
from lxml import etreeimport requestsimport pymongoimport reimport jsonfrom multiprocessing import Poolclient = pymongo.MongoClient('localhost', 27017)mydb = client['mydb']sevenday = mydb['sevenday']header = { 'User-Agent':'Mozilla/5.0 (Win.原创 2021-02-28 23:40:36 · 189 阅读 · 0 评论 -
【爬虫】爬取豆瓣高评分小说
import requestsimport reimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}f = open('C:/Users/LP/Desktop/doupo.txt','a+')def get_info(url): re.原创 2021-02-28 23:39:33 · 230 阅读 · 1 评论 -
【爬虫】下载豆瓣图书
from lxml import etreeimport requestsimport csvfp = open('C://Users/LP/Desktop/doubanbook.csv','wt',newline='',encoding='utf-8')writer = csv.writer(fp)writer.writerow(('name', 'url', 'author', 'publisher', 'date', 'price', 'rate', 'comment'))urls.原创 2021-02-28 23:38:59 · 261 阅读 · 0 评论 -
【爬虫】爬取豆瓣音乐信息
import requestsfrom lxml import etreeimport reimport pymongoimport timeclient = pymongo.MongoClient('localhost', 27017)mydb = client['mydb']musictop = mydb['musictop']headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/.原创 2021-02-28 23:38:28 · 382 阅读 · 1 评论 -
【爬虫】爬取豆瓣电影信息
import requestsfrom lxml import etreeimport reimport pymysqlimport timeconn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mydb', port=3306, charset='utf8')cursor = conn.cursor()headers = { 'User-Agent':'Mozilla/5.0 (Wi.原创 2021-02-28 23:37:58 · 351 阅读 · 0 评论 -
selenium浏览器模拟豆瓣登录
from selenium import webdriverdriver = webdriver.PhantomJS()driver.get('https://www.douban.com/')driver.implicitly_wait(10)driver.find_element_by_id('form_email').clear()driver.find_element_by_id('form_email').send_keys('15116137454')driver.find_ele.原创 2021-02-28 23:37:22 · 289 阅读 · 0 评论 -
模拟豆瓣登录
import requests# url = 'https://www.douban.com/accounts/login'# params = {# 'source':'index_nav',# 'form_email':'xxxxx',# 'form_password':'xxxx'# }# html = requests.post(url,params)# print(html.text)url = 'https://www.douban.com/'hea.原创 2021-02-28 23:36:51 · 270 阅读 · 0 评论 -
compare
import requestsimport refrom bs4 import BeautifulSoupfrom lxml import etreeimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}urls = ['http://www.原创 2021-02-28 23:36:20 · 222 阅读 · 0 评论 -
baidumap
import requestsfrom lxml import etreeimport csvimport json# address = '上海'# par = {'address': address, 'key': 'cb649a25c1f81c1451adbeca73623251'}# base = 'http://restapi.amap.com/v3/geocode/geo'# response = requests.get(base, par)# print(response.原创 2021-02-28 23:35:48 · 218 阅读 · 0 评论 -
baidu_img.py
import requestsfrom urllib.request import urlretrievepath = 'C:/Users/luopan/Desktop/photo/'url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1550468777489&di=054054453d3e36667596e249a7f6e7ae&imgtype=0&s.原创 2021-02-28 23:35:05 · 315 阅读 · 0 评论 -
【爬虫】糗事百科信息爬取
import requestsimport reheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}info_lists = []def judgment_sex(class_name): if class_name == 'womenIcon': .原创 2021-02-28 23:30:01 · 348 阅读 · 0 评论 -
【爬虫】爬取网易云热门歌曲歌曲信息-歌手、链接、歌手信息
# By Vax# At time - 2020/12/27 21:59# linked fromimport requests,jsonfrom lxml import etreeurl = 'https://music.163.com/discover/artist'singer_infos = []# ---------------通过url获取该页面的内容,返回xpath对象def get_xpath(url): headers = { 'User-.原创 2021-02-28 22:56:56 · 1080 阅读 · 1 评论 -
【爬虫】爬取扇贝网单词书
# By Vax# At time - 2020/12/27 21:59# linked fromimport jsonimport requestsfrom lxml import etreebase_url = 'https://www.shanbay.com/wordlist/110521/232414/?page=%s'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebK.原创 2021-02-28 22:55:19 · 694 阅读 · 1 评论 -
【爬虫】爬取酷狗音乐榜单热搜榜前100名歌曲歌手名称加歌单
# By Vax# At time - 2021/1/3 15:40# linked fromimport json, requestsfrom lxml import etreeclass KuDog(object): def __init__(self): self.base_url = 'https://www.kugou.com/yy/singer/index/%s-%s-1.html' self.headers = { .原创 2021-02-28 22:51:34 · 1421 阅读 · 0 评论 -
【爬虫】爬取菜鸟教程Python前100个例题
import requestsfrom lxml import etreebase_url = 'https://www.runoob.com/python/python-exercise-example%s.html'def get_element(url): headers = { 'cookie': '__gads=Test; Hm_lvt_3eec0b7da6548cf07db3bc477ea905ee=1573454862,1573470948,1573478.原创 2021-02-28 22:48:04 · 1217 阅读 · 0 评论 -
【爬虫】王者荣耀爬取英雄高清4K图片
import requestsimport jsonresp = requests.get('https://pvp.qq.com/web201605/js/herolist.json')heros_list = json.loads(resp.text)print(heros_list)for hero in heros_list: id = hero['ename'] # 得到英雄的ID name = hero['cname'] #得到英雄名字 skin_url =.原创 2021-02-28 22:46:48 · 4717 阅读 · 4 评论 -
【爬虫】模拟浏览器模仿登录新版知乎
知乎是爬虫的一个经典案例,因为他经常改版,越来越难爬,可能我这个教程写完他就又改版了。知乎的难点1. 登录,且url跳转2. 参数加密3. 验证码本文将介绍模拟登录知乎的详细过程。抓包 -- 分析登录过程使用 fiddler 抓包使用浏览器抓包1. 获取登录url输入账号、密码等,登录网站post 方式访问url,页面跳转,箭头所指是真实的 登录url 2. 获取登录参数可以看到 form data 加密了处理方法需要解...原创 2021-02-28 21:43:38 · 727 阅读 · 0 评论 -
【图文解析】如何入门爬虫,看完这篇文章你就懂了
原创 2021-02-28 21:14:38 · 248 阅读 · 0 评论 -
简单爬虫小工具!一行代码,就能爬!
You-Get乃一小小哒命令行程序,提供便利的方式来下载网络上的媒体信息。为什么你要好好的用you-get: 你欢喜于互联网上的富媒体内容,并为个人寻欢而储存 你喜悦观看的视频,然而不得保存;对个人设备无从控制,此乃违背开放互联网之行为 你寻求解脱于闭源软件或 JavaScript 代码,并禁止 Flash 运行 你为黑客精神与自由软件而欣喜 you-get大法之功用: 下载流行网站之音视频,例如YouTube、Youku、TED、土豆以及更多 .原创 2021-01-31 23:54:27 · 686 阅读 · 0 评论 -
(数据分析基础)Python爬虫定时计划任务的几种常见方法
记得以前的Windows任务定时是可以正常使用的,今天试了下,发现不能正常使用了,任务计划总是挂起。接下来记录下Python爬虫定时任务的几种解决方法。方法1:While True首先最容易的是while true死循环挂起,不废话,直接上代码:importosimporttimeimportsysfromdatetimeimportdatetime,timedeltadefOne_Plan():#设置启动周期Second_update_ti...原创 2021-01-31 23:45:39 · 899 阅读 · 0 评论 -
一篇文章带你理解爬虫究竟是什么?
目录前言爬虫的应用场景爬虫的技术选型简单的爬虫脑洞大开的爬虫解决思路复杂的爬虫设计音视频爬虫实战一、先从几个方面来简单介绍我们音视频爬虫项目的体系二、分步来讲下细节三、遇到的问题和解决方案四、最后做下总结爬虫管理平台总结前言作为冷数据启动和丰富数据的重要工具,爬虫在业务发展中承担着重要的作用,我们业务在发展过程中积累了不少爬虫使用的经验,在此分享给大家,希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展我们将会从以下.原创 2021-01-10 21:52:06 · 2331 阅读 · 0 评论 -
(最全正则表达式,没有之一!)详解Python正则表达式
1 前言正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。上面都是官方的说明,博主自己的理解是(仅供参考):通过事先规定好一些特殊字符的匹配规则,然后利用这些字符进行组合来匹配各种复杂的字符串场景。比如现在的爬虫和数据分析,字符串校验等等原创 2021-01-10 18:38:32 · 1469 阅读 · 1 评论 -
弄懂Python爬虫正则式书写?就这一篇博文就够了!
前言正则表达式是处理字符串的强大工具,它有自己特定的语法结构,可以实现字符串的检索、替换、匹配验证。案例引入打开开源中国提供的正则表达式测试工具https://tool.oschina.net/regex/,输入带匹配的文本,然后选择常用的正则表达式,就可以得到相应的匹配结果。运行界面其实,这里就是使用的正则表达式匹配,也就是用一定的规则将特定的文本提取出来。对于电子邮件来说可以使用[\w!#%&'+/=?^_`~-]+)@(?:\w?.)+\w?将它匹配出来。原创 2021-01-10 18:34:47 · 1361 阅读 · 0 评论 -
手把手教你使用Python网络爬虫获取搜狗壁纸
1.前言搜狗壁纸是一款高清电脑壁纸下载,集成万款美女、宠物、风景、电影、节日、日历、简约壁纸,一键更换壁纸,多分辨率自适应,支持分组播放。搜狗壁纸,素材丰富,种类齐全,集美女、风景、萌宠等13个分类。让你的桌面充满爱。2. 项目目标教会大家如何去获取搜狗壁纸,下载你喜欢的分类。3. 项目准备软件:PyCharm需要的库:requests、fake_useragent、json网站如下:https://pic.sogou.com/pics/channe...原创 2020-12-29 21:11:38 · 1747 阅读 · 0 评论