
瞎写点爬虫教程案例
一些基本的爬虫讲解和案例吧
川川菜鸟
我是一位擅长数据科学、人工智能、网站搭建、网络爬虫和软件/接口测试的专家,同时也是畅销书《Python网络爬虫入门到实战》和《Python3编程从零基础到实战》 作者。公众号:川川菜鸟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ER_NOT SUPPORTED_AUTH_MODE: Client does not support authentication protocol requested by server; con
八爪鱼数据库导出原创 2024-11-16 22:14:51 · 274 阅读 · 0 评论 -
低代码平台,无需代码即可数据抓取
低代码平台,无需代码即可数据抓取原创 2024-04-01 16:22:59 · 14392 阅读 · 4 评论 -
最先进的Prophet时间序列模型预测石油股票
原油股票预测原创 2022-02-28 18:15:11 · 2996 阅读 · 0 评论 -
2021我在优快云的年度总结,一份如何变得优秀的秘籍
2021我的年度总结与展望,与一份变成功的优秀秘籍。原创 2021-12-29 07:45:00 · 10417 阅读 · 36 评论 -
爬取某网几千张小姐姐私房照,准备好纸,别流鼻血,速速收藏
效果:什么?看不清?准备发车模块下载:pip install requestspip install re第一部分:定义要爬取的标签和正在爬取的页数def UserUrl(theme,pagenum): url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {'theme': urllib.parse.quote(theme),原创 2021-08-12 01:06:09 · 2393 阅读 · 1 评论 -
六行代码下载张杰的最新专辑视频
下载安装包:pip install you_get与代码同级目录新建一个mp4文件夹。源代码如下:import sysfrom you_get import common as you_get# 导入you-get库# 设置下载目录directory=r'mp4\\'# 要下载的视频地址url='https://music.163.com/#/mv?id=14306186'# 传参数sys.argv=['you-get','-o',directory,'--format=f原创 2021-08-11 20:28:13 · 656 阅读 · 1 评论 -
python制作一个网易音乐下载器
#coding=gbk"""描述:传参id即可下载音乐。本脚本仅提供单个音乐下载。留下一个问题:如何批量下载?作者:川川时间:2021/8/11群:970353786"""import requests#导入requests库url_api='http://music.163.com/song/media/outer/url?id={}.mp3'id='461347998'#歌曲的idurl=url_api.format(id)#合成下载地址headers={#加入请求头模拟浏览器浏览原创 2021-08-11 19:39:58 · 1606 阅读 · 4 评论 -
全国任意城市二手房价爬取(附源码)+分析教程
不喜欢太多废话,直接上分析。过程:(第一步找总体)第二步看单个:(找规律)可遍历:#coding=utf-8"""作者:川川时间:2021/6/26"""from lxml import etreeimport requestsif __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.3原创 2021-06-26 12:49:44 · 2925 阅读 · 4 评论 -
爬虫学习(17):selenium学习
川川已经很久没发文章了,为了锻炼出八块腹肌也是忍了,不说废话了,学了下selenium,我再发布总结下,还有如何用selenium制作一个自动填体温,emm…没办法,我学校天天都叫我们填体温,上午一次下午一次,烦死了。自动填体温代码由于透露到个人信息,我实在不方便透露了,大家可以群里找我,再教你也可以,或者看我下面几个教程,自己摸索下就做出来了,我也才学了一小部分,学完再发后面的提供一个这个模块学习的好网址,我才看了不到半就搞了个自动填体温,太简单了:http://www.testclass.net/s原创 2021-03-21 01:02:07 · 629 阅读 · 0 评论 -
爬虫学习(16):CSV文件存储
写入:import csvwith open('data.csv','w',encoding='gbk') as f: #如果是csv一定要用gbk编译方式,utf-8乱码 writer=csv.writer(f)#writer方法初始化写入对象 writer.writerow(['id','name','age'])#writerow写入每一行数据 writer.writerow(['1','川川','20']) writer.writerow(['3','笨笨','原创 2021-02-09 16:58:09 · 689 阅读 · 0 评论 -
爬虫学习(15):json文件存储
没啥说的,就记录一下:读取json文件import jsonwith open('data.json','r') as f: str=f.read() data=json.loads(str) print(data)输出json格式文件:import jsondata=[{"name":"chuan","age":"20","interest":"game"}]with open('result.json','w',encoding='utf-8') as f原创 2021-02-09 15:58:49 · 633 阅读 · 0 评论 -
爬虫学习(13):爬取坑爹网gif图
昨天学完了BeautifulSoup,爬取了诗词网,今天学了PyQuery,于是我选择爬取坑爹网学啥用啥嘛,嘿嘿!插个小曲:这是我qq群970353786,同在学习python,希望更多大神小白能跟我一起交流,我很多源代码也放到群里的,但是你进群问题回答print(“hello world”)结果是啥都回答不上还是不允许进。效果:(都是动态的)代码:(代码仅供学习参考,如果爬取内容有所侵权请联系我删除)import requestsfrom fake_useragent import User原创 2021-02-06 18:19:58 · 1848 阅读 · 0 评论 -
爬虫学习(12):爬取诗词名句网并且下载保存
效果:缺陷:有些部分文本不换行,暂时没找到解决办法,凑合下由于我是正在自学爬虫,不是很能找到非常优化的办法,还请大神指点,这是我扣扣群:970353786,希望更多喜欢学习python的可以跟我一起学习交流。上代码:import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM原创 2021-02-05 03:37:56 · 1163 阅读 · 0 评论 -
爬虫学习(11):爬取虎牙美女直播高清照片
看看效果:上代码:import requestsfrom lxml import etreeimport timeurl='https://www.huya.com/g/4079/'header={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}respons原创 2021-02-03 18:49:19 · 1140 阅读 · 4 评论 -
爬虫学习(10):xpath爬取包图网高清模板视频
暂时我就没有发xpath基础知识了,编辑太浪费时间了,需要了解或者有问题的可以加我群问我就好了,我也正在努力学习中,不废话了,上代码,解释都在注释.先看效果:开始的时候下载的还不是那么高清,后来我琢磨半天才下载到高清的模板视频:import requests#发送请求from lxml import etree#处理数据header={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/5原创 2021-02-03 00:50:54 · 892 阅读 · 2 评论 -
爬虫学习(9):正则爬取jk妹子头像,不要滑走!
效果:代码可以直接用,不用修改,但是希望大家能通过这个例子能够学到正则的使用:import requestsimport reimport urllib.requestimport timeimport osheader={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/5原创 2021-02-02 22:18:02 · 930 阅读 · 0 评论 -
爬虫学习(8):正则表达式运用
正则表达式万能**.?**别的我就就不说了,就用万能.?打字太麻烦了,刚好录了一个屏幕 正则表达式原创 2021-01-28 16:17:39 · 504 阅读 · 0 评论 -
爬虫学习(6):requets使用(1)
**(1)**基本用法了解前面讲了urlib中的urlopen,就是通过get方式获取。这里就直接使用requests模块的get函数直接来获取(get和urlopen是相同的),主要是这个更方便:import requestsu=requests.get('https://mp.youkuaiyun.com/console/article')print(u.status_code)#打印状态码print(u.text)#打印文本print(u.cookies)#打印cookie再举例子:impor原创 2021-01-26 23:36:40 · 958 阅读 · 0 评论 -
爬虫学习(5):parse解析链接(网址)
还是以解析优快云为例子吧,哈哈!1.urlparsefrom urllib.parse import urlparses=urlparse('https://www.youkuaiyun.com/?spm=1011.2124.3001.5359')#解析的网址print(type(s),s)#打印类型和解析结果看看打印结果:<class 'urllib.parse.ParseResult'> ParseResult(scheme='https', netloc='www.youkuaiyun.com原创 2021-01-26 19:27:45 · 1359 阅读 · 0 评论 -
爬虫学习(4):error异常处理
贴代码:#异常处理from urllib import request,errortry: response=request.urlopen('http://42.192.180.200:8888/loginl')except error.HTTPError as e: print(e.reason,e.code,e.headers)#分别打印reason,code,headers结果看一下:首先要导入request模块,还有异常处理模块error.用try和except搭配原创 2021-01-26 00:09:10 · 803 阅读 · 0 评论 -
爬虫学习(3):获取网站cookies
先贴代码,还是以爬取优快云的cookie为例子:import http.cookiejar,urllib.request #导入要用到的cookiejar,request coikie=http.cookiejar.CookieJar()#声明CookieJar这个对象hanlder=urllib.request.HTTPCookieProcessor(coikie)#利用HTTPCookieProcessor创建handler opener=urllib.request.build_op原创 2021-01-25 16:57:25 · 1443 阅读 · 2 评论 -
爬虫学习(2):request库使用
hh先强力推荐下python推出的kite神器,安装好后,写代码都有提示,超级帮,解决忘记完整代码步入正题: request,老规矩,不讲原理,讲方法,不喜欢废话还是以爬取优快云为例子import urllib.requestrequest = urllib.request.Request("https://www.youkuaiyun.com/?spm=1011.2124.3001.5359")response=urllib.request.urlopen(request)print(response原创 2021-01-25 01:14:43 · 737 阅读 · 0 评论 -
爬虫学习(1):urlopen库使用
以爬取优快云为例子:第一步:导入请求库第二步:打开请求网址第三步:打印源码import urllib.requestresponse=urllib.request.urlopen("https://www.youkuaiyun.com/?spm=1011.2124.3001.5359")print(response.read().decode('utf-8'))结果大概就是这个样子:好的,继续,看看打印的是什么类型的:import urllib.requestresponse=urllib.r原创 2021-01-25 00:19:07 · 1084 阅读 · 0 评论 -
爬取网页却中文乱码
遇到的问题是这样的:我的代码部分:解决方案:成功:原创 2021-02-05 01:07:52 · 587 阅读 · 0 评论 -
九行代码带你爬取任何你想要爬取的图片
首先,我们直接用的是icrawler这个爬取的模块,简直是太方便了,用不着再去分析网页,用不着再去写正则。。都不用,一个循环遍历就行,模块给我们封装好了。解释下,我注释掉的部分分别是百度和谷歌的这个搜索引擎模块(我这这么叫的)吧,看那个英文单词crawler就是爬虫的意思,我在这里用的是bing的爬虫。你们要用别的爬虫也可以的。第一步代码:我定义的这个列表。列表的话,我们可以任意添加多少,添加你任何想要爬取的图片。举个例子,我想要爬取张杰,林俊杰,周杰伦他们的图片,那我们就在列表里面分别添加这三个人的,原创 2020-11-15 17:25:09 · 1243 阅读 · 5 评论 -
深夜不睡的我爬取一下美女照片!!!哈哈!!来吧,刺激磁刺激!!!
来,想看一张图片!!深夜不能没有美女!哈哈!上代码,分析都在注释!干!!如果你要是复制直接运行的话,会给你报错没有这个文件夹,你j就在自己建立一个文件夹,然后在path哪里把文件夹地址复制过去!!哈哈哈,先跑一跑找找感觉再仔细看看代码,好好分析下哈!!!帅哥美女,点个赞加个关注再走呗import requestsimport re# 设置保存路径path = './girl'# 目标urlurl = "http://pic.netbian.com/4kmeinv/index.html原创 2020-11-13 02:14:51 · 35291 阅读 · 0 评论 -
爬取去哪儿网酒店信息
不说太多废话,就简单一句:你们你要爬哪里可以把地点改一下,还有时间改一下,爬取数量自己修改参数和代码,变化不大。有问题请留言,我不再次废话分析(这里我爬取的上海最近的酒店信息)# coding=utf-8import csv#用来储存文件的模块import timeimport requestsimport jsonimport pandas as pd#excel出处理# 区域店铺id ct_Poi cateName抓取,传入参数为区域iddef crow_id(city): u原创 2020-11-06 13:04:10 · 29568 阅读 · 8 评论