
爬虫实例
python爬虫实战,多练才会上手、熟练。可以多找一下网站来练习爬虫
Delusion(✘_✘)
擅长Ai、Pr、Ps、Ae等软件的安装与卸载,精通C++、Java、Python、JavaScript、CSS、PHP等单词的拼写,熟悉Windows、Linux、Mac等系统的开关机以及重启,逆向破解和网络安全也听说过!
展开
-
python爬虫把数据保存到csv、mysql中
啧,放假几天游戏玩腻了,啥都不想干,突然想起来python这玩意,无聊就来玩玩目标:起点主要是拿到这几个数据分析下网页一个li对应一本小说,打开li看里面的东西首先是排名xpath来一下名字在第二个div里面接着是作者类型最后是章节和更新时间直接上代码导入库pymysql是连接mysqlrequests是请求库parsel是解析库csv是保存到csv文件里面看一下网址,拿一下请求头,然后直接请求接着解析上面的几个数据。原创 2022-12-24 15:50:20 · 3925 阅读 · 10 评论 -
异步爬小说
因为是数据包,所以直接用json输出,然后定位到title的位置,以获取title和cid。异步的最好案例应该是爬这种多页面的或者多级的东西,所以直接整小说。对于第一个url就是获取所有章数的,就是如下所示了。因为每个cid对应每一章节,所以开始上异步。仔细看一下data那一行的数据,可以改成。点一个章节进去,然后又看一下包。看到了内容,url也复制一下。随便点一本小说,然后打开调试。发现有%22这玩意,直接去掉。然后保存这个包的url地址。然后对第一个url进行请求。找到加载章节的数据包。原创 2022-10-01 15:11:08 · 1461 阅读 · 0 评论 -
多线程爬取数据
如果需要爬的页面很多的那种的话,可以挂电脑去看电视了,还有可能会。回到页面,可以看到一共是10页,如果是这样改代码。运行后瞬间完成,如果是单独的for循环估计要好几秒。拉到最后面会看到俩个没有用的div,可以去掉。所有的学习都在这个大的div里面。没有乱码,然后到页面分析去。的意思是创建50个线程池,呢是把任务交给线程池。原创 2022-10-01 12:47:56 · 527 阅读 · 0 评论 -
爬亚马逊排行
打开开发者工具,看到是get请求,然后再找到user-agent,伪装一下,因为有反爬。这里主要是防止爬的速度太快的,运行之后数据都能提取出来。三天前接了一个单,是个小单子,就整个销售排行,分析一下,可以看到每一个div都对应一个商品。url的话换页这里也跟着变成页数。用class爬起来可方便多了。本来无心接单,玩玩也不错。一页50个排名,一个俩页。原创 2022-08-21 10:20:23 · 761 阅读 · 5 评论 -
爬虫实例图片爬取--2(某回车)
如果是直接运行绝对报错,因为没有这样的文件夹呀!所以我们又要用到os库来创建文件夹了。这个data是我们要爬取每一个小册,这个是为了创建每一个文件夹来放这个小册的。打印出来后发现是小图,仔细分析一下地址,发现小图都是。然后就是保存了,实现给图片二进制,再进行保存。这网站有反爬,加个cookie直接完事。单个是搞定了,但是我们要全部的·-·+那么把它复制出来,这次的话用到。下面的withopen也改一下。这样子点开之后全是大图了!发现这个dt是我们想要的。...原创 2022-07-16 13:50:39 · 262 阅读 · 0 评论 -
爬虫实例图片爬取--1(某领域)
然后取这个地址的反斜杠最后一段,用来做图片的名称。但是提取出来并不好看,可以用for来进行再次提取。既然拿到了图片的地址,那么就对这个地址发起请求。可以了,但是就这四张太少了,来整多点!是提取这元素中的src对应的地址。因为它的地址和名称都在这,所以。那么重新来一遍,对整体进行请求。2.获取数据(网页源码)导入请求库,然后发起请求。1.向目标网站发送请求。利用css来进行定位,再次用css来进行定位。4.向详情页发送请求。......原创 2022-07-15 14:57:07 · 319 阅读 · 1 评论