
python爬虫系列
文章平均质量分 77
数据挖掘与数据分析
菜鸟学识
日益努力,而后风生水起
展开
-
Python网络爬虫过程中的中文乱码的处理方法
对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一般难顶。不过别慌,这里给大家整理了三种方法,专门用于针对中文乱码的,希望大家在后面再次遇到中文乱码的问题,在此处可以得到灵感!原创 2024-05-28 16:37:34 · 1259 阅读 · 1 评论 -
用Python爬取百度搜索结果并保存
本文介绍了如何利用Python对百度搜索结果进行爬取、保存,是一个小爬虫,这也是Python好玩的地方,有大量免费的库可用,能帮你实现各种需求。工作量大,学会用Python!原创 2024-05-27 14:19:25 · 713 阅读 · 0 评论 -
Python绘图--turtle,绘出最靓丽的景色
大家平时用程序画图的时候是不是都觉得比较棘手了,今天给大家介绍个神奇的画图模块-----turtle。它可以通过一些指令让画笔任意移动,可以说是很智能了。原创 2024-05-27 14:08:44 · 2050 阅读 · 3 评论 -
简谈Python两大爬虫库——urllib库和requests库区别
在使用Python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装。那它们两者有什么区别?下面通过案例详细的讲解 ,了解他们使用的主要区别。urllib库的response对象是先创建http,request对象,装载到reques.urlopen里完成http请求。返回的是http,response对象,实际上是html属性。原创 2024-05-24 16:07:35 · 1624 阅读 · 1 评论 -
手把手教你用Python轻松玩转SQL注入
大家好,我是黄伟。相信大家经常有听到过SQL注入啥的,但是并不是特别了解;小编以前就是经常听别人说,但是自己啥都不懂,直到后来看了相关教材后才明白,原来是这么个东西,那么到底是什么东西了,又或者是不是个东西了?我们接着往下看。总的来说,SQL注入无非就是一段艰难险阻的路程,你可以发现但是别人也可以防御,虽然你发现要比较久的时间,但是人家防御却是很轻松,个人觉得得不偿失,不建议大家深入了解,只是做个简单的介绍了解下就好,至少你搜索技能因此而提高了不少吧。原创 2024-05-23 16:17:43 · 1925 阅读 · 0 评论 -
Python自带爬虫库urllib
通过上面例子我们找到了request模块的使用方法,我们使用response.read()获取的是响应体的内容,我们还可以通过response.status、response.getheaders().response.getheader("server"),获取状态码以及头部信息,如果我们要给请求的网址添加头部信息的话了,就要使用urllib.request.Request方法了。每个网站中都会有一个robots.txt文件,我们要做的就是先解析它,然后在对要下载的网页数据进行判断是否可以抓取。原创 2024-05-23 16:10:54 · 1243 阅读 · 3 评论 -
使用Python图片格式转换器并识别图片中的文字
图片格式转换器,顾名思义就是将图片格式互相转换,很多人为了方便都是直接改后缀名,殊不知那样图盘的原始样式会受到影响,也许图片会打开后从产生错误的画面。进去之后咱们选择文字识别,可以看出,语音合成和图片识别的参数不一样,所以不要搞混了,不过他们用的Python模块是一样的,这个可以放心使用。在日常生活中,我们经常需要用到图片,我们都知道,图片的种类挺多的,在这里不一一列举。首先介绍文字识别技术,就是读取图片之后然后把图片中的文字提取出来。可以看出来,这些就是识别后图片上的内容,识别效果很好,非常完美。原创 2024-05-22 16:54:44 · 1108 阅读 · 0 评论 -
手把手教你用Python做个可视化的“剪刀石头布”小游戏
本文基于PyQt5可视化界面,用PyQt5做个可视化的“剪刀石头布”小游戏,可以实现游戏轮次统计,双方得分、平局次数统计和重新开始功能,不管是1局决胜负,还是三局两胜、七局三胜,都能完美解决。这里需要注意一下,我在第二行第二个网格里又嵌入一个新的网格对象,将其分成1个1行3列的网格,其中第1个网格放红方得分,第二个网格放“VS”,第三个放蓝方得分。PyQt5有5种布局方式,分别是绝对布局、水平布局、垂直布局、网格布局和表单布局,本次只采用网格布局,其余布局方式各有特点,感兴趣的朋友可以研究一下。原创 2024-05-22 16:51:24 · 844 阅读 · 1 评论 -
手把手教你使用Python提取快递信息
一道Python基础的题目,跟快递信息有关的,题目如下:我是Python进阶者。本文实际生活中的快递信息,基于Python编程,使用Python基础知识中的列表、字典、函数等,实现了数据信息的提取过程。原创 2024-05-21 14:36:59 · 390 阅读 · 1 评论 -
Python爬虫:让蜘蛛帮我们工作
互联网是一个巨大的资源库,只要方法适当,就可以从中找到我们所需的数据。对于少量的数据,可以人工去找。但是对于大量的数据,如果在获取数据之后还要进行分析,则靠人工无法完成任务,这时就需要通过计算机程序帮助我们完成任务,这种程序就叫作。解析HTML数据是通过BeautifulSoup对象实现的,BeautifulSoup对象的常用函数如下。lxml:用C语言编写的解析器,速度很快,依赖于C库,在CPython环境下可以使用它。lxml-xml:用C语言编写的XML解析器,速度很快,依赖于C库。原创 2024-05-21 14:19:01 · 422 阅读 · 2 评论 -
手把手教你用Python网络爬虫获取壁纸图片
4、大家也可以在wallhaven网址上,寻找自己喜欢图片,按照操作步骤,自己尝试去做。自己实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。wallhaven 网站是无版权的4K壁纸 ,而且主题丰富(创意、摄影、人物、动漫、绘画、视觉),今天教大家如何去批量的去下载wallhaven4K原图。滑动下一页时,每增加一页page自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。如果图片的地址不一样,需要自己修改一下图片的保存的地址。找到相对于的图片地址。原创 2024-05-20 14:09:44 · 618 阅读 · 2 评论 -
手把手教你使用Python打造一个智能搜索淘宝商品,生成操作日志的系统
2、老样子,F12 ,因为我们要找的是店铺的商品链接,所以我们尽可能找多的商品,从店铺的布局来看,好像就宝贝推荐这个板块的商品较多,所以,我们今天就爬这个板块内的所有内容。要想一键搜索淘宝商品首先我们的找到淘宝的搜索地址,然后在进行get请求,给他传不同的值即可。通过Python程序一键搜索并直达目的地,爬取淘宝商品链接,商品名称,及商品的图片链接,并将每次的操作 记录在日志文件里。这样我们就轻松获取到了,商品的链接,商品名,商品图片链接,然后将他们分别保存在aa,bb,cc列表中。最后就是关闭程序了。原创 2024-05-18 09:57:53 · 678 阅读 · 1 评论 -
Selenium3元素定位详解与封装
与API自动化测试相比较,UI自动化测试不论是从执行效率还是编程难易度上,都比API自动化测试的成本是比较高的,如果单纯的从技术复杂度上来说,与API的测试技术栈的体系是一样的,不同的是测试的思维以及背后的思想。下面针对这部分进行详细的开展说明。find_element_by_id()的方法主要指的是我们定位元素属性主要是以ID的方式来进行定位,ID一般都是唯一的,当儿开发同学某些时候为了保持这种唯一性,使用了动态的ID方式,其实解决的思路是非常简单的,那就是xpath的解决思路了。原创 2024-05-17 15:05:27 · 1204 阅读 · 2 评论 -
CSV文件在网络爬虫中的应用
这里以豆瓣电影为案例,获取豆瓣电影中正在上映的电影,并且把这些数据写入到CSV的文件中,主要是电影名称, 电影海报的链接地址和电影评分。结合网络爬虫的技术,把数据获取到写入到CSV的文件中,其实利用爬虫的技术可以获取到很多的数据,某些时候仅仅是好玩,真正进行数据分析并且让数据可以商业化产生价值体系,是一个很高的境界。使用它的时候主要会使用到xpath的语法(当然这里不会详细的介绍xpath)。原创 2024-05-16 11:05:21 · 985 阅读 · 0 评论