
Python
文章平均质量分 81
Python学习代码笔记
NUC_Dodamce
醉生梦死谁成器,拓马长枪定乾坤。
展开
-
Python-中北大学人工智能OpenCV人脸识别(根据图片训练数据,根据训练好的数据识别人脸)
需要注意的是:这个实验使用的haarcascade_frontalface_alt2.xml文件,是OpenCV自带的人脸图像提取算法,需根据实际路径选取。照片命名格式:学号-1/学号-2+.jpg。代码中的置信评分越小,越可靠。原创 2022-11-21 15:03:45 · 3757 阅读 · 4 评论 -
Python-爬虫(scrapy shell命令、动态页面获取)
scrapy shell + url 启动scrapy shell,通常的目的是调试表达式。使用response.xpath(‘**’)开始xpath调试,response.re开始re正则表达式调试,后面根对应的表达式即可。exit()退出scrapy shell可以发现,这个网页是客户端渲染方式,数据保存在json中,需要重新请求上图的URL,下一页的数据通过更改URL参数中的start来返回,每一页的页面大小是20eg:这种情况下获取下一页:通过在爬取函数中yield方式返回scrapy.Req原创 2022-10-02 14:58:13 · 398 阅读 · 0 评论 -
Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)
Scrapy是爬虫框架。它分为一下部分,其中引擎是核心通过pip install scrapy在终端上下载这个爬虫框架。注意:框架不能像包一样直接导入,需要生成框架结构,在这个结构上操作启动框架:首先在终端上进入到要生成项目的路径.然后输入启动框架此时项目路径下会有一个框架生成的文件夹之后生成爬虫文件命令如图:先进入爬虫spiders文件夹中,输入命令生成爬虫文件。这里以豆瓣读书为例最后使用scrapy crawl +爬虫名(book)来启动爬虫,因为在终端不方便数据查询,所以一般会使用其他方式启动。原创 2022-09-29 12:34:02 · 5808 阅读 · 0 评论 -
Python_爬虫(字体反爬、爬取C++实习岗位薪资)
字体加密是指:在检查网页时,网页上显示的文字和检查的源代码中显示的不是原文字而是乱码,而乱码是因为对方自己设置了编码格式,从而限制爬取的技术。但是一般加密的文字不会很多,可能只有数字0-9加密等。eg:首先把加密文字编码成utf-8观察加密方式根据图片可知,后面的代表/天前面的代表了加密内容。解密方式:通过查找@font来找网页解密方式可以发现这个网站是通过文件的形式进行加密,将url路径拼接后可以下载到一个文件将这个文件放到项目路径下。这个就是它编码的文件。原创 2022-09-27 15:10:09 · 305 阅读 · 0 评论