
Python
文章平均质量分 80
C01acat
这个作者很懒,什么都没留下…
展开
-
基于大连理工大学的情感词汇表的中文情感分析
前言为什么要写这篇文章?前段时间帮人写了一个这样的小项目,在网上查找资料的过程中,有不少关于该项目的资料,由于各个博主写的代码不尽相同,且没有一个详尽的分析方法,所以我在完成该项目后,想到可以把该项目的分析方法写出来,供大家学习。准备工作及环境工具:pycharm、python 3.8.6其他:大连理工大学情感词汇本体(excel)、程度副词(excel)、否定词列表(txt)大连理工大学情感词汇下载地址:https://github.com/ZaneMuir/DLUT-Emotionontol原创 2021-05-08 23:09:31 · 8434 阅读 · 35 评论 -
python爬取广西人才网招聘信息并可视化
对要爬取的数据进行分析要爬取的网页:https://s.gxrc.com/sJob?district=1&pageSize=20&orderType=0&listValue=1.html我们需要爬取的信息有9个维度,分别是:职位,名称,公司名称,薪资,工作地,更新时间,学历,经验,岗位要求。职位信息的爬取格式如上图所示,但是如果我们规定了某一个关键字(key)后,信息格式会变成会出现<span class='highlight>的标志,这样对数据的爬取有不小的限原创 2021-04-12 22:27:51 · 2979 阅读 · 1 评论 -
python合并单元格出现:‘MergedCell‘ object attribute ‘value‘ is read-only 如何处理
出现这种错误一般都是在用方法:ws.merge_cells() 合并单元格后,直接给单元格赋值导致的。经过我的不断尝试,发现在合并单元格的初始位置赋值就不会出现问题。比如以下代码:from openpyxl import Workbookwb = Workbook()ws = wb.activews.merge_cells('A2:A99')ws['A2'] = 'TEST' # 给合并开头的的格子赋值,成功wb.save("D:test.xlsx")可正常运行,但如果将ws['原创 2020-10-29 13:37:55 · 26394 阅读 · 6 评论 -
python中如何不用request来判断一张图片是否可以下载(快速判断一张图片能否下载)
问题提出在某些场合,可能需要判断一个网页的图片最大能下载到哪一个位置,在采用多线程的方式去下载。例如一个网页有一堆图片,图片的链接有一定的规律性,例如http://kd.nsfc.gov.cn/report/19/19331042_1.pnghttp://kd.nsfc.gov.cn/report/19/19331042_2.png一般方法是寻找到图片能下载的最大位置,借用request方法来判断图片是否能下载:image = "http://kd.nsfc.gov.cn/report/19原创 2020-10-09 20:02:27 · 828 阅读 · 0 评论 -
cmd运行spider all卡在“result_worker starting...”的一个解决方案
在确定各种包安装无误的情况下,cmd运行spider all 或者 spider 卡在result_worker starting...如上图所示,卡在这里不动。找了各种方法,都无果,最后我尝试性的又运行了一个spider all,奇迹般的出现了如我的红色箭头所示,出现这个意味着成功了,于是我赶紧关掉了另一个cmd,发现该cmd继续运行下去,最后出现了 webui running on 0.0.0.0:5000打开 localhost:5000 也成功了。我的环境是python3.8。经过我的原创 2020-09-05 13:54:06 · 1687 阅读 · 0 评论 -
pip无法正常安装tesserocr pillow的一个可行的解决方案
网上很多方法都说是没安装VS库导致的错误,但是实际情况并非是vs的问题,我找了大部分网站,终于找到了一个可行的解决方案。既然安装不上tesserocr,那咱们就换一个安装,安装这个库即可:pyteseract第一步安装tesseract-ocr-w64-setup-v5.0.0.20190623.exe 。下载地址安装的时候要注意选择Additional language data (download),这里没有科学上网的同学会出错,那建议去直接下载语言包本地安装。第二步确定第一步成功.原创 2020-08-30 15:07:03 · 668 阅读 · 0 评论 -
python爬虫:免费代理ip池的构建与存储
一:为什么需要代理ip在我们爬取数据的过程中,通常是本机ip以get或是post请求访问某一个网站,如果你访问过多,或者访问过快,那么服务器就会检测到,并且分析出该请求大概率是一个爬虫。所以即便你在请求头(headers)内隐藏了自己“爬虫”的身份,还是会被分析到,那么你的ip就可能会被封,也就无法在继续执行爬取数据的操作了。所以在爬数据的过程中,我们不仅要隐藏自己的身份,还需要尽可能的隐藏自己的真实ip,以代理ip的身份去爬数据。二:代理ip池的构建代理ip池有免费的和付费的,免费的百度搜原创 2020-08-26 17:46:11 · 1240 阅读 · 0 评论 -
关于在windows下使用mitmdump命令不显示数据的解决方法
最近在学习崔大佬的《python3网络爬虫开发实战》。在11.2节,按照书上说的, 运行mitmdump的时候,会显示一长串的数据,并且在我们使用脚本截获命令的时候,对应着也会更改。书上的例子是:def request(flow): flow.request.headers['User-Agent'] = 'MitiProxy' print(flow.request.headers)可奇怪的是,我无论怎么运行,就是无法在mitmdump -s scripyt看到我想要的数据,对应着原创 2020-08-23 18:43:10 · 2839 阅读 · 3 评论 -
如何用python爬取网站的高清壁纸(含多线程)
爬取简单的数据的总体思路是这样的:获取网页信息---解析页面信息---模拟翻页---匹配所需数据---下载到本地文件爬取数据第一步:分析网页信息,确定好思路我选择的目标网址是彼岸桌面壁纸:http://www.netbian.com/工具:firefox浏览器, pycharm人工下载图片的步骤:点开网页,找到大图,下载大图到硬盘.如果想下载一百张或者一千张,那这样的操作会非常耗经历和时间,而爬虫的作用就是模拟人工操作,解放双手,自动下载。爬虫本质上就是模拟用户操作,我们要做的就是将人工的操作原创 2020-08-18 13:50:41 · 2366 阅读 · 4 评论 -
关于pycharm新建一个项目后之前安装的库都使用不了了的一个解决方法
问题的发现确认安装matplotlib无误后,在cmd命令内输入不报错并且也能够运行正确的结果。我所用的代码:import matplotlib.pyplot as pltnum = [1,2,3,4,5,6,7]plt.plot(num)plt.show()但是在pycharm内运行的时候却出现了:我的可行解决方案File -> Settings选中python的...原创 2020-02-20 02:26:03 · 9473 阅读 · 0 评论