
python
文章平均质量分 89
进击的小可爱
这个作者很懒,什么都没留下…
展开
-
使用Python+selenium爬取百度文库文档并存入word文档
最近因为穷,买不起百度文库的会员了,贫穷使我动手写代码。本文的例子是爬取“老舍研究”习题地址:https://wenku.baidu.com/view/88702202f56527d3240c844769eae009591ba245.html#该文仅供学习使用哦爬取的逻辑是,阅读全文–》跳转页面–》读取文本–》存入word文档1.阅读全文代码是:driver.find_element_by_xpath("//div[@class='fold-page-text']").click()这里原创 2020-09-30 13:39:36 · 1724 阅读 · 0 评论 -
Python提取word文档中的图片,识别图片文字之后再转存为word文档
#!/usr/bin/env python# coding: utf-8import zipfile #压缩包import os #文件库import shutilimport pytesseractimport PILfrom PIL import Imagefrom docx import Document ##需要安装第三方库,python-docxfrom docx.shared import Pt #用于设置字体样式from docx.oxml.ns import qn # 中原创 2020-09-28 09:59:08 · 1866 阅读 · 2 评论 -
解决安装pyqt5之后出现This application failed to start because no Qt platform plugin could be initialized.
解决方法:1.确保系统中没有pyqt5,如果有,则卸载之前安装的Qt5,卸载代码如下pip uninstall pyqt5pip uninstall pyqt5-tools2.在环境变量Path中寻找是否有相关配置Pyqt5的值,有就删除3.查看环境变量中是否有QT_QPA_PLATFORM_PLUGIN_PATH变量的配置,有就将新安装的Pyqt5的plugins地址覆盖之前的地址,没有就新建环境变量QT_QPA_PLATFORM_PLUGIN_PATH,然后将安装后的Pyqt5的plugi.原创 2020-08-20 10:07:49 · 6347 阅读 · 1 评论 -
Python 使用总结
爬虫类关于selenium与webdriver引用的库import seleniumfrom selenium import webdriver引用webdriver是模拟一个浏览器,不管是IE,Chrome,Fixfox都需要本机安装的浏览器对应的驱动器,谷歌浏览器要求下载的驱动器与本机安装的谷歌浏览器版本一致IE驱动器最好下载32位的IE浏览器驱动器下载地址谷歌浏览器驱动器下载地址1谷歌浏览器驱动器下载地址2可以将.exe文件放在python的安装目录下注:装python环境时原创 2020-08-12 16:37:36 · 1023 阅读 · 0 评论 -
Python3.7 pytesseract+PIL+Tesseract-OCR识别中文
环境:python版本为3.7.0首先安装pytesseractcmdpip install pytesseract然后安装Tesseract-OCR,安装包https://digi.bib.uni-mannheim.de/tesseract/带DEV的是开发版本,不带dev的是稳定版本安装的时候需要选择中文简体数据包安装后在文件中有此文件chi_sim.traine...原创 2019-11-18 15:47:33 · 1677 阅读 · 3 评论 -
关于pandas.read_sql方法的修改与删除操作的错误疑问???
如果用read_sql方法,只加入一个engine,就会报错"ResourceClosedError: This result object does not return rows. It has been closed automatically."并且对应的数据库不会删除数据但是如果加上chunksize=100参数,不仅不会报错,还会删除数据库中的数据,不知道是什么原因,如果有朋友...原创 2019-04-08 17:09:48 · 2205 阅读 · 2 评论