- 博客(4)
- 收藏
- 关注
原创 关于scrapy的FilesPipeline文件下载疑惑解答
关于scrapy的FilesPipeline文件下载疑惑解答1.日志里面只有file_url字段,并没有files文件,也就是么有下载。需要在配置文件里面添加该字段。2.如何更改下载文件的文件名。看日志文件都是以ASCII 码命名的。①当需要自定义改名,首先就要获取文件名字,先添加给字段。class SoIfileItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Fiel
2020-09-17 17:30:25
957
原创 python图片识别
python图片识别一,OCR识别OCR是光学字符识别的缩写,可以用来识别验证码,提取图像文本信息。1.下载tesseract-ocr,这个相当于一个软件。(下载地址:https://digi.bib.uni-mannheim.de/tesseract/),一直安装即可,安装完成后要配置环境变量,不然在python里面调用的时候会报错。①将安装目录加入path环境中② 添加变量名TESSDATA_PREFIX 并赋值为C:\KFSofts\Tesseract-OCR\tessdata。2.pytho
2020-09-17 14:56:31
726
原创 scrapy在配置文件里面添加默认导出文件位置
第一次写博客,希望大家多给些意见啊最近在学习scrapy,这里面涉及到数据导出的时候,可以直接在命令行里面敲击scrapy crawl news -o data/%(name)s/%(time)s.csv #news是爬虫名字,data是我自己在spider里面创建的文件夹,%(name)s是在下面创建爬虫名字的文件夹,在里面已%(time)s.csv来保存数据。这里文件夹都是不需要自己建立的,爬虫会自己建立。但是这样每次运行会很麻烦,所以可以在配置文件里面配置导出数据的地址。配置文件在python
2020-08-07 16:07:52
642
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人