
爬虫
seeyouJasmine
信息化
展开
-
【python】调用tesseract时报错
import pytesseractfrom PIL import Imageimage = Image.open('image.png')print(pytesseract.image_to_string(image))第一次通过pytesseract调用tesseract时,运行后报错:Traceback(mostrecentcalllast): File "d:\...原创 2018-09-29 11:45:45 · 1909 阅读 · 0 评论 -
【python】报错SyntaxError: invalid character in identifier的原因分析
运行程序报:SyntaxError: invalid character in identifier 错误。问题原因就是代码中包含了无效字符。请仔细认真的检查一下代码中有没有出现中文的“空格”、“等于”等符号。#两个状态的赋值符号res1 = requests.get(...)res2 = requests.get(...)#这就是出现了无效的字符 ...原创 2018-09-30 14:49:28 · 10547 阅读 · 1 评论 -
【python】爬取猫眼电影TOP100代码分享
import requestsimport reimport jsonimport timefrom requests.exceptions import RequestExceptiondef get_one_page(url): #获取每页URL返回的页面数据 try: headers = { 'User-Agent':'...原创 2018-09-30 16:02:40 · 426 阅读 · 0 评论 -
【python】xpath解析html文件报错:lxml.etree.XPathEvalError: Invalid expression
使用xpath解析一个简单的html文件,想获取href属性的值:html = etree.parse('test.html',etree.HTMLParser())print(html.xpath('//li/a@href'))运行后报错:lxml.etree.XPathEvalError: Invalid expressionTraceback (most recent ca...原创 2018-09-30 17:06:50 · 47014 阅读 · 9 评论 -
【Python】scrapy框架简介——架构、数据流、配置文件
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。架构图各...原创 2018-10-19 11:18:09 · 674 阅读 · 0 评论