
爬虫
seeyouJasmine
信息化
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【python】调用tesseract时报错
import pytesseract from PIL import Image image = Image.open('image.png') print(pytesseract.image_to_string(image)) 第一次通过pytesseract调用tesseract时,运行后报错: Traceback(mostrecentcalllast): File "d:\...原创 2018-09-29 11:45:45 · 1930 阅读 · 0 评论 -
【python】报错SyntaxError: invalid character in identifier的原因分析
运行程序报:SyntaxError: invalid character in identifier 错误。 问题原因就是代码中包含了无效字符。 请仔细认真的检查一下代码中有没有出现中文的“空格”、“等于”等符号。 #两个状态的赋值符号 res1 = requests.get(...) res2 = requests.get(...) #这就是出现了无效的字符 ...原创 2018-09-30 14:49:28 · 10635 阅读 · 1 评论 -
【python】爬取猫眼电影TOP100代码分享
import requests import re import json import time from requests.exceptions import RequestException def get_one_page(url): #获取每页URL返回的页面数据 try: headers = { 'User-Agent':'...原创 2018-09-30 16:02:40 · 442 阅读 · 0 评论 -
【python】xpath解析html文件报错:lxml.etree.XPathEvalError: Invalid expression
使用xpath解析一个简单的html文件,想获取href属性的值: html = etree.parse('test.html',etree.HTMLParser()) print(html.xpath('//li/a@href')) 运行后报错:lxml.etree.XPathEvalError: Invalid expression Traceback (most recent ca...原创 2018-09-30 17:06:50 · 47152 阅读 · 9 评论 -
【Python】scrapy框架简介——架构、数据流、配置文件
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 架构图 各...原创 2018-10-19 11:18:09 · 693 阅读 · 0 评论