134 深入解析文本分割工具:utils.py llamaindex.core.node_parser.text.utils.py

深入解析文本分割工具:utils.py

在自然语言处理(NLP)领域,文本分割是一个基础且关键的步骤。它涉及将长文本拆分成更小的单元,以便于进一步处理和分析。今天,我们将深入探讨一个名为 utils.py 的文本分割工具,它提供了多种文本分割方法,包括按字符、按句子、按特定分隔符等。这些方法在处理不同类型的文本时尤为有用,因为它们可以帮助我们更好地理解文本的结构和上下文。

前置知识

在深入了解 utils.py 之前,我们需要掌握以下几个概念:

  1. 文本分割(Text Splitting):将长文本拆分成更小的单元,如句子、段落或词语。
  2. 正则表达式(Regular Expression):一种用于匹配字符串中字符组合的模式。
  3. NLTK(Natural Language Toolkit):一个用于自然语言处理的Python库。

utils.py 的实现

utils.py 提供了多种文本分割方法,下面是其实现的详细解析:

导入必要的模块

首先,我们需要导入一些必要的模块和函数:

import logging
from typing import Callable, List

from llama_index.core.node_parser.interface import TextSplitter

定义日志记录器

接下来,我们定义一个日志记录器,用于记录程序的运行信息:

logger = logging.getLogger(__name__)

定义文本分割函数

现在,我们定义一些文本分割函数,并为其添加必要的属性和方法:

def truncate_text(text: str, text_splitter: TextSplitter) -> str:
    """Truncate text to fit within the chunk size."""
    chunks = text_splitter.split_text(text)
    return chunks[0]

def split_text_keep_separator(text: str, separator: str) -> List[str
(base) PS D:\2025\internship\pachong\py\my12306> scrapy crawl train 2025-07-15 16:31:48 [scrapy.utils.log] INFO: Scrapy 2.11.1 started (bot: my12306) 2025-07-15 16:31:48 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13 .1, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 23.10.0, Python 3.12.7 | packaged by Anaconda, Inc. | (main, Oct 4 2024, 13:17:27) [MSC v.1929 64 bit (AM D64)], pyOpenSSL 24.2.1 (OpenSSL 3.0.15 3 Sep 2024), cryptography 43.0.0, Platform Windows-11-10.0.26100-SP0 2025-07-15 16:31:48 [scrapy.addons] INFO: Enabled addons: [] 2025-07-15 16:31:48 [py.warnings] WARNING: D:\anaconda\Lib\site-packages\scrapy\u tils\request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' sett ing. This is so for backward compatibility reasons, but it will change in a future version of Scrapy. See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation. return cls(crawler) 2025-07-15 16:31:48 [scrapy.extensions.telnet] INFO: Telnet Password: b500c51afa127fa5 2025-07-15 16:31:48 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats', 'scrapy.extensions.throttle.AutoThrottle'] 2025-07-15 16:31:48 [scrapy.crawler] INFO: Overridden settings: {'AUTOTHROTTLE_ENABLED': True, 'AUTOTHROTTLE_START_DELAY': 10, 'BOT_NAME': 'my12306', 'DOWNLOADER_CLIENT_TLS_METHOD': 'TLSv1.2', 'DOWNLOAD_DELAY': 5, 'DOWNLOAD_TIMEOUT': 15, 'LOG_LEVEL': 'INFO', 'NEWSPIDER_MODULE': 'my12306.spiders', 'RETRY_HTTP_CODES': [302, 403, 404, 500, 502, 503, 504], 'RETRY_TIMES': 5, 'SPIDER_MODULES': ['my12306.spiders']} 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'my12306.middlewares.RandomUserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled item pipelines: ['my12306.pipelines.JsonWriterPipeline'] 2025-07-15 16:31:49 [scrapy.core.engine] INFO: Spider opened 2025-07-15 16:31:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2025-07-15 16:31:49 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023 2025-07-15 16:31:55 [scrapy.core.scraper] ERROR: Spider error processing <GET htt ps://kyfw.12306.cn/otn/login/init> (referer: https://kyfw.12306.cn/otn/index/init) Traceback (most recent call last): File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 16, in safe_selector return Selector(response) ^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\selector\unified.py", line 97, in __init__ super().__init__(text=text, type=st, **kwargs) File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 496, in __init__ root, type = _get_root_and_type_from_text( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 377, in _get_root_and_type_from_text root = _get_root_from_text(text, type=type, **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 329, in _get_root_from_text return create_root_node(text, _ctgroup[type]["_parser"], **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 110, in create_root_node parser = parser_cls(recover=True, encoding=encoding, huge_tree=True) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\lxml\html\__init__.py", line 1887, in __init__ super().__init__(**kwargs) File "src\\lxml\\parser.pxi", line 1806, in lxml.etree.HTMLParser.__init__ File "src\\lxml\\parser.pxi", line 858, in lxml.etree._BaseParser.__init__ LookupError: unknown encoding: 'b'utf8'' During handling of the above exception, another exception occurred: Traceback (most recent call last): File "D:\anaconda\Lib\site-packages\scrapy\utils\defer.py", line 279, in iter_errback yield next(it) ^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\utils\python.py", line 350, in __next__ return next(self.data) ^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\utils\python.py", line 350, in __next__ return next(self.data) ^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 28, in <genexpr> return (r for r in result or () if self._filter(r, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\referer.py", line 352, in <genexpr> return (self._set_referer(r, response) for r in result or ()) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 27, in <genexpr> return (r for r in result or () if self._filter(r, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\depth.py", line 31, in <genexpr> return (r for r in result or () if self._filter(r, response, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 241, in login_page sel = safe_selector(response) ^^^^^^^^^^^^^^^^^^^^^^^ File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 31, in safe_selector return ParselSelector(text=text, type='html', encoding=encoding) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 496, in __init__ root, type = _get_root_and_type_from_text( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 377, in _get_root_and_type_from_text root = _get_root_from_text(text, type=type, **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 329, in _get_root_from_text return create_root_node(text, _ctgroup[type]["_parser"], **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 110, in create_root_node parser = parser_cls(recover=True, encoding=encoding, huge_tree=True) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\lxml\html\__init__.py", line 1887, in __init__ super().__init__(**kwargs) File "src\\lxml\\parser.pxi", line 1806, in lxml.etree.HTMLParser.__init__ File "src\\lxml\\parser.pxi", line 858, in lxml.etree._BaseParser.__init__ LookupError: unknown encoding: 'b'utf8'' 2025-07-15 16:32:02 [train] INFO: 成功加载 3399 个车站信息 2025-07-15 16:32:02 [train] INFO: 部分车站示例: [('北京北', 'VAP'), ('北京东', 'BOP'), ('北京', 'BJP'), ('北京南', 'VNP'), ('北京大兴', 'IPP')] 请输入出发站: 北京 请输入到达站: 北京北 请输入日期(格式: yyyymmdd): 20250720 2025-07-15 16:33:01 [scrapy.extensions.logstats] INFO: Crawled 3 pages (at 3 pages/min), scraped 0 items (at 0 items/min) 2025-07-15 16:33:38 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://www.12306.cn/mormhweb/logFiles/error.html> (failed 6 times): [<twist ed.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>] 2025-07-15 16:33:38 [scrapy.core.scraper] ERROR: Error downloading <GET https://www.12306.cn/mormhweb/logFiles/error.html> Traceback (most recent call last): File "D:\anaconda\Lib\site-packages\scrapy\core\downloader\middleware.py", line 54, in process_request return (yield download_func(request=request, spider=spider)) twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure tw isted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>] 2025-07-15 16:33:38 [scrapy.core.engine] INFO: Closing spider (finished) 2025-07-15 16:33:38 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'downloader/exception_count': 6, 'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 6, 'downloader/request_bytes': 5916, 'downloader/request_count': 10, 'downloader/request_method_count/GET': 10, 'downloader/response_bytes': 86615, 'downloader/response_count': 4, 'downloader/response_status_count/200': 3, 'downloader/response_status_count/302': 1, 'elapsed_time_seconds': 109.671222, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2025, 7, 15, 8, 33, 38, 966742, tzinfo=datetime.timezone.utc), 'httpcompression/response_bytes': 230430, 'httpcompression/response_count': 3, 'log_count/ERROR': 3, 'log_count/INFO': 13, 'log_count/WARNING': 1, 'request_depth_max': 2, 'response_received_count': 3, 'retry/count': 5, 'retry/max_reached': 1, 'retry/reason_count/twisted.web._newclient.ResponseNeverReceived': 5, 'scheduler/dequeued': 10, 'scheduler/dequeued/memory': 10, 'scheduler/enqueued': 10, 'scheduler/enqueued/memory': 10, 'spider_exceptions/LookupError': 1, 'start_time': datetime.datetime(2025, 7, 15, 8, 31, 49, 295520, tzinfo=datetime.timezone.utc)} 2025-07-15 16:33:38 [scrapy.core.engine] INFO: Spider closed (finished) (base) PS D:\2025\internship\pachong\py\my12306>
最新发布
07-16
<think>我们面对的问题:Scrapy爬虫在解析12306页面时遇到错误 `LookupError: unknown encoding: 'b'utf8'` 这个错误通常发生在尝试使用一个不存在的编码名称时。错误信息中的编码名称为 `'b'utf8''`,这看起来像是编码名称被错误地加上了额外的引号或前缀,导致系统无法识别。 分析原因: 1. 可能是在某个地方将编码名称以字符串形式传递时,错误地包含了额外的字符(比如多余的引号或前缀'b')。 2. 在Scrapy中,编码问题通常出现在下载器中间件、响应处理或文本解析阶段。 观察错误信息:`unknown encoding: 'b'utf8'`,注意这里的编码名称是`'b'utf8'`(包括单引号内的内容),而不是`utf8`。因此,系统尝试使用`b'utf8'`作为编码名称,但这是一个无效的编码。 可能的原因: - 在代码中手动设置了编码,但设置的值不正确,例如:`response.encoding = 'b'utf8''`(错误地设置了一个包含额外字符的字符串)。 - 在解析响应时,从某个地方(如HTTP头或meta)获取到的编码值被错误地处理,导致包含了额外的字符。 解决方案: 1. 检查Spider代码中是否有设置`response.encoding`的地方,确保设置的值是有效的编码名称(如'utf-8')。 2. 如果没有显式设置,那么可能是Scrapy的响应解析自动检测编码时出现了问题。我们可以通过覆盖响应处理逻辑来解决。 推荐做法: 使用Scrapy的下载器中间件,在响应到达Spider之前,对响应的编码进行修正。 步骤: a. 创建一个下载器中间件,检查并修正响应的编码。 b. 在中间件中,如果发现响应的编码是无效的(例如包含多余的字符),则将其设置为正确的编码(如'utf-8')或者根据内容自动检测。 具体实现: 首先,我们需要在项目的middlewares.py文件中创建一个中间件类: ```python # 在middlewares.py中添加以下类 from scrapy.http import HtmlResponse from scrapy.utils.response import get_encoding class FixEncodingMiddleware: @classmethod def from_crawler(cls, crawler): return cls() def process_response(self, request, response, spider): # 如果响应是文本类型(如html),并且当前编码无效,则尝试修复 if isinstance(response, HtmlResponse): # 检查当前响应的编码是否有效 try: # 尝试获取当前编码,如果已经设置则检查是否有效 if response.encoding: # 尝试使用该编码名称进行解码,如果失败则说明无效 'test'.encode(response.encoding) except LookupError: # 出现LookupError说明编码未知,我们需要修正 # 方法1:尝试从响应体中自动检测编码 # 方法2:直接指定为utf-8(如果确定目标网站是utf-8) # 这里我们使用Scrapy内置的get_encoding函数来自动检测 new_encoding = get_encoding(response.body) # 创建一个新的响应对象,使用新的编码 return response.replace(encoding=new_encoding) return response ``` 然后,在settings.py中启用这个中间件: ```python DOWNLOADER_MIDDLEWARES = { 'your_project_name.middlewares.FixEncodingMiddleware': 100, # 选择一个合适的优先级,比如100 } ``` 注意:中间件的优先级要适当,确保它在其他可能处理编码的中间件之前或之后正确运行。 另一种更直接的方案:如果确定12306网站使用UTF-8编码,我们可以在中间件中强制设置编码: ```python class FixEncodingMiddleware: def process_response(self, request, response, spider): if isinstance(response, HtmlResponse): # 检查当前编码是否有效,如果无效则强制设置为utf-8 try: if response.encoding: 'test'.encode(response.encoding) except LookupError: # 强制设置为utf-8 return response.replace(encoding='utf-8') return response ``` 但是,强制设置为utf-8可能会在其他非utf-8编码的网站上出现问题,因此更通用的做法是自动检测。 然而,错误信息中出现了`'b'utf8'`这样的字符串,这很可能是由于在设置编码时错误地将一个bytes对象当成了字符串。例如,可能做了类似`response.encoding = b'utf-8'`的操作(注意:b'utf-8'是bytes,而编码名称应该是字符串)。因此,我们还需要检查在Spider或中间件中是否有这样的错误赋值。 因此,在Spider代码中检查是否有设置`response.encoding`的地方,并确保赋值为字符串(如'utf-8'),而不是bytes。 如果以上方法还不能解决问题,我们可以尝试在Spider的解析函数中,手动处理编码问题: 在parse方法中,我们可以忽略响应的编码,直接使用response.body重新解码: ```python def parse(self, response): # 直接使用response.body,并手动指定编码为utf-8,或者自动检测 # 这里使用chardet自动检测(需要安装chardet库) import chardet body = response.body encoding = chardet.detect(body)['encoding'] or 'utf-8' text = body.decode(encoding, errors='replace') # 然后使用text进行解析 # 但这样会失去使用Selector的能力,因此我们可以重新构造一个响应 from scrapy.http import HtmlResponse fixed_response = HtmlResponse(url=response.url, body=body, encoding=encoding) # 然后使用fixed_response进行选择器操作 title = fixed_response.css('title::text').get() # ... 其他解析 ``` 但是,这种方法比较重,而且需要重新构造响应。因此,优先推荐使用中间件的方法。 总结步骤: 1. 检查Spider代码中是否有设置`response.encoding`的地方,确保没有错误地设置为bytes。 2. 创建一个下载器中间件来修正无效的编码。 3. 在中间件中,当遇到无效编码时,使用自动检测的编码或强制设置为utf-8(如果确定目标网站编码)。 根据12306网站,我们可以确定其页面编码一般为UTF-8,因此强制设置为utf-8也是可行的。 最后,注意在Scrapy中,默认的编码自动检测机制(通过`scrapy.utils.response.get_encoding`)会考虑HTTP头、HTML meta标签等,所以通常情况下不需要手动设置。但出现这个错误说明在某个环节编码名称被污染了,因此我们的中间件可以作为一个安全措施。 另外,参考引用[1]中提到了使用ftfy修复编码的管道,但这里的问题发生在解析阶段,所以我们需要在响应到达解析函数之前修复编码(即使用中间件),而不是在管道中修复。管道中修复的是已经提取的文本,而这里的问题是无法将响应体解码为文本。 因此,我们采用中间件的方式。 实现示例: 在middlewares.py中: ```python class FixEncodingMiddleware: def process_response(self, request, response, spider): # 只处理HtmlResponse if not isinstance(response, HtmlResponse): return response # 如果当前响应的编码无效,则修复 try: # 如果当前编码已经设置,尝试用它来编码一个字符串(只是检查编码是否存在) if response.encoding: 'test'.encode(response.encoding) except LookupError: # 编码未知,进行修复 # 我们假设12306页面使用utf-8,所以直接设置为utf-8 # 但也可以使用自动检测:使用Scrapy的get_encoding函数 # new_enc = get_encoding(response.body) new_enc = 'utf-8' # 根据12306网站,我们直接设置为utf-8 # 替换响应对象,使用新的编码 return response.replace(encoding=new_enc) return response ``` 在settings.py中启用: ```python DOWNLOADER_MIDDLEWARES = { 'your_project_name.middlewares.FixEncodingMiddleware': 100, } ``` 请将`your_project_name`替换为你的项目名称。 这样,当遇到无效编码时,中间件会将响应的编码设置为utf-8,从而避免LookupError。 注意:这个中间件会处理所有HtmlResponse,所以如果其他网站也出现类似问题,也会被修复。但强制设置为utf-8可能不适用于所有网站,因此如果你爬取多个网站,建议使用自动检测(使用`get_encoding`函数)来替代。 修改后的中间件(使用自动检测): ```python from scrapy.utils.response import get_encoding class FixEncodingMiddleware: def process_response(self, request, response, spider): if not isinstance(response, HtmlResponse): return response try: if response.encoding: 'test'.encode(response.encoding) except LookupError: # 自动检测编码 new_enc = get_encoding(response.body) return response.replace(encoding=new_enc) return response ``` 这样更通用。 希望这个解决方案能够解决你的问题。</think>### Scrapy爬虫解决编码错误:`LookupError: unknown encoding: 'b'utf8'` #### 问题分析 当Scrapy爬虫遇到`LookupError: unknown encoding: 'b'utf8'`错误时,通常是由于以下原因: 1. **响应头编码声明异常**:服务器返回的HTTP头中`Content-Type`包含无效的编码格式(如`b'utf8'`而非`utf-8`)[^1] 2. **编码探测机制失效**:Scrapy的自动编码检测被异常响应头干扰 3. **二进制前缀问题**:`b'utf8'`表示Python将编码名误识别为字节串而非字符串 #### 解决方案 ##### 方法1:使用下载中间件强制覆盖编码(推荐) 在`middlewares.py`中添加中间件,忽略错误响应头: ```python class ForceUtf8EncodingMiddleware: def process_response(self, request, response, spider): # 检测到异常编码时强制覆盖为utf-8 if "b'utf8" in str(response.headers.get('Content-Type', b'')): return response.replace( encoding='utf-8', # 显式指定正确编码 headers=response.headers # 保留原始头信息 ) return response ``` 在`settings.py`启用中间件: ```python DOWNLOADER_MIDDLEWARES = { 'your_project.middlewares.ForceUtf8EncodingMiddleware': 100, } ``` ##### 方法2:在Spider中手动修复响应 在解析函数中直接处理编码问题: ```python def parse(self, response): # 检测异常编码头 if "b'utf8" in str(response.headers.get('Content-Type', b'')): # 重建响应对象并指定编码 fixed_response = response.replace( encoding='utf-8', body=response.body ) else: fixed_response = response # 使用修复后的响应继续解析 title = fixed_response.css('title::text').get() ... ``` ##### 方法3:全局编码后备方案 在`settings.py`设置默认编码: ```python FEED_EXPORT_ENCODING = 'utf-8' # 强制所有输出为UTF-8 DEFAULT_RESPONSE_ENCODING = 'utf-8' # 设置默认响应编码 ``` #### 预防性措施 1. **添加编码检测**: ```python def detect_encoding_issue(self, text): """检测常见乱码模式""" import re pattern = re.compile(r'[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

需要重新演唱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值