爬取小说时遇到的问题='gbk' codec can't encode character '\ufffd'、内容为空

最新推荐文章于 2024-02-28 11:56:47 发布

原创

最新推荐文章于 2024-02-28 11:56:47 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

在学习Python爬虫过程中，遇到从网址https://www.miaoshuwu.com/25/25599/459529589.html抓取小说内容时，因GBK编码问题导致'\ufffd'字符无法编码。尝试用urlretrieve下载整个页面，发现小说内容存在，但在写入TXT时出现UnicodeEncodeError。经过研究，发现内容包含无法被GBK编码的字符。通过将保存文件编码更改为ANSI，问题得到解决。

python新手强烈推荐教程：爬虫入门 https://www.bilibili.com/video/av19954075
昨天在B站上看了这个爬虫入门视频，在实践中遇到了2个问题。
下面是我爬取小说时遇到问题的url
url=‘https://www.miaoshuwu.com/25/25599/459529589.html’

网址的源代码里面有小说的内容：

<div class="content">
		<h1>第一百五十三章 见面</h1>
		<div class="link"><span>妙书屋小说推荐阅读：<a href="https://www.miaoshuwu.com/0/682/" target="_blank">吻安，小娇妻！</a>、<a href="https://www.miaoshuwu.com/17/17413/" target="_blank">霸道老公放肆爱</a>、<a href="https://www.miaoshuwu.com/7/7168/" target="_blank">元尊</a>、<a href="https://www.miaoshuwu.com/0/5/" target="_blank">恰似寒光遇骄阳</a>、<a href="https://www.miaoshuwu.com/0/1/" target="_blank">尸命</a>、<a href="https://www.miaoshuwu.com/14/14974/" target="_blank">名门隐婚：枭爷娇宠妻</a>、<a href="htt