python新手强烈推荐教程:爬虫入门 https://www.bilibili.com/video/av19954075
昨天在B站上看了这个爬虫入门视频,在实践中遇到了2个问题。
下面是我爬取小说时遇到问题的url
url=‘https://www.miaoshuwu.com/25/25599/459529589.html’
网址的源代码里面有小说的内容:
<div class="content">
<h1>第一百五十三章 见面</h1>
<div class="link"><span>妙书屋小说推荐阅读:<a href="https://www.miaoshuwu.com/0/682/" target="_blank">吻安,小娇妻!</a>、<a href="https://www.miaoshuwu.com/17/17413/" target="_blank">霸道老公放肆爱</a>、<a href="https://www.miaoshuwu.com/7/7168/" target="_blank">元尊</a>、<a href="https://www.miaoshuwu.com/0/5/" target="_blank">恰似寒光遇骄阳</a>、<a href="https://www.miaoshuwu.com/0/1/" target="_blank">尸命</a>、<a href="https://www.miaoshuwu.com/14/14974/" target="_blank">名门隐婚:枭爷娇宠妻</a>、<a href="htt

在学习Python爬虫过程中,遇到从网址https://www.miaoshuwu.com/25/25599/459529589.html抓取小说内容时,因GBK编码问题导致'\ufffd'字符无法编码。尝试用urlretrieve下载整个页面,发现小说内容存在,但在写入TXT时出现UnicodeEncodeError。经过研究,发现内容包含无法被GBK编码的字符。通过将保存文件编码更改为ANSI,问题得到解决。
最低0.47元/天 解锁文章
1229

被折叠的 条评论
为什么被折叠?



