一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文,之后就报错了
代码大概就是这么写
Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述:')
先encode('utf-8') 转编码为utf-8 这么做的原因是我后面要去掉里面的字符 “”职位面熟:”
后面写入df.to_excel(Text) 就直接报错了
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte
可后面就直接报错
后来尝试百度下,按照别人教的再转为unicode
unicode(Text,errors='ignore'))
写入虽然成功了,但是乱码了
解决方法:
直接不转utf-8 在unicode的接触上去掉字符就解决了
Text = soup.select('.job_bt')[0].text.replace('\n','').lstrip(u'职位描述:')
本文介绍了一种在处理网页中Unicode编码时遇到的问题及其解决方案。作者最初尝试将Unicode转换为UTF-8并去除特定中文字符,但遇到了错误。通过直接在原始Unicode文本上操作而不是转换编码,最终解决了乱码问题。
647

被折叠的 条评论
为什么被折叠?



