同时存在unicode-escape和utf-8的解码方法

最新推荐文章于 2024-06-08 11:58:58 发布

文艺圈不知名刘先生

最新推荐文章于 2024-06-08 11:58:58 发布

阅读量3.6k

点赞数 1

分类专栏：问题记录文章标签： python 编码学 unicode

本文链接：https://blog.youkuaiyun.com/huiruwei1020/article/details/106649606

版权

博客讲述了在爬取代码时遇到的编码问题，源码中混合了unicode-escape和utf-8编码。文章通过示例展示了如何通过正则表达式定位并解码unicode-escape编码的部分，从而避免解码中文时出现乱码，成功解决了文件乱码的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在爬取lc提交代码的时候遇到的一个问题，在爬取到的源码中，符号是采用unicode-escape编码的，而其中的中文是采用utf-8编码的，正常解码无论怎样都会出现乱码，本文记录下解决办法。

文章目录

示例
解决办法

示例

下面是lc第一题爬取的源码，编码为"utf-8"，中文可以正确显示，但是换行符等符号并不能正确显示，因此需要转换。

code = "class Solution:\u000A    def twoSum(self, nums: List[int], target: int) \u002D\u003E List[int]:\u000A        dic \u003D defaultdict(int) # 哈希字典\u000A        for i,num in enumerate(nums):\u000A            if num in dic: return [dic[num],i]\u000A            dic[target\u002Dnum]\u003Di"

正常我们的解码是这样的：

code = code.encode("utf-8").decode("unicode-escape")

这样上面的换行符等就可以正确显示为\n等正确的编码，但是原本上面的中文就是utf-8了，解码为unicode-escape

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

文艺圈不知名刘先生

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

一文带你弄懂C++中的ANSI、Unicode和UTF8三种字符编码及相互转换

dvlinker的技术专栏

10-31

2万+

本文详细介绍ANSI、Unicode和UTF8三种字符编码以及它们之间的相互转换，并给出了实际问题实例。

Python中使用Unicode对中文进行编码和解码

北辰

06-02

1万+

编码：解码：

参与评论您还未登录，请先登录后发表或查看评论

记一次 unicode-escape 和 utf-8 编码的互解

沐一 · 林的博客

04-01

3203

记一次 unicode-escape 和 utf-8 编码的转换是这样的，我在做 CTF 题的 RC4 编码时遇到一个 base64 加密后输出的密文： mg6CITV6GEaFDTYnObFmENOAVjKcQmGncF90WhqvCFyhhsyqq1s= . . 直接 base64 解密后发现输出的是： b"\x9a\x0e\x82!5z\x18F\x85\r6’9\xb1f\x10\xd3\x80V2\x9cBa\xa7p_tZ\x1a\xaf\x08\\xa1\x86\xcc\xaa\xab

Python使用content.encode(“utf-8“).decode(“unicode-escape“)导致中文乱码的解决方法

最新发布

dvlinker的技术专栏

06-08

1万+

本文详细介绍ANSI、Unicode和UTF8三种字符编码以及它们之间的相互转换，并给出了实际问题实例。

【前端JavaScript篇之Unicode、UTF-8、UTF-16、UTF-32的区别？escape、encodeURI、encodeURIComponent 的区别

星辰迷上大海的博客

02-05

1205

Unicode 是字符集，定义了每个字符的唯一编码。UTF-8、UTF-16、UTF-32 是 Unicode 的实现方式，用于在计算机中存储和传输 Unicode 编码的文本，其中 UTF-8 是最常用的一种实现方式。

python编码问题 decode('unicode-escape')

无形的专栏

09-03

1553

任意编码的字符串，如果内容是unicode码，如：‘\u53eb\u6211’，使用decode('unicode-escape')命令,对字符串内容按照unicode解码后得到其对应的汉字。

RangeBlog

04-26

1791

① http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 这篇文章写的还不错，转载看看：最常用的是unicode与 utf-8之间的转换 unicode对象调用encode("utf-8")之后成为str对象(采用utf-8编码) str(一般采用utf-8编码)对象调用decode("utf-8")之后成为unicod

python unicode-escape

friendan的专栏

04-18

6543

unicode-escape编码集，他是将unicode内存编码值直接存储 #python3 >>> s ='中国' >>> b = s.encode('unicode-escape') >>> b b'\\u4e2d\\u56fd' >>> c = b.decode('unicode-escape') &gt...

完善的(escape/unescape/unicode_utf8)PHP互转函数

goingdownba的专栏

09-29

839

参考文章http://tech.163.com/05/0516/10/1JS9KEGA00091589.htmlUTF编码UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：UCS-2编码(16进制)UTF-8 字节流(二进制)0000 - 007F0xxxxxxx0080 - 07FF110xxxxx 10xxxxxx

Python3 使用 unicode-escape 处理 unicode 16进制字符串编解码问题

UncleTony 的博客

05-22

1万+

经常遇到 ' \uxxxx ' 的16进制字符串编解码问题，使用 unicode-escape 解决之。

python遇到‘\u’开头的unicode编码

weixin_30835649的博客

08-24

4049

web信息中常会遇到“\u4f60\u597d”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的，“\u”后的16进制字符串是相应汉字的utf-16编码。python里decode()和encode()为我们提供了解码和编码的方法。其中decode('unicode_escape')能将此种字符串解码为unicode字符串。比如： str1 = '\u4f60\u5...

Python3中的unicode_escape

yocencyy的专栏

02-19

1347

来源：https://www.cnblogs.com/my_captain/p/9092644.html 个人学习保存，侵删 --------------------------------------------------------------------------- 一. 响应的两种方式在使用python3的requests模块时，发现获取响应有两种方式其一，为文本响应...

python3中的unicode_escape

anywen5590的博客

05-26

2621

一. 响应的两种方式在使用python3的requests模块时，发现获取响应有两种方式其一，为文本响应内容, r.text 其二，为二进制响应内容，r.content 在《Python学习手册》中，是这样解释的 '''Python 3.X带有3种字符串对象类型——一种用于文本数据，两种用于二进制数据： str表示Unicode文本(8位的...

python unicode 编码转成 UTF-8

qq_38192709的博客

06-21

9888

问题描述： python unicode 编码转成 UTF-8 python 取值如果 \u5e94\u653641\u4e07\u5374\u4ec5\u6536\u4e94\u5343\uff0c\u5b98\u65b9\uff1a\u88ab\u8b66\u544a\u5904\u5206 把 unicode 转成 utf-8 保存到 txt 或者 xmlx 参考： https://blog.youkuaiyun.com/fm345689/article/details/89669076 newContent

Python 技术篇 - 使用unicode_escape对js的escape()方法编码后的字符串进行解码实例演示

小蓝枣的博客

08-09

713

这是 javascript 的 escape() 编码后的效果。这是 python 的解码过程： xpath = xpath.replace('%u', '\\u') xpath = xpath.encode('utf-8').decode('unicode_escape') 这是 python 仿 js escape() 方法的编码过程。 Python 技术篇 - 使用unicode_escape对js的escape()方法编码后的字符串进行解码实例演示

python 将字典中的Unicode字符转化为utf-8格式

07-17

在Python中，字典中的字符串默认是以Unicode格式表示的，如果你想将其中的Unicode字符转换为UTF-8格式，你可以遍历字典的每个值，并对其进行编码和解码操作。以下是一个示例代码： ```python def convert_dict_to_...