python 解析unicode编码的字符串

最新推荐文章于 2025-02-19 09:56:49 发布

转载最新推荐文章于 2025-02-19 09:56:49 发布 · 811 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/lemonfight/blog/666923

文章标签：

#python #json

本文介绍在Python中处理Unicode编码的方法，包括使用eval函数处理不含引号及含引号的字符串，以及如何处理JSON格式中的Unicode编码。同时指出Python JSON库在解析时的特点，并给出保留Unicode编码的具体操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

使用python抓取页面或者web端的json时候很容易抓到一些unicode编码的字符串流。在python里边对Unicode编码的处理成了一件头疼的事。

对于string里边不含“ 引号的处理比较简单，使用eval注明引入str是unicode编码：

str1 = eval("u"+"\""+str + "\"")

str1.decode('utf8')

对于包含引号的明文，需要先把引号转化为 \"，然后可以进行eval函数处理。

str=str.replace("\\\"","\\\\\"") #先转化字符串中的\"
str=str.replace("\"","\\\"")     #再转化 "

print eval("u"+"\""+str+"\"")

对于json格式unicode的有个很奇怪的处理：

python 的json 库在使用 json.loads()函数时候会默认把输入中unicode编码解析好，而不是保留原输入。

代码：

str1="{\"html\":\"\u003c\u003e\"}"
s=json.loads(str1)
print s["html"]
输出：<>

输出<>而不是 \u003c 这也引出了一个问题：python的json库解析json不完全保留原格式，使用时候要注意。

如果想要json解析保持unicode编码比较麻烦，需要将unicode码的\改为\\，转译代码如下：

str="{\"html\":\"\u003c\"}"
s=str.replace("\\u","\\\\u")
s2=json.loads(s)
print s2["html"]
输出： \u003c

转载于:https://my.oschina.net/lemonfight/blog/666923

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33800463

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python解析“Unicode”编码格式文本

qinguo123的博客

12-24

8682

最近工作需要，需要解析一个win下工具生成的log文件，但是在解析过程中怎么也无法得到预期效果。在此做相关总结分享测试环境windows10 python3.6.3 场景还原新建文本文档，内容如下 abcdefg hijklmn opqrstu vwxyz然后点击文件->另存为->编码->Unicode，如下图尝试通过python/DOS进行读写操作pythontest.py:# -*-c

使用Python进行Unicode编码解析

CPLwin的博客

09-07

2454

使用Python进行Unicode编码解析原数据类型：txt文本，文本编码是UTF8，但是内容是Unicode编码（应该是这么理解） import codecs def utf82unicode(string): """ 函数功能：将utf-8保存的Unicode解码 :param string:传入字符串，转为union """ byte_list = bytes(string, encoding='utf-8') byte_transform = co

参与评论您还未登录，请先登录后发表或查看评论

python：Unicode字符编码

有学习问题可以加我qq群：785318982，群内有大佬免费答疑

08-22

936

ord()函数：表示的是对单个 Unicode 字符的字符串，返回代表它 Unicode 码点的整数，例如 ord(‘a’) 返回整数 97， ord(‘€’) （欧元符号）返回 8364 。这是 chr() 的逆函数。

Python中的编码与解码字符集与Unicode的详解

一键难忘的博客

05-06

3376

本文深入探讨了Python中的字符编码与解码的重要性和应用。首先，我们了解了字符集与编码的基本概念，以及Unicode作为全球字符标准的重要性。然后，我们介绍了Python中处理编码与解码的基本操作，包括字符串的编码和解码、Unicode编码的获取和字符创建，以及处理编码错误的方法。接着，我们深入了解了UTF-8作为Unicode的一种实现方式，并探讨了Python中的一些高级字符处理功能，如编码器和解码器、文本处理工具以及文件编码转换。

Python Unicode 编程全解析：从原理到实践的深度指南

02-19

1108

Unicode 规范致力于涵盖人类语言的所有字符，并为每个字符分配唯一编码。字符是文本的最小组成部分，如‘A’‘È’等。Unicode 标准用码位（取值范围 0 到 0x10FFFF 的整数）表示字符，如U+265E代表 “国际象棋黑骑士”（‘♞’）。字符在显示时的图形元素称为字形，Python 编程通常无需关注字形，由字体渲染程序负责处理。本文全面介绍了 Unicode 在 Python 中的应用，从基础概念到实际编程的各个环节，包括字符串处理、数据读写、文件名操作等。

pythonunicode编码_python 解析unicode编码的字符串

05-20

在Python中，可以使用`unicode`类型来表示Unicode编码的...需要注意的是，在Python 3中，字符串默认使用Unicode编码，因此无需解析。如果你使用的是Python 2，那么需要使用`unicode`类型来表示Unicode编码的字符串。

Python3的unicode编码转换成中文的问题及解决方案

09-18

硬编码的unicode字符串通常可以直接在Python3中正确解析和显示，但网络爬虫获取或文件读取的unicode编码字符串可能需要通过特定的方法进行解码和再编码。在处理文件时，推荐使用`codecs`模块替代标准的`open`函数，...

Python原始字符串与Unicode字符串操作符用法实例分析

09-21

原始字符串在Python中是一种特殊的字符串类型，其主要特点是不解析任何转义序列。这意味着在原始字符串中，所有字符都被视为字面值，而不会进行特殊解释。 - **定义原始字符串**： - 在Python中，可以通过在字符串...

python中将\\uxxxx转换为Unicode字符串的方法

09-20

这种方法实际上是利用了json库解析字符串的能力，将\uxxxx格式的Unicode编码转为对应的字符。 3. 使用编码和解码的方式在Python 3中，可以使用encode和decode方法来处理Unicode字符串的转换问题。例如，将Unicode...

weixin_43674738的博客

10-30

118

打开编辑器就启动了一个进程，是在内存中运行的，所以在编辑器写的内容在没保存之前都是存放在内存中的，断电后数据就会丢失。因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到硬盘上。第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器。第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘将test.py的文件内容读到内存中。第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码。

Python字符和字符值(ASCII或Unicode码值)转换方法

09-22

主要介绍了Python字符和字符值(ASCII或Unicode码值)转换方法,即把字符串在ASCII值或者Unicode值之间相与转换的方法,需要的朋友可以参考下

最全 Unicode 编码表 5.0，带索引

02-13

最全 Unicode 编码表，带索引。The Unicode Standard, Version 5.0

python 字符串unicode编码_基于unicode字符串的Python编码

weixin_39849254的博客

01-28

539

因此，在python终端中，我键入以下内容：>>> s = "γειά" ## it just means 'hi' in Greek>>> s'\x9a\x9c\xa0\xe1' ## What is this? - Is it utf-encoding? Is it ascii escaped?>>> print sγειά...

Python中unicode编码和中文的互转

forward_huan的博客

07-29

6497

笔者系统所设的默认编码为utf-8 #!/usr/bin/env python3 # coding=utf-8 中文转unicode 使用字符串的str.encode()方法 s = u"你好" print(s.encode("unicode_escape")) >>> b'\\u4f60\\u597d' unicode转中文首先使用字符串的str.encode()方法将字符串转换为raw bytes形式，再调用bytes.decode()转换为字符串形式 s = r'\u4f60

一文学习python中编码和解码

kymppcds的博客

02-18

4619

大家都知道计算机是二进制的世界，计算机系统只能识别数字0和1组成的一串串的数字。1位数字代表1个比特（bit），每8个比特代表1个字节（byte），那么1个字节如果都为数字1，如11111111，代表的最大数字是255。如果是2 个字节最大可以表示为 65535，4 个字节最大表示为4294967295。每一种不同的数字0和1的组合，就可以代表一个字符。ASCII 编码最开始是美国人发明的编码 ASCII ，只能表示 256 个字符，仅支持英文字母，数字和少部分符号。GBK 编码。

【网络安全带你练爬虫-100练】第20练：数据处理-并写入到指定文档位置

09-04

1731

【python爬虫】爬取内容/图片处理后，写入到指定文件的指定位置

python获取的html中都是\\u003e如何转成正确字符

Dxy1239310216的博客

07-18

1062

检查你的数据来源，确保在获取HTML时没有发生不必要的转义。如果问题依然存在，考虑在数据处理的早期阶段（即在数据变得复杂和难以处理之前）解决它。如果数据已经以\\uXXXX的形式出现，并且你需要处理它，你可能需要编写自定义的解析逻辑。

Python字符串编解码，解决字符串乱码问题

xyh2004的博客

07-26

2341

字符集（Character Set）定义了一组特定的字符，而编码（Encoding）则是一种将字符集中的字符转换为特定数值或比特序列的规则，使得这些字符能在计算机系统中存储和传输。例如，ASCII字符集包含了英语字母、数字和一些控制字符，而Unicode字符集则涵盖了几乎世界上所有的书写系统。