生成url链接中诡异的百分号分割的中文编码

最新推荐文章于 2024-03-12 10:59:06 发布

原创最新推荐文章于 2024-03-12 10:59:06 发布 · 809 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #urllib #中文编码

p 专栏收录该内容

2 篇文章

订阅专栏

本文讲述了在Python爬虫中遇到的URL编码问题，特别是如何将GB2312编码的中文关键词转换为百分号分割的格式。在处理bilibili搜索链接时，成功将'羽生结弦'转换为'%E7%BE%BD%E7%94%9F%E7%BB%93%E5%BC%A6'。然而，在处理包含'西单'的关键词时，发现其使用的是GB2312、GBK或GB18030编码，通过编码查询网站转换并得到正确格式的百分号编码URL：%CE%F7%B5%A5。

在之前的编程中爬取bilibili，

为了设置header中的referer，要将搜索链接中的关键词转为unicode中文编码，并且是百分号划分的格式。

https://search.bilibili.com/all?keyword=羽生结弦

变为

https://search.bilibili.com/all?keyword=%E7%BE%BD%E7%94%9F%E7%BB%93%E5%BC%A6

当时采用的方法是

from urllib import parse

headers = {'user-agent': 'Mozilla/5.0', 'referer': 'https://search.bilibili.com/all?keyword=' +
parse.quote(keyword, '')}

结果在爬取另一个网站中需要对中文编码的url时，出现了问题。

页面上查询关键词‘西单’后，出现的编码是 ‘%CE%F7%B5%A5’

通过编码查询网站：https://www.qqxiuzi.cn/bianma/zifuji.php，我发现这是使用了 GB2312 、 GBK 、或 GB18030 编码。

然后使用

keyword = '西单' # 关键词
keyword_en = keyword.encode('gbk')
print(keyword_en)

得到

b'\xce\xf7\xb5\xa5'

将这个<class 'bytes'>转换为 %分割（百分号分割）的编码：

keyword_en_url = parse.quote(keyword_en)
print(keyword_en_url)

得到

%CE%F7%B5%A5

打工搞成！！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lying_byr

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

网址url中的百分号是什么编码以及如何用python实现url编码

T型人小付的博客

08-20

4984

相信大家在玩爬虫的时候，经常需要自己去批量构建url，但是有的时候网站中作为参考的同类型url却包含一串百分号的乱码，让我们自己在构建的时候无从下手。这一篇博客就来一起看看这些百分号到底是什么东西。文章目录问题描述为什么要编码？python的编码操作总结问题描述今天在爬虫的时候，需要构建的一个url需要附加搜索内容，例如爬取搜索内容为“零食京东超市”的url，如果原样输出应该是 https://so.m.jd.com/ware/search.action?keyword=零食京东超市但是实际的

【Java】短 URL 生成器设计：百亿短 URL 怎样做到无冲突？

最新发布

alen101的博客

07-09

1816

Fuxi允许用户自己定义短URL，即在生成短URL的时候，由用户指定短URL的内容。为了避免预生成的短URL和用户指定的短URL冲突，Fuxi限制用户自定义短URL的字符个数，不允许用户使用6个字符的自定义短URL，且URL长度不得超过20个字符。但是用户自定义短URL依然可能和其他用户自定义短URL冲突，所以Fuxi生成自定义短URL的时候需要到数据库中检查冲突，是否指定的URL已经被使用，如果发生冲突，要求用户重新指定。

参与评论您还未登录，请先登录后发表或查看评论

HTTP请求中URL编码转为中文

板栗的学习日常

03-12

4191

例如，在UTF-8编码中，汉字 "中" 的编码是 "E4 B8 AD"，它会被URL编码为 "%E4%B8%AD"。这里的 %E4 对应十六进制的 "E4"，%B8 对应 "B8"，%AD 对应 "AD"。要将URL编码转为中文，可以使用URL解码的方法，即将%后跟两位十六进制数字的编码转换为对应的字符。由于UTF-8编码中，一个中文字符通常由三个字节表示，所以在URL编码时会产生三个十六进制的转码。例如，%E2 表示的是十六进制的编码，对应的ASCII码是 226。

百分号编码(URL编码)

cay22的专栏

01-06

6398

一. 百分号编码(URL编码) 使用这种编码的目的是为了传输, 类似UTF8的用途. 百分号编码中分为保留字符和非保留字符, 很明显, 所谓的保留字符就是有其特殊用途的, 编码时需要转换的; 非保留字符就是可以直接被使用的, 编码时不需要转换的. RFC 3986 section 2.3 非保留字符 (2005年1月) A B C D E F G H I J K L M N

网址中百分号的含义

虫子牛虻——我和我的影子

05-27

3618

网址中的百分号后面跟的2位16进制代码一般是GB2312编码或UTF-8编码，通常是汉字或一些特殊符号。要想查看这些代码对应的汉字或符号，可以利用百度，例如：http://www.baidu.com/s?wd=（“=”号后面输入你要解码的编码，这样是用默认的是GB2312编码解析）比如：http://www.baidu.com/s?wd=%ba%da%bf%cd如果是UTF-8编码，则最后添加写成

URL上的中文编码

weixin_30352645的博客

05-16

197

参考：http://www.chinaz.com/web/2013/0226/293639.shtml 一 URL上拼接中文会进行编码在URL上拼接中文时，比如www.abc.com?season=春节会变成 www.abc.com?season=%E6%98%A5%E8%8A%82 “春”和“节”的utf-8编码分别是“E6 98 A5”和“E8 8A 82”，因此，“%E6%98...

js获取url中的参数且参数为中文时通过js解码

10-26

当URL中包含中文参数时，由于编码问题，直接获取可能会导致乱码。本篇文章将详细讲解如何使用JavaScript来正确地获取和解码URL中的中文参数。首先，我们需要理解URL编码的基本原理。在URL中，非ASCII字符必须被...

解决php接收shell返回的结果中文乱码问题

10-26

在处理PHP脚本中调用shell命令并接收返回结果时，尤其是当shell输出包含中文字符时，经常会出现乱码问题。这主要是由于编码格式不一致导致的。由于PHP默认情况下会按照当前系统或配置的编码去解析接收到的数据，如果...

React实现的URL短链接生成项目

“url-shortener”是一个基于React技术栈开发的URL短链接生成系统项目，其核心目标是将长网址转换为简短、易于分享和管理的短链接。该项目通过现代化前端工程化工具链进行构建与维护，具备完整的开发、测试、构建及...

Javascript 获取链接(url)参数的方法

10-30

在上述代码中，`unescape()`函数用于解码URL编码的字符，`replace(/\+/g, " ")`则是将`+`号替换为空格，因为`+`在URL编码中通常代表空格。 ### 方法2：正则匹配方式第二种方法使用正则表达式来匹配和提取目标参数...

url传递参数：中文出现%乱码

wshten

07-11

1741

url传递参数时会进行编码解码，需要进行必要的编解码操作PS：可在浏览器console中输入decodeURI('%a%fa%ew%')进行解码，发现为中文数据解决：在使用编码的地方如：name --> decodeURL(name)进行解码操作即可...

ipv6本地链路地址后面的百分号%加数字到底是什么意思？

企业级技术与网站app运营

01-13

7571

ipv6本地链路地址后面的百分号%加数字到底是什么意思？ %后面的数字表示接口标识符，相当于网卡的编号。在cmd里面使用命令 netstat -nr 和 ipconfig /all 就可以对比出来了，具体看zhao123.top下面的这种截图： ...

含有中文的网址中显示百分号%等乱码是什么？

pathfinder

03-30

3万+

标签: ASCII , GB2312 , UTF-8 , 网页编码 在浏览一些网址中，我们可以看到这样一些特别的现象，就是网址中会出现一些百分号（%）和一字母数字组成的让我们看不明白的乱码，这究竟是怎么回事，它们又都是些什么东西呢？ 其实，这里由%和数字字母组成的有规律性的“乱码”它们并不真是乱码，它们是一种特殊的编码，有电脑基础的人就知道，计算机它是不认得中文汉字的，要让计算机认识这些编码必须要转换成一些字母和数字等组成的代码。 事实上，我们在

为什么有些网址存在大量的百分号、字母和数字？

qq_54650406的博客

01-03

4108

例如，对于汉字 “中”，它的 Unicode 编码是 U4E2D，对应着 UTF-8 编码是 E4 B8 AD。UTF-8 通过在编码时使用不同长度的字节序列来表示 Unicode 字符，这样能够表示所有的 Unicode 字符，并且可以处理二进制数据，适用于计算机系统内部和各种文件格式的存储和处理。原因在于 URL 中只能包含 ASCII 码（字符编码范围是 0 ～ 127）的字符，而汉字、特殊字符等非 ASCII 码字符是不能直接出现在 URL 中的，需要进行编码转换后才能在 URL 中使用。

如何将Wikipedia链接的Unicode编码转成百分号编码

angelyang1234567的博客

05-09

247

Wikipedia的中文词条的链接（URL）通常含中文，这常在别处不通用，例如新浪微博、新浪博客，无法识别为URL。更严重的情况下，若是其他文字，如梵文，则直接省略字母。所以引用这些含有中文的URL时，最好将Unicode编码转成百分号编码。方法1：在Safari中拷贝为unicode URL，在Chrome中拷贝为百分号编码。方法2：这里有一个在线URL编码工具。 ...

关于汉字编码问题

huoyanyan87的专栏

03-28

637

由%号和字母数字组成的乱码，我们可以发现它们有一些规律，即都是三个字符一组，排在最前面的肯定是百分号%。它们不是什么乱码，它们其实是UTF-8编码或者gbk(GB2312)编码，那些百分号（%）后面的数字和字母其实就是16进制数。中文的gbk(GB2312)编码如果是中文的gbk(GB2312)编码，那么它的形式应该是这样的，即一个汉字对应两组%xx，即%xx%xx 中文的U

在URL中传带百分号%的参数的两种方法：直接传编码或使用encodeURI