HttpURLConnection getHeaderFields().get("Content-Type") 获得网页编码问题

本文探讨了使用HttpURLConnection获取网页编码的有效性和局限性。指出并非所有网站都会通过Content-Type头提供字符编码信息,因此建议采用分析网页内容的方式确保准确获取编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于有些网页,使用HttpURLConnection 的 getHeaderFields().get("Content-Type")  能正确获得网页的编码。但有些网页却不能正确地获得,通过查看服务器返回的头信息,发现了问题所在,

http://it.sohu.com/20090711/n265142337.shtml 响应头
null : [HTTP/1.0 200 OK]
Date : [Sun, 12 Jul 2009 14:42:20 GMT]
Vary : [Accept-Encoding]
Expires : [Sun, 12 Jul 2009 14:44:20 GMT]
Last-Modified : [Sun, 12 Jul 2009 14:40:10 GMT]
Via : [1.0 33107306.44707239.41988739.sohu.com:80 (squid)]
Content-Type : [text/html]
Connection : [close]
Server : [Apache/1.3.39 (Unix) mod_gzip/1.3.26.1a]
X-Cache : [MISS from 33107306.44707239.41988739.sohu.com]
Cache-Control : [max-age=120]

红色的部分是关键,服务器给予的反应并没有把字符编码加进来。所以,使用上面的办法是没有办法获得编码的。

而对于另一个网页,却有字符编辑,见下:

http://news.xinhuanet.com/world/2009-04/27/content_11267743.htm 响应头
null : [HTTP/1.0 200 OK]
ETag : ["47f8ae1-4909-fb3f2080"]
Very : [Accept-Encoding]
Content-Length : [4973]
Last-Modified : [Mon, 27 Apr 2009 09:29:22 GMT]
Connection : [keep-alive]
Powered-By-ChinaCache : [CNC-LY-7-3BB HIT, CNC-QD-K-33U HIT]
X-Cache : [HIT from news48.xinhuanet.com]
Server : [Apache]
Date : [Sat, 27 Jun 2009 07:22:49 GMT]
Content-Encoding : [gzip]
Via : [1.0 news48.xinhuanet.com:80 (squid/2.6.STABLE16)]
Content-Type : [text/html; charset=GB2312]
Accept-Ranges : [bytes]


综上所述,要获得一个网页的编码,上述办法不一定满足条件,最保险的办法是分析网页内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值