java字符串编码类型获取

最新推荐文章于 2023-02-14 16:44:17 发布

weixin_34227447

最新推荐文章于 2023-02-14 16:44:17 发布

阅读量210

点赞数

CC 4.0 BY-SA版权

文章标签： java 爬虫

原文链接：https://yq.aliyun.com/articles/432204

源码下载地址：[url]http://download.youkuaiyun.com/source/414086[/url]

汉字编码是一项较为麻烦的事情，弄不好就会造出些谁都看不懂的乱码。比如我想做个针对汉字网站的爬虫系统，需要对非特定的页面进行数据解析处理，而此时我所访问的页面编码格式未知，如果不能正确处理页面编码，则很难获得我们理想中的数据。

通常这时候可能有几种选择：

一是根据response的ContentType获得，如果服务器支持的话此项中会返回charset数值，解析即可。但对不返回或者不支持的服务器则无能为力。

二是使用正则或自定义解析函数截取页面中‘charset=’后的数据，采取死钉战术，但万一采集的页面中没有此项或者此项有错，也就回天乏术。

三就是老老实实的解析全文，最后返回一个符合的编码格式。

此例中我演示了几种较常见编码的识别方法，通过统计编码为指定编码的或然率, 而后返回可能性最高的编码方式。在无法获得确切编码之时，这可说是一种唯一的选择。

这种识别方式主要是针对汉字编码而来，所以对应页面中的汉字数目越多，统计结果就越准确，反之则很难识别出正确结果。

Encoding.java

package org.loon.test.encoding;

/**

* <p>

* Title: LoonFramework

* </p>

* <p>

* De.ion:编码基本类型集合

* </p>

* <p>

* Copyright: Copyright (c) 2008

* </p>

* <p>

* Company: LoonFramework

* </p>

* <p>

* License: http://www.apache.org/licenses/LICENSE-2.0

* </p>

*

* @author chenpeng

* @email：ceponline@yahoo.com.cn

* @version 0.1

*/

public class Encoding {

// 支持的字符格式

public static int GB2312 = 0;

public static int GBK = 1;

public static int BIG5 = 2;

public static int UTF8 = 3;

public static int UNICODE = 4;

public static int EUC_KR = 5;

public static int SJIS = 6;

public static int EUC_JP = 7;

public static int ASCII = 8;

public static int UNKNOWN = 9;

public static int TOTALT = 10;

public final static int SIMP = 0;

public final static int TRAD = 1;

// 解析名称用

public static String[] javaname;

// 编码用

public static String[] nicename;

// 应用于html中的字符集

public static String[] htmlname;

public Encoding() {

javaname = new String[TOTALT];

nicename = new String[TOTALT];

htmlname = new String[TOTALT];

javaname[GB2312] = "GB2312";

javaname[GBK] = "GBK";

javaname[BIG5] = "BIG5";

javaname[UTF8] = "UTF8";

javaname[UNICODE] = "Unicode";

javaname[EUC_KR] = "EUC_KR";

javaname[SJIS] = "SJIS";

javaname[EUC_JP] = "EUC_JP";

javaname[ASCII] = "ASCII";

javaname[UNKNOWN] = "ISO8859_1";

// 分配编码名称

htmlname[GB2312] = "GB2312";

htmlname[GBK] = "GBK";

htmlname[BIG5] = "BIG5";

htmlname[UTF8] = "UTF-8";

htmlname[UNICODE] = "UTF-16";

htmlname[EUC_KR] = "EUC-KR";

htmlname[SJIS] = "Shift_JIS";

htmlname[EUC_JP] = "EUC-JP";

htmlname[ASCII] = "ASCII";

htmlname[UNKNOWN] = "ISO8859-1";

// 分配可读名称

nicename[GB2312] = "GB-2312";

nicename[GBK] = "GBK";

nicename[BIG5] = "Big5";

nicename[UTF8] = "UTF-8";

nicename[UNICODE] = "Unicode";

nicename[EUC_KR] = "EUC-KR";

nicename[SJIS] = "Shift-JIS";

nicename[EUC_JP] = "EUC-JP";

nicename[ASCII] = "ASCII";

nicename[UNKNOWN] = "UNKNOWN";

}

public String toEncoding(final int type) {

return (javaname[type] + "," + nicename[type] + "," + htmlname[type])

.intern();

}

}

Encode,java（省略，见源码）

本文转自 cping 51CTO博客，原文链接:http://blog.51cto.com/cping1982/129912

weixin_34227447

博客等级

码龄10年

181
原创

214
点赞

1201
收藏

4427
粉丝

关注

私信

热门文章

上一篇：: Spark 概念学习系列之DAG的生成（十一）

下一篇：: System Center Virtual Machine Manager 2008的p2v功能测试

最新评论

[原创]DC-DC输出端加电压会烧毁
weixin_43572602: 请教一下，如你文章所说:Vin断开时，buck输出加电压，会不会通过FB反馈到VIN，产生反向电压烧毁dcdc呢？
openwrt 修改feeds.conf.default为GitHub源
qq_42439272: 不能用
MySQL 採用Xtrabackup对数据库进行全库备份
橘子味的小可爱: “No files found with current filters.” 我用谷歌浏览器，谷歌极速版浏览器，火狐，IE，都试过了还是没有下载列表出来...怎么破，我要下了载8.0的
[原创]DC-DC输出端加电压会烧毁
wanxueniu4378: 为防止这文章误导别人，我特地注册来回复。这文章的前半部分不正确。真正原因是buck工作时，下拉MOS有一半周期会导通，如果输出接有电源，会造成大电流烧掉此MOS。我有20多年的电路研发工作经验。
This exception may occur if matchers are combined with raw values
z^hs: This exception may occur if matchers are combined with raw values: //incorrect: someMethod(anyObject(), "raw String"); When using matchers, all arguments have to be provided by matchers. For example: //correct: someMethod(anyObject(), eq("String by matcher")); For more info see javadoc for Matchers class. 博主，这段代码对你有帮助吗，有帮助请留下留言，作为这么优秀的程序猿工程师，对吧

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。