使用TFHpple解析GB2312网页出现乱码的解决方法

本文介绍了解析GB2312编码网页的一种有效方法,通过将GB2312编码转换为UTF-8编码,解决了解析过程中出现的中文乱码问题。具体步骤包括获取GB2312编码的网页内容、替换编码类型关键字并最终转换为UTF-8格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在解析html网页的过程中不免会遇到一些gb2312编码的网页,若是对这类网页进行类似于utf-8的解析方法进行解析,最后content里的中文显示会出现乱码情况,即使对字符串进行gb2312的再次解码也无济于事。

因此我们需要改变思路:

第一步,用bg2312的编码得到一个NSString的网页内容。

第二步,使用stringByReplacingOccurrencesOfString的方法,将网页中的”gb2312“替换成“utf-8”。

第三步,将替换后的NSString使用dataUsingEncoding的方法,转换成NSData给TFHpple使用。

现在的思路其实就是先将gb2312转换成utf-8然后再进行解析,接下来的工作相信大家都明白就不再次赘述。

示例代码如下:


    NSString *html = [NSString stringWithContentsOfURL:url encoding:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];
    
    NSString *newHTML = [html stringByReplacingOccurrencesOfString:@"gb2312" withString:@"utf-8"];
    
    NSData *newData = [newHTML dataUsingEncoding:NSUTF8StringEncoding];
    
    NSString *currectString = [[NSString alloc] initWithData:newData encoding:NSUTF8StringEncoding];


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值