转载:解决采集UTF-8网页空格变成问号乱码

探讨在UTF-8编码环境下使用HtmlDecode时遇到的问题,即“ ”被错误转换为特殊空格字符,最终导致数据库中出现问号。提供了解决方案并分析了问题的根本原因。
部署运行你感兴趣的模型镜像
昨天发现,用 HtmlDecode() 去解码后,“ ”不是被解码为半角的空格(ASCII码0x20)而是变成半角问号“?”(ASCII码0x3F)。而且奇怪的是,只有每行前面的空格才会出问题,如果前面后面有汉字的话,空格就还是空格。但是更加奇怪的是,如果直接在HtmlDecode()的后面直接加上trim()的话,这个问号会被去掉。而正常的情况下,问号是不会被去掉的,只有空格才会被去掉。
      发生这个问题的时候,我是在把解码后的内容写入数据库,因此一直都以为是sql******与应用程序之间的字符集问题或者编码方式问题。搞了N久,最后才发现在送进Sql******之前,内容就已经是问号了。

      查了很久,也找不到这个问题如何解决。因此,只能使用山寨解决方法了:

      1、在Decode之前替换   为 空格。

      2、在Decode之后直接加 Trim()

      显而易见的,这个不是一个好办法:在显示到浏览器的时候,空格就不见了

      最近认真去查了一下这个问题,发现问题的关键,是编码方式:如果使用的Encoding是UTF-8的话,就会发生这种情况。

      问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也*毙掉。

      使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。

      因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。


      知道了具体原因,就有正规的解决方法了。方法就是:在得到UTF-8字符串之后,先进行一个替换,把这个特殊的空格替换为普通的空格,如果是HTML串,建议替换为( )。C#代码如下:


      byte[] space = new byte[]{0xc2,0xa0};      string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);      HtmlStr = HtmlStr.Replace(UTFSpace," ");
      这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。

      需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。


原文地址:http://www.jiaonan.tv/html/blog/1/29483.htm

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

int main(void) { OLED_Init(); // OLED初始化 Mbus_Init(); // Mbus初始化 RS485_Init(); // RS485模块初始化 MQ4_Adc_Init(); // 甲烷传感器初始化 Zigbee_Init(); // Zigbee模块初始化 Alarm_Init(); // 报警器初始化 //uint8_t sensor_data[8]; // uint8_t data_length; uint8_t light_data[8]; uint8_t light_length; uint16_t methane_value; uint16_t light_value; char display_str[50]; while(1) { // 发送Mbus请求并接收光照传感器数据 if (Mbus_Read_Data(light_data, &light_length) == 0) { // 简单示例:假设数据是一个无符号16位整数 uint16_t light_value = (light_data[0] << 8) | light_data[1]; // 格式化数据用于显示 sprintf(display_str, "Light: %d", light_value); // 清屏 OLED_Clear(); // 在OLED上显示数据 OLED_ShowString(0, 0, display_str); } else { // 显示错误信息 OLED_Clear(); OLED_ShowString(0, 0, "Error reading data"); } // 延时一段时间 Delay_ms(500); // 读取甲烷浓度// 读取甲烷气体数据 methane_value = MQ4_GetPPM(); if(methane_value > METHANE_THRESHOLD) { // 甲烷超标报警(methane_value > METHANE_THRESHOLD) GPIO_ResetBits(GPIOA,GPIO_Pin_5);//低电平触发 } else { GPIO_SetBits(GPIOA,GPIO_Pin_5); } Delay_ms(1000); // 1秒采集周期 if(light_value < LIGHT_THRESHOLD) { // 光照强度低于某值时(light_value < LIGHT_THRESHOLD) GPIO_ResetBits(GPIOA,GPIO_Pin_6);//低电平触发 } else { GPIO_SetBits(GPIOA,GPIO_Pin_6); } Delay_ms(1000); // 1秒采集周期 // 格式化数据用于显示 sprintf(display_str, "Light: %d, Methane: %d", light_value, methane_value); // 在 OLED 上显示数据 OLED_ShowString(0, 0, display_str); // 通过 Zigbee 发送数据 Zigbee_Send_Data(light_value, methane_value); // 延时一段时间 Delay_ms(500); } }以上代码在OLED上显示乱码了,帮我改写以下,使其能在OLED上完整显示
最新发布
06-13
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值