C# 利用HttpWebRequest模拟登陆获取数据设置Accept-Encoding为gzip,deflate后返回的网页是乱码处理

本文介绍了解决模拟登录时遇到的乱码问题,通过调整编码设置来正确解析GZip压缩的数据。提供了三种有效的方法,包括修改HttpWebRequest属性、移除特定头部信息或手动解压流。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原由:在解决模拟登陆抓取数据的时候post一个地址时老是获取的内容是乱码。

经过检查最终应该是编码是HttpWebRequest.Headers.Add("Accept-Encoding", "gzip,deflate"); 导致的,其中此行代码完全按照抓包工具分析数据后对应抓包工具分析的信息,就设置了对应的Accept-Encoding为gzip,deflate了。这样的代码,获得的网页源代码是乱码的,确切来说,是经过了GZip压缩的字符串,因此必须要进一步处理,把这些乱码还原成可读的html代码。

gzip是一种数据格式
默认且目前仅使用deflate算法压缩data部分,此法用于压缩传输

解决方法可以参考如下方法:

1:设置 HttpWebRequest.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate; ;

2:屏蔽HttpWebRequest.Headers.Add("Accept-Encoding", "gzip,deflate");

3: Stream getStream = new System.IO.Compression.GZipStream(webResponse.GetResponseStream(), System.IO.Compression.CompressionMode.Decompress);

StreamReader streamReader = new StreamReader(getStream, Encoding.UTF8);
  var getString= streamReader.ReadToEnd();

public static string GetHtml(string url) { string htmlCode; HttpWebRequest webRequest = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url); webRequest.Timeout = 30000; webRequest.Method = "GET"; webRequest.UserAgent = "Mozilla/4.0"; webRequest.Headers.Add("Accept-Encoding", "gzip, deflate"); HttpWebResponse webResponse = (System.Net.HttpWebResponse)webRequest.GetResponse(); //获取目标网站的编码格式 string contentype = webResponse.Headers["Content-Type"]; Regex regex = new Regex("charset\\s*=\\s*[\\W]?\\s*([\\w-]+)", RegexOptions.IgnoreCase); using (System.IO.Stream streamReceive = webResponse.GetResponseStream()) { //匹配编码格式 if (regex.IsMatch(contentype)) { Encoding ending = Encoding.GetEncoding(regex.Match(contentype).Groups[1].Value.Trim()); using (System.IO.StreamReader sr = new System.IO.StreamReader(streamReceive, ending)) { htmlCode = sr.ReadToEnd(); } } else { using (StreamReader sr = new System.IO.StreamReader(streamReceive, Encoding.UTF8)) { htmlCode = sr.ReadToEnd(); } } } return htmlCode; } 上面是C#语言写的函数,调用GetHtml方法,返回的htmlCode的值为乱码,下面是部分的乱码值: Խ��<v�w+F�� ����"r�����h8 � ��%�gi��lN�"i\�G���jmj��3������?��o����������������?���/�˿��o9���������/��o�Ͽ������������ÿ�����G���?��1�-ǿ��������_������������ο������������_�z<�!
03-11
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值