看到一个帖子上说用HttpWebRequest抓取的页面是乱码
http://topic.youkuaiyun.com/u/20090114/14/0301cde3-ce1b-488b-970d-9ba69d20a024.html?seed=1673955324
试了一下,确实如此!
在查看返回的标头httpWebResponse.Headers时发现有一句“Content-Encoding: deflate”,原来网页是由deflate压缩的。
知道问题就好办啦!.NET FrameWork已经提供了相应的类(GZipStream ,DeflateStream )来实现压缩和解压缩。
System.IO.Compression.DeflateStream responseStream =new System.IO.Compression.DeflateStream( httpWebResponse.GetResponseStream(),System.IO.Compression.CompressionMode.Decompress); StreamReader streamReader = new StreamReader(responseStream, encoding); string html = streamReader.ReadToEnd();
本文介绍了解决使用HttpWebRequest抓取网页时遇到的乱码问题。通过检测到返回的网页被deflate压缩,利用.NET Framework提供的GZipStream和DeflateStream类成功实现了网页内容的解压和正确读取。
365

被折叠的 条评论
为什么被折叠?



