.net抓取html

     // 获取网页的HTML内容,指定Encoding
    static string GetHtml(string url, System.Text.Encoding encoding)
    {
        byte[] buf = new System.Net.WebClient().DownloadData(url);
        if (encoding != null) return encoding.GetString(buf);
        string html = System.Text.Encoding.UTF8.GetString(buf);
        encoding = GetEncoding(html);
        if (encoding == null || encoding == System.Text.Encoding.UTF8) return html;
        return encoding.GetString(buf);
    }

    // 根据网页的HTML内容提取网页的Encoding
    static System.Text.Encoding GetEncoding(string html)
    {
        string pattern = @"(?i)/bcharset=(?<charset>[-a-zA-Z_0-9]+)";
        string charset = System.Text.RegularExpressions.Regex.Match(html, pattern).Groups["charset"].Value;
        try { return System.Text.Encoding.GetEncoding(charset); }
        catch (ArgumentException) { return null; }
    }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值