C#怎样抓取js执行完后的数据

最新推荐文章于 2024-03-11 15:26:10 发布

原创最新推荐文章于 2024-03-11 15:26:10 发布 · 3.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#webBrowser #js

.net 同时被 3 个专栏收录

5 篇文章

订阅专栏

2 篇文章

订阅专栏

webBrowser

1 篇文章

订阅专栏

本文介绍如何利用C#中的webBrowser控件抓取百度文库的网页数据，包括加载网址、读取HTML内容及编码处理，为后续数据解析打下基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用webBrowser控件，在Form1_Load事件中，将需要抓取的地址加载到webBrowser控件中。代码如下：

webBrowser1.Navigate("https://wenku.baidu.com/view/06d87e755e0e7cd184254b35eefdc8d377ee147a.html?from=search");

在webBrowser加载完之后，进行数据提取。这里需要注意，根据原编码读取，防止乱码。代码如下：

    private void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            StreamReader reader = new StreamReader(webBrowser1.DocumentStream, Encoding.GetEncoding(webBrowser1.Document.Encoding));
            string html = reader.ReadToEnd();
       }

提取了html之后，就可以进行解析。解析方法可以参考本人的另一篇文章：使用HtmlAgilityPack快速实现网页爬虫

另外，如果是web网站想要解析其他网页，建议应用程序通过轮询将提取的数据插入数据库，网站再从数据库读取数据。

参考：https://blog.youkuaiyun.com/closurer/article/details/73885500