C#使用HtmlAgilityPack快速爬虫

最新推荐文章于 2023-04-19 12:34:34 发布

weixin_33815613

最新推荐文章于 2023-04-19 12:34:34 发布

阅读量514

点赞数

CC 4.0 BY-SA版权

文章标签： c# 爬虫

原文链接：http://www.cnblogs.com/JTCLASSROOM/p/10969673.html

本文详细介绍如何使用HtmlAgilityPack进行网页数据抓取，包括直接加载网址和本地HTML文件的方法，以及通过XPath选择节点的技巧，适用于快速提取网页文本和数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HtmlAgilityPack真是一把网抓利器，可以迅速地从网页抓到想要的文本或数据，使用起来十分方便，引用时在NuGet安装添加并在头部引用using HtmlAgilityPack;即可。

针对网址直接使用Load方法：

HtmlWeb webc = new HtmlWeb();
HtmlDocument htmlDoc = webc.Load(@"https://doc。。。");
HtmlNodeCollection hc = htmlDoc.DocumentNode.SelectNodes("//td[contains(normalize-space(text()),'Investment Advisor:')]/../../../../preceding-sibling::div[position()<=3]");

如果需要读取的html文档是本地的，可以先获取数据流，再使用LoadHtml方法：

FileStream fs = new FileStream(@"C:\Users\jlin10\Desktop\test.html", FileMode.OpenOrCreate, FileAccess.Read);
StreamReader sr = new StreamReader(fs, Encoding.Default);
string htmlstr = sr.ReadToEnd();
sr.Close();
fs.Close();
HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.LoadHtml(htmlstr);

抓出来之后就可以对hc循环取innertext属性得到结果，不过HtmlAgilityPack的selectnode(s)方法只支持xpath，不支持jsoup，所以要准确地抓出想要的东西就得看xpath写得好不好了，这里推荐下使用xpath常用的两个网址：

https://www.cnblogs.com/VseYoung/p/8686383.html

http://www.w3school.com.cn/xpath/xpath_functions.asp

上面代码中使用的HTML文档测试例子

转载于:https://www.cnblogs.com/JTCLASSROOM/p/10969673.html