下面您会看到一段代码,用于筛选经济日历。 它使用XPath解析的HTML页面包含此行,作为表中的第一个排列 。 (仅粘贴整个HTML页面的此行来代替。)XPath在HTML页面上删除td列的内容以进行屏幕抓取
Sun
All Day JPY
Dec 23
Bank Holiday
该代码使用XPath选择第一TR行:
var doc = new HtmlDocument();
doc.Load(new StringReader(html));
var rows = doc.DocumentNode.SelectNodes("//tr[@class=\"calendar_row\"]");
var rowHtml = rows[0].InnerHtml;
的问题是,rowHtml返回此:
All Day EUR
French Bank Holiday
现在您可以看到日期的td列的内容消失了!为什么?
我已经尝试过很多事情,并且为什么会丢弃该列的内容。 其他列包含它保留的内容。那么日期栏有什么问题?
是否有某种设置或属性导致或防止丢弃内容?
即使您没有线索有什么问题,但有一些方法可以更多地进行调查。
2013-09-26
Wayne
+2
你可能会得到不同的行比你想要的...尝试使Html非常简单,所以它只是在你想要匹配的行... –
+0
@Alexei你是对的。我认为这些行的返回顺序与HTML相同。他们可以随机排列吗? –