html 移除屏幕,XPath在HTML页面上删除td列的内容以进行屏幕抓取

下面您会看到一段代码,用于筛选经济日历。 它使用XPath解析的HTML页面包含此行,作为表中的第一个排列 。 (仅粘贴整个HTML页面的此行来代替。)XPath在HTML页面上删除td列的内容以进行屏幕抓取

Sun
Dec 23
All Day JPY
Bank Holiday

该代码使用XPath选择第一TR行:

var doc = new HtmlDocument();

doc.Load(new StringReader(html));

var rows = doc.DocumentNode.SelectNodes("//tr[@class=\"calendar_row\"]");

var rowHtml = rows[0].InnerHtml;

的问题是,rowHtml返回此:

All Day EUR
French Bank Holiday

现在您可以看到日期的td列的内容消失了!为什么?

我已经尝试过很多事情,并且为什么会丢弃该列的内容。 其他列包含它保留的内容。那么日期栏有什么问题?

是否有某种设置或属性导致或防止丢弃内容?

即使您没有线索有什么问题,但有一些方法可以更多地进行调查。

2013-09-26

Wayne

+2

你可能会得到不同的行比你想要的...尝试使Html非常简单,所以它只是在你想要匹配的行... –

+0

@Alexei你是对的。我认为这些行的返回顺序与HTML相同。他们可以随机排列吗? –

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值