目标是steam吧,原始网页长这样
首先确定请求地址
然后写一个类,把需要用到的功能函数先着出来准备着
查看网页源代码后,发现帖子的标题及链接是绿色的,用xpath提取不到(网上查过了是因为这段代码被注释掉的问题,解决方案是用正则的替换把注释符号去掉,然后就可以正常匹配)
使用正则可以找到
改变提取策略,用正则匹配内容
目标是steam吧,原始网页长这样
首先确定请求地址
然后写一个类,把需要用到的功能函数先着出来准备着
查看网页源代码后,发现帖子的标题及链接是绿色的,用xpath提取不到(网上查过了是因为这段代码被注释掉的问题,解决方案是用正则的替换把注释符号去掉,然后就可以正常匹配)
使用正则可以找到
改变提取策略,用正则匹配内容