还在用Python爬虫?教你一招,摆脱选择元素位置的烦恼!使用Node.js大杀器,并且无需使用cheerio 库~
可以看到咱们的代码并没有用cheerio这个库,而是直接将整个html变成一个dom对象,再对dom对象执行点点点的操作就可以得到我们想要的任意元素。咱们这个代码很简单,没写过node.js的同学也很容易看懂。引入包,再执行一个http的get操作拿到整个页面的html。类似的网页我们都可以这么去爬取,再也不需要使用各种正则,遭遇找不到元素内容的烦恼啦!第二步:选择你想要爬虫的元素,右键复制获取JS路径。上完全体代码(爬一页25个电影,并保存到本地文件)豆瓣说,>_< 你不要过来啊!
原创
2024-01-07 02:29:00 ·
459 阅读 ·
1 评论