nodejs 快要变成爬虫界的王者

nodejs 快要变成爬虫界的王者

爬虫这东西是很多数据采集必须要的东西。 但是现在随着网页不断发展,已经出现了出单纯的网页,到 ajax 网页, 再到 spa , 再到 websocket 应用,一直在变化,爬虫不变化怎么能行呢。爬虫从只爬网页,到ajax,一直工作的很好。而对于现在的 spa和websocket 网页传统的爬虫基本上没有很好的办法进行处理,怎么办。

最新的技术手段进行分析如下:

501306-20171014162711512-1059298414.jpg

  1. 数据直接从浏览器端拿到,通过 server browser 和 注入脚本。直接在浏览器端执行脚本,这样就可以 spa 和 websocket 都可以。

  2. Json 处理:JsonPath, alasql

  3. html 处理:xpath, cheerio

  4. 直接在浏览器端注入脚本,socket.io 和 监听 dom 的变化,把变化的流发表出去到服务器 (wechaty ) 就是这么做的。

  5. https://hackernoon.com/universal-javascript-console-for-browser-electron-nw-js-node-js-and-windows-272e4bd6f9d9 这篇文章也是这个思路

转载于:https://www.cnblogs.com/htoooth/p/7667741.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值