写了个简单的爬虫

最新推荐文章于 2025-05-16 15:08:58 发布

绯红游侠

最新推荐文章于 2025-05-16 15:08:58 发布

阅读量272

点赞数

分类专栏：采集爬虫

7 篇文章

订阅专栏

2 篇文章

订阅专栏

本文介绍了一个使用JavaScript编写的简单爬虫脚本，该脚本可在神箭手云爬虫平台上运行，用于抓取京东上关于Python关键字的商品详情及用户评论。当前爬虫能够抓取商品标题、产品ID及第一页的30条用户评论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单写了个爬京东评论的简单网页
var configs = {
domains: ["search.jd.com","item.jd.com","club.jd.com"],
scanUrls: ["http://search.jd.com/Search?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=1&s=1&click=0"],
contentUrlRegexes: ["http://item\\.jd\\.com/\\d+.html"],
helperUrlRegexes: ["http://search\\.jd\\.com/Search\\?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=\\d+&s=1&click=0"],
fields: [
{
// 第一个抽取项
name: "title",
selector: "//div[@id='name']/h1",
required: true
},
{
// 第一个抽取项
name: "productid",
selector: "//div[contains(@class,'fl')]/span[2]",
required: true
},
{
name: "comments",
sourceType: SourceType.AttachedUrl,
attachedUrl: "http://club.jd.com/productpage/p-{productid}-s-0-t-3-p-0.html",
selectorType: SelectorType.JsonPath,
selector: "$.comments",
repeated: true,
children:[
{
name: "com_content",
selectorType: SelectorType.JsonPath,
selector: "$.content"
},
{
name: "com_nickname",
selectorType: SelectorType.JsonPath,
selector: "$.nickname"
},
]
}
]
};
configs.onProcessHelperUrl = function(url, content, site){
if(!content.indexOf("抱歉，没有找到")){
var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));
if(currentPage == 0){
currentPage = 1;
}
var page = currentPage + 2;
var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);
site.addUrl(nextUrl);
}
return true;
};
var crawler = new Crawler(configs);