Node.js爬虫一站到底系列先导篇

Niya0515

于 2020-05-05 12:42:00 发布

阅读量393

点赞数 2

分类专栏： Node.js爬虫一站到底系列文章标签： nodejs mysql web html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Niya0515/article/details/105788580

版权

Node.js爬虫一站到底系列专栏收录该内容

10 篇文章

订阅专栏

前言：
在web编程课上，老师布置了爬虫任务，而没有任何经验和相关方面知识的小白简直一头雾水，不知道该如何下手。一开始抱着一本厚厚的犀牛书啃了好几天，本以为对Javascipt语法有一定了解后便可以自己写出爬虫代码来了，结果事实证明，看了好多天后，依然无从下手。后来从爬虫教程看起，什么不懂，就去学习什么，一路摸索，跌跌撞撞，逐渐走上了正轨。
当把全项目完成后也算是明白了老师的良苦用心，通过这次经历，对web的学习不再只是听老师讲，也不再只是跟老师做。这门课似乎成为了我收获最大的课程，因为它不仅扩充了我的知识，更多的是提升了我的自学能力和实践动手能力。每次进步一点点带给我慢慢累积的幸福成就感。
依据个人经验，我总结出了该系列博文，为什么叫“一站到底”呢？因为它不仅是记录了自己的心路历程，也希望帮助同样有爬虫需求的小白，能少走一些弯路，只要按顺序看完本系列博文，就可以开始着手自己的项目。

（一）项目总目标

核心需求：

选取3-5个代表性的新闻网站（本项目选取代表性新闻网站——南方网、新浪网，以及垂直领域权威性的网站——经济领域的东方财富）；
针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息；
将爬取出来的信息存储在数据库中；
建立网站对爬取内容的分项全文搜索；
给出所查关键词的时间热度分析；

技术要求：

必须采用Node.js实现网络爬虫；
必须采用Node.js实现查询网站后段，HTML+JS实现前端（尽量不要使用任何前后端框架）。

（二）博文指南

准备篇：

实战篇：

扩展篇：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。