前言:
在web编程课上,老师布置了爬虫任务,而没有任何经验和相关方面知识的小白简直一头雾水,不知道该如何下手。一开始抱着一本厚厚的犀牛书啃了好几天,本以为对Javascipt语法有一定了解后便可以自己写出爬虫代码来了,结果事实证明,看了好多天后,依然无从下手。后来从爬虫教程看起,什么不懂,就去学习什么,一路摸索,跌跌撞撞,逐渐走上了正轨。
当把全项目完成后也算是明白了老师的良苦用心,通过这次经历,对web的学习不再只是听老师讲,也不再只是跟老师做。这门课似乎成为了我收获最大的课程,因为它不仅扩充了我的知识,更多的是提升了我的自学能力和实践动手能力。每次进步一点点带给我慢慢累积的幸福成就感。
依据个人经验,我总结出了该系列博文,为什么叫“一站到底”呢?因为它不仅是记录了自己的心路历程,也希望帮助同样有爬虫需求的小白,能少走一些弯路,只要按顺序看完本系列博文,就可以开始着手自己的项目。
(一)项目总目标
核心需求:
- 选取3-5个代表性的新闻网站(本项目选取代表性新闻网站——南方网、新浪网,以及垂直领域权威性的网站——经济领域的东方财富);
- 针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息;
- 将爬取出来的信息存储在数据库中;
- 建立网站对爬取内容的分项全文搜索;
- 给出所查关键词的时间热度分析;
技术要求:
- 必须采用Node.js实现网络爬虫;
- 必须采用Node.js实现查询网站后段,HTML+JS实现前端(尽量不要使用任何前后端框架)。