Node.js爬虫一站到底系列先导篇

前言:
在web编程课上,老师布置了爬虫任务,而没有任何经验和相关方面知识的小白简直一头雾水,不知道该如何下手。一开始抱着一本厚厚的犀牛书啃了好几天,本以为对Javascipt语法有一定了解后便可以自己写出爬虫代码来了,结果事实证明,看了好多天后,依然无从下手。后来从爬虫教程看起,什么不懂,就去学习什么,一路摸索,跌跌撞撞,逐渐走上了正轨。
当把全项目完成后也算是明白了老师的良苦用心,通过这次经历,对web的学习不再只是听老师讲,也不再只是跟老师做。这门课似乎成为了我收获最大的课程,因为它不仅扩充了我的知识,更多的是提升了我的自学能力和实践动手能力。每次进步一点点带给我慢慢累积的幸福成就感。
依据个人经验,我总结出了该系列博文,为什么叫“一站到底”呢?因为它不仅是记录了自己的心路历程,也希望帮助同样有爬虫需求的小白,能少走一些弯路,只要按顺序看完本系列博文,就可以开始着手自己的项目。

(一)项目总目标
核心需求:
  1. 选取3-5个代表性的新闻网站(本项目选取代表性新闻网站——南方网、新浪网,以及垂直领域权威性的网站——经济领域的东方财富);
  2. 针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息;
  3. 将爬取出来的信息存储在数据库中;
  4. 建立网站对爬取内容的分项全文搜索;
  5. 给出所查关键词的时间热度分析;
技术要求:
  1. 必须采用Node.js实现网络爬虫;
  2. 必须采用Node.js实现查询网站后段,HTML+JS实现前端(尽量不要使用任何前后端框架)。
(二)博文指南
准备篇:
  1. Node.js爬虫一站到底系列一准备篇:开门见山——爬虫本质

  2. Node.js爬虫一站到底系列二准备篇:根深蒂固——web网页

  3. Node.js爬虫一站到底系列三准备篇:秣马厉兵——Node.js特点

实战篇:
  1. Node.js爬虫一站到底系列四实战篇:小试牛刀——爬虫初体验

  2. Node.js爬虫一站到底系列五实战篇:大显身手——万能爬虫

  3. Node.js爬虫一站到底系列六实战篇:初出茅庐——进入Mysql

扩展篇:
  1. Node.js爬虫一站到底系列七扩展篇:登堂入室——爬虫扩展

  2. Node.js爬虫一站到底系列八扩展篇:过关斩将——自我尝试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值