前言
本学期期中作业是 新闻爬虫及爬取结果的查询网站,作为只有c语言基础的小菜鸟,刚看到要求时还是一脸懵,通过半个学期的学习,借助老师的代码,撸起袖子加油干,跌跌撞撞地也实现了爬虫。先来看看啥是爬虫,爬虫就是个自动获取网络内容的程序,又称为网页蜘蛛,网络机器人......(来自百度百科...)ok 话不多说 现在开始实现新闻爬虫以及爬取结果的查询网站。
一.工具安装
1.Nodejs
百度搜索nodejs进入官网
点击下载,找到自己需要的版本
按照提示一路next 安装完成 在cmd中输入node -v可以查看安装版本
2.编码工具VsCode
这里因为以前写C/C++时下载过VScode所以稍微下个插件直接用了,也可以下载WebStorm,Sublime等等
WebStorm下载地址: WebStorm: The Smartest JavaScript IDE, by JetBrains
Sublime下载地址: Sublime Text - Text Editing, Done Right
VScode是一个轻量且强大的跨平台开源代码编辑器(IDE) 打开VScode应用商店下载nodejs插件
3.安装MySQL
下载地址:MySQL :: Download MySQL Community Server
数据库 根据自己需要的版本 下载 后面会详细描述
要下载的工具下载的差不多了,下面正式开始爬虫
二、引入模块
这里先看一下npm这个东西
npm就是Nodejs下的包管理器
- 允许用户从NPM服务器下载别人编写的第三方包到本地使用。
- 允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。
- 允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用
但是,npm的服务器位于国外可能会影响安装 所以淘宝团队做了国内镜像cnpm,与官方同步频率目前为 10分钟 一次以保证尽量与官方服务同步。
安装方法:
- 安装:命令提示符执行
npm install cnpm -g --registry=https://registry.npm.taobao.org
cnpm -v
来测试是否成功安装
通过改变地址来使用淘宝镜像
- npm的默认地址是
https://registry.npmjs.org/
- 可以使用
npm config get registry
查看npm的仓库地址 - 可以使用
npm config set registry https://registry.npm.taobao.org
来改变默认下载地址,达到可以不安装cnpm
就能采用淘宝镜像的目的,然后使用上面的get命令查看是否成功。
搞定之后 就可以用cnpm来下载需要的包
之后可以根据需要引入不同的包,在npm网站可以对包的用法进行查询
比如
获取网页内容(http\request\superagent等)
筛选网页信息(cheerio)
输出或存储信息(console\fs\mongodb\mysql等)
下面简单介绍几个
1.request来获取网页内容
var request = require('request');
// 通过 GET 请求来读取 http://cnodejs.org/ 的内容
request('https://nba.hupu.com/', function (error, response, body) {
if (!error && response.statusCode == 200) {
// 输出网页内容
console.log(body);
}
});
运行之后得到
利用chrome 右键 查看网页源代码 发现和上面是一样的