- 博客(1)
- 收藏
- 关注
原创 Web期末项目作业
每个爬虫的结构都是:1. 引入包 2. 正则和选择器 3. request函数,用于向网页发送请求,接收响应信息 4. seedGet函数,爬取种子页面上每篇文章的url,并判断是否与数据库中已有的url冲突 5. newsGet函数,根据url访问子页面,爬取需要的信息。另外,使用schedule模块定时执行。可以看到,目前爬取了2000多条新闻信息。前端使用vue来实现。下面我介绍一下使用的组件。
2023-07-15 22:02:15
598
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人