风义-优快云博客

原创实验2动态渲染网页的内容抓取

实验2动态渲染网页的内容抓取一实验目的掌握使用Scrapy爬虫工具编写爬虫程序的基本思路；掌握抓取列表+详情+AJAX的动态组合页面的方法二实验要求抓取目标。可以选择以下网站作为抓取目标，也可以寻找自己感兴趣的抓取目标： 1）“京东商城”中某一类产品，如手机类产品页面入口为：http://list.jd.com/list.html?cat=9987,653,655，笔记本电脑类产品页面入口为：https://list.jd.com/list.html?cat=670,671,672。产品

2021-11-10 09:00:32 895

原创数据采集实验-爬取李开复博客并保存在csv和mongodb中

文章目录实验目的实验要求实验程序及运行结果实验内容概述代码解说翻页：通过回调函数实现翻页。显示页数：利用response.xpath获得当前页数。爬取目录页：标题、时间、链接。爬取动态数据：阅读数，喜欢数，评论数，转发数，收藏数。爬取详情页：标题,时间,分类,标签。处理时间和标题数据：def chuli(item)。数据存入csv和mongodb：不同item存入不同文件、表。绘制进度条：利用sys绘制（伪）进度条。运行结果：控制台csv文件mongodb数据库实验总结实验中遇到的部分错误与解决方法：py.

2021-11-04 22:25:25 1287

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 实验2动态渲染网页的内容抓取

原创 数据采集实验-爬取李开复博客并保存在csv和mongodb中

空空如也

空空如也

原创实验2动态渲染网页的内容抓取

原创数据采集实验-爬取李开复博客并保存在csv和mongodb中