自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 实验2动态渲染网页的内容抓取

实验2动态渲染网页的内容抓取 一 实验目的 掌握使用Scrapy爬虫工具编写爬虫程序的基本思路; 掌握抓取列表+详情+AJAX的动态组合页面的方法 二 实验要求 抓取目标。可以选择以下网站作为抓取目标,也可以寻找自己感兴趣的抓取目标: 1)“京东商城”中某一类产品,如手机类产品页面入口为:http://list.jd.com/list.html?cat=9987,653,655,笔记本电脑类产品页面入口为:https://list.jd.com/list.html?cat=670,671,672。产品

2021-11-10 09:00:32 895

原创 数据采集实验-爬取李开复博客并保存在csv和mongodb中

文章目录实验目的实验要求实验程序及运行结果实验内容概述代码解说翻页:通过回调函数实现翻页。显示页数:利用response.xpath获得当前页数。爬取目录页:标题、时间、链接。爬取动态数据:阅读数,喜欢数,评论数,转发数,收藏数。爬取详情页:标题,时间,分类,标签。处理时间和标题数据:def chuli(item)。数据存入csv和mongodb:不同item存入不同文件、表。绘制进度条:利用sys绘制(伪)进度条。运行结果:控制台csv文件mongodb数据库实验总结实验中遇到的部分错误与解决方法:py.

2021-11-04 22:25:25 1287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除