
爬虫
binarywz
Java
展开
-
爬取豆瓣图书Top250书籍信息
小白一个,接触Python一个多月了,自己感觉最有趣的莫过于利用Python进行网络爬虫,原来都是看着别人的博客把代码抄一遍,今天时间稍微多一些,自己写了一个小爬虫,从分析网页源代码开始,一步步对代码进行设计与完善,捣腾了一中午,终于算是成功了,心情还是蛮激动。下面把代码跟大家分享一下。豆瓣图书Top250网址:https://book.douban.com/top2501、首先打开Google浏览原创 2017-04-04 15:18:27 · 3484 阅读 · 1 评论 -
爬取猫眼电影榜单Top100
废话不多说,直接上代码import jsonimport requestsfrom requests.exceptions import RequestExceptionimport redef get_one_page(url): try: response = requests.get(url) if response.status_code ==原创 2017-04-05 16:49:54 · 4248 阅读 · 1 评论 -
分析Ajax请求抓取今日头条街拍美图
有一些网页直接请求得到的HTML代码并没有在网页中看到的内容,因为一些信息是通过Ajax加载,并通过js渲染生成的,这时就需要通过分析网页的请求来获取想要爬取的内容。通过抓取今日头条街拍美图讲解一下具体操作步骤。首先打开今日头条网页,搜索街拍选择图集,抓取组图 使用开发人员工具,查看网页html代码发现并没有想要的内容信息,接下来查看Ajax请求,注意我拿红圈圈出来的地方 查看Ajax请求url原创 2017-04-20 16:18:14 · 3446 阅读 · 1 评论 -
爬取虎扑NBA球员常规赛各项数据存储至MongoDB
博主平时没事喜欢看球赛,十几年的詹密,五一放假(五一表示十天假期)在家闲着没事爬爬本赛季NBA球员常规赛数据。虎扑还是比较友好,页面比较简单,使用requests库和正则表达式就可以完成爬取了,哈哈。首先看看要爬取哪些数据找到数据在哪些标签里面查看一共收录了几页的球员数据代码#spider程序import reimport requestsfrom requests.exceptions im原创 2017-05-04 11:46:44 · 2371 阅读 · 0 评论 -
使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟点击、输入和下拉等多种功能,这样我们只需关心操作,不需要关心后台发生了怎么样的请求下面对具体操作步骤进行详述。创建webdriver对象#创建一个WebDriver对象from Selenium import webdriverbrow原创 2017-05-01 08:43:30 · 3771 阅读 · 2 评论