
爬虫-python
飞鸟2010
这个作者很懒,什么都没留下…
展开
-
Python爬虫(1)——基于BeautifulSoup爬取豆瓣电影信息
本文主要用BeautifulSoup来爬取豆瓣Top电影信息。软件环境基于Anaconda3+python3.5 具体代码如下所示:# -*- coding: utf-8 -*-"""Created on Sun Mar 26 21:37:18 2017@author: zch"""import urllib.request import re from bs4 import Be原创 2017-03-26 21:56:14 · 3631 阅读 · 1 评论 -
pyhton微博爬虫(1)——获取知乎官方账号的微博数据
本文主要目标是获取新浪微博上知乎官方账号所发的微博内容信息。1. 分析网页通过仔细分析知乎官方账号页面信息(https://m.weibo.cn/u/1904769205),发现可以通过JSON方式获取微博数据。如下图所示:知乎官方账号的JSON链接为:https://m.weibo.cn/api/container/getIndex?type=uid&value=19047692原创 2017-08-01 22:03:49 · 2176 阅读 · 0 评论 -
pyhton微博爬虫(2)——获取微博用户关注列表
本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID、昵称、详情链接、粉丝数、关注数等关键信息。实现代码如下所示:# -*- coding: utf-8 -*-"""Created on Thu Aug 3 20:59:53 2017@author: Administrator"""import requestsimport jsonimport timeimport r原创 2017-08-04 00:54:33 · 10111 阅读 · 12 评论 -
pyhton爬虫(10)——通过亚马逊商品评论时间分析商品销量分布情况
本文以亚马逊rope bag商品为例,共采集到1989条商品评论时间数据,并选取15年1月——17年7月的1809条数据来绘制分月销量图。采集数据的python代码如下所示:# -*- coding: utf-8 -*-"""Created on Mon Jul 24 15:06:01 2017@author: Administrator"""import urllib.requestfro原创 2017-07-24 17:15:46 · 7115 阅读 · 3 评论 -
pyhton爬虫(12)——抓取携程酒店评论数据
本文主要目标是抓取携程酒店基本信息和用户评论数据。具体来说,酒店基本信息包括:酒店名、酒店星级、酒店最低房价、用户推荐比、酒店总评分等;用户评论数据包括:用户评论时间,用户评分,评论内容等。实现代码如下所示:# -*- coding: utf-8 -*-"""Created on Mon Aug 7 21:05:03 2017@author: Administrator"""import u原创 2017-08-07 22:24:58 · 20147 阅读 · 6 评论 -
pyhton微博爬虫(3)——获取微博评论数据
本文的主要目标是获取微博评论数据,具体包括微博评论链接、总评论数、用户ID、用户昵称、评论时间、评论内容、用户详情链接等。实现代码如下所示:# -*- coding: utf-8 -*-"""Created on Tue Aug 8 16:39:07 2017@author: Administrator"""import requestsfrom bs4 import Beautiful原创 2017-08-08 18:08:48 · 11686 阅读 · 5 评论 -
pyhton爬虫(11)——抓取亚马逊商品类别信息
本文主要提取亚马逊23个大类、254个小类的类别名称和链接,后面会在此基础之上进一步提取各个类别下的商品详情信息。实现代码如下所示:# -*- coding: utf-8 -*-"""Created on Mon Jul 31 15:48:24 2017@author: Administrator"""import urllib.requestfrom bs4 import Beautifu原创 2017-07-31 17:58:50 · 12791 阅读 · 2 评论 -
pyhton爬虫(9)——使用XPath提取网页信息
1. XPath基础1.1 什么是XPath?XPath 是一门在 XML 文档中查找信息(节点)的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。1.2 节点节点是XML文档中最小构成单位,一共有7种:(1)元素节点(element)(2)属性节点(attribute)(3)文本节点(text)(4)名称命名节点(namespace)(5)处理命令节点(processing-ins原创 2017-07-18 12:11:17 · 3395 阅读 · 0 评论 -
pyhton爬虫(8)——获取网易新闻内容
本文主要目的是获取网易新闻标题和正文内容。实现代码如下所示:# -*- coding: utf-8 -*-"""Created on Mon Jul 17 15:46:30 2017@author: Administrator"""from bs4 import BeautifulSoupimport urllib.requestimport http.cookiejar#url = '原创 2017-07-17 17:44:30 · 2575 阅读 · 0 评论 -
python爬虫(6)——获取天猫商品评论信息
本文以读取商品评论的json数据的方式来获取天猫商品评论,本文所采用的方法借鉴自知乎某大神,可以非常方便地爬取特定商品的评价信息,但操作时需要熟悉url中各参数的含义及获取方式。1.爬取天猫商品评论信息示例1.1 源代码如下所示:# -*- coding: utf-8 -*-"""Created on Thu Jul 6 19:56:32 2017@author: Administrator原创 2017-07-06 17:51:32 · 5189 阅读 · 2 评论 -
python爬虫(7)——获取京东商品评论信息
本文借鉴了之前爬取天猫商品评论的思想,先通过分析网页信息来定位京东加载商品评论信息JS页面,然后从中提取出想要的商品评论信息并存入MySQL数据库。1.分析网页信息本文在进行各项操作时同样以小米6为例,首先打开京东上小米6销量最高的某店铺,在火狐浏览器下按F12查看网页详细信息。在网络模式下定位加载商品评论信息的JS页面,找到文件名带ProductPageComment关键词,域名为club.jd.原创 2017-07-12 19:34:42 · 13009 阅读 · 3 评论 -
Python爬虫(3)——将维基百科词条导入MySQL
最近需要大量爬取数据,像之前那样存储在单个文件中已不合适,本文主要以维基百科为例,将爬取的词条数据导入到MySQL中。在用Python连接MySQL之前,需要先安装一个Python包pymsql。 在Anaconda中的安装过程如下图所示;1.Python连接MySQL数据库在正式开始之前,先介绍下Python连接MySQL的标准流程。在Python中将数据存储到MySQL的流程主要包括连接数据库原创 2017-05-05 11:16:02 · 1572 阅读 · 0 评论 -
Python爬虫(5)——获取京东手机图片
代码如下所示:# -*- coding: utf-8 -*-"""Created on Thu Jun 8 15:24:27 2017@author: zch"""import reimport urllib.requestdef craw(url,page): #获取网页源代码 html1 = urllib.request.urlopen(url).read()原创 2017-06-08 17:55:06 · 1403 阅读 · 0 评论 -
Python爬虫(4)——获取优快云链接
代码如下所示:# -*- coding: utf-8 -*-"""Created on Sun Jun 4 20:26:06 2017@author: zch"""#爬取页面链接import reimport urllib.requestdef getlink(url): #模拟浏览器 headers = ("User-Agent","Mozilla/5.0 (Wind原创 2017-06-04 22:26:11 · 781 阅读 · 0 评论 -
Python数据采集之PhantomJS
之前介绍的BeautifulSoup和requests,主要针对静态网页对象,当遇到包含JavaScript代码的动态页面时,可以用PhantomJS来爬取网页数据。1.PhantomJS简介2.测试测试代码如下所示:# -*- coding: utf-8 -*-"""Created on Wed May 17 21:36:29 2017@author: Administrator"""fro原创 2017-05-17 22:10:37 · 662 阅读 · 0 评论 -
Python爬虫(2)——爬取微博内容
本文通过一种简单的方式来抓取华为终端官方微博的内容信息。首先抓取登录微博的cookie,然后使用cookie来登录微博。 具体的代码如下所示:# -*- coding: utf-8 -*-"""Created on Sun Apr 16 14:16:32 2017@author: zch"""import requestsfrom bs4 import BeautifulSoupimp原创 2017-04-16 15:09:51 · 1738 阅读 · 0 评论 -
Python爬虫(13)——根据地址获取经纬度并进行Geohash编码
本文主要介绍一下通过高德地图API接口,将指定的标准化地址转换成对应的经纬度,并进行Geohash编码。首先,在高德开放平台(https://lbs.amap.com/api/webservice/guide/api/georegeo)申请key然后,可以根据(https://lbs.amap.com/api/webservice/guide/api/georegeo)里的格式调用高德地图...原创 2018-12-04 18:50:21 · 5095 阅读 · 0 评论