
Python爬虫
网络爬虫,数据获取,可视化……
風月长情
小舟从此逝,江海寄余生……
展开
-
解析库之XPath
文章目录一、介绍1.1 概念1.2 常用规则二、配置三、实例3.1 补全节点3.2 解析文本文件一、介绍1.1 概念 XPath全称XML Path Language,XML路径语言,在XML文档中查找信息,搜寻XML文档的,在爬虫时,可以使用XPath对相应信息提取。1.2 常用规则表达式描述nodename选取当前节点所有子节点/选当前节点直接子节点//选当前节点选子孙节点.选取当前节点. .选取当前节点的父节点@选取属性二原创 2020-06-01 09:14:10 · 329 阅读 · 0 评论 -
【实例】Python爬取猫眼排行(正则)
文章目录一、使用库二、爬取目标三、代码3.1 爬取到源代码3.2 正则提取内容一、使用库re 正则库requests HTTP库二、爬取目标猫眼排行限制,不加user-agent情况下爬取乱码三、代码3.1 爬取到源代码# _*_ coding:utf-8 _*_import requests# 定义一个get_one_page()方法,并传入url参数def get_one_page(url): headers = { 'User-Agent':'Mozilla/5原创 2020-05-29 09:02:25 · 957 阅读 · 0 评论 -
【实例】Python制作微信好友词云图
环境python 3.6.51.导入wordcloud & matplotlib & itchat & re & np & image模块from wordcloud import WordCloud,ImageColorGeneratorimport matplotlib.pyplot as pltimport itchat,re,...原创 2018-05-16 20:02:11 · 1161 阅读 · 2 评论 -
【实例】Python爬取CSND课程名
爬取优快云人工智能课程名1.导入urllib&re模块import urllib.request,re2.定义目标url变量csdn_url=”https://edu.youkuaiyun.com/courses/o5329/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD”3.探寻目标规律》》查看网页源代码 》》ctrl+f 搜索关键字 ...原创 2018-05-08 19:30:08 · 411 阅读 · 0 评论 -
【实例】Python爬取微信好友男女比例
环境python 3.6.51.导入itchat模块import itchat2.导入pyplot子库import matplotlib.pyplot as plt3.定义parse_friend循环,提取男女信息数据并存入text字典def parse_friens(): itchat.login() text = dict()...原创 2018-05-16 19:44:18 · 577 阅读 · 0 评论 -
【实例】Python爬取淘宝图片
一、分析规律第一页时第二页时s=48,第三页时s=96(每页为48的倍数)当q=外套时(q为关键字)用于每页图片的正则表达目标二、走起……导入请求、报错模块&正则表达式类库from urllib import request,errorimport re定义搜索词并将搜索词转码,防止报错key_name=request.q...原创 2018-05-11 11:04:14 · 13280 阅读 · 10 评论 -
HTTP库之Requests库
文章目录一、介绍二、基本用法2.1 抓取网页源码2.2 GET请求2.2.1 基本GET请求2.2.2 GET添加参数2.2.3 抓取二进制数据一、介绍 为了方便的实现Cookies、登录验证、代理设置,python的简易HTTP库,比urllib库方便。二、基本用法2.1 抓取网页源码输出Response对象的类型、状态码、响应体类型、cookies和内容import requestsr = requests.get('https://youkuaiyun.com')print(type(r)原创 2020-05-24 17:21:02 · 1086 阅读 · 0 评论 -
HTTP库之urllib库
文章目录一、介绍二、四大模块三、实例3.1 urlopen() 基本请求抓取网页源码查看返回类型读取返回状态码获取请求头信息3.1.1 data数值传递3.1.2 timeout超时A. 超时处理一、介绍 python2中分urllib、urllib2,python3中为urllib。 Python内置的HTTP请求库。二、四大模块request:打开URL(模拟发送请求,模拟浏览器打开阅读URL)error:异常处理,保证程序不会异常中止parse:解析URL(拆分、解析、合并等)r原创 2020-05-11 22:10:45 · 508 阅读 · 0 评论 -
爬虫的基本原理
一、爬虫概述网络爬虫(网页蜘蛛 / 网络机器人 / 网页追逐着 / 蚂蚁 / 自动索引 / 模拟程序 ),是一种按照一定的规则,自动爬取万维网信息的程序或者脚本,简单说就是获取网页并提取和保存信息的自动化程序。二、爬虫分类通用网络爬虫简介: 又称全网爬虫,从URL扩充到整个Web,主要为门户站点搜索引擎和大型web服务提供商采集数据,爬行范围和数量巨大,对爬行速度和存储空间要求较...原创 2019-03-18 10:24:44 · 1125 阅读 · 0 评论