
爬虫
文章平均质量分 80
weixin_36605200
这个作者很懒,什么都没留下…
展开
-
python爬虫实战--爬取猫眼专业版-实时票房
小白级别的爬虫入门最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件。爬虫开始之前我们先来看看猫眼专业版-实时票房这个网页,看看我们要爬取的数据,分析网页的结构和查看源码。(1)网页链接:https://piaofang.maoyan.com/dashboard(2)爬取的数据:红框框里面的...原创 2018-08-13 08:36:00 · 23873 阅读 · 21 评论 -
python爬虫----汽车之家的汽车论坛的最新精华帖
模块import requests---网页请求 import re---正则表达式 from bs4 import BeautifulSoup as bs---节点处理抓取的内容这次主要抓取汽车之家的汽车论坛里面的最新精华帖的内容,具体抓取帖子文字。url:https://club.autohome.com.cn/bbs/thread/71c8ec6ecd2ea90b/781079...原创 2018-12-16 00:35:11 · 1656 阅读 · 0 评论 -
python爬虫----猫眼电影:最受期待榜
看一下猫眼的最受期待榜,了解大家都在期待什么样的电影,所以抓取数据来汇总。模块requests--->用于请求 re---->正则表达式的使用 os---->用于处理目录 csv---->用于csv文件的读写 bs4---->获取网页响应的节点信息 pandas--->读取csv文件 pyecharts import Line---->...原创 2018-12-09 18:42:41 · 1109 阅读 · 0 评论 -
Python---喜马拉雅fm的音频爬取
前言眼睛看惯了文字,累了 ,转而用耳朵去聆听这世界。喜马拉雅FM,这里有我们想听的,用爬虫去抓取我们想要的音频!这次要抓取的是关于旅游篇当中的玩转西藏【旅游攻略】,去感受高原的风土人情,废话并不多说啦。环境win10+python3.7+sublime text导包import requests---->网页的请求和数据抓取import json--->数据格式...原创 2018-10-19 23:13:34 · 2337 阅读 · 0 评论 -
python爬虫----全国天气预报的获取
这次是通过全国天气预报的网站去抓取实时天气和预测未来24小时的天气,抓取的数据包括:地区的区号、地区名称、实时气温、湿度、风向、风力、预测的最高温和最低温、晚间风向、日间的风向和各自的风力大小,把这些数据存储到mysql的数据库当中,并利用pygal库来对数据进行可视化操作。抓取的网页通过分析可以看到一个数据的接口,可以获取全国的地区码,或者点击地图上的区域也能找到 http://fo...原创 2018-09-24 21:57:11 · 4396 阅读 · 26 评论 -
python爬虫实战---网易云音乐评论抓取
本文主要是提取网易云音乐中歌曲的评论时间、评论者昵称、评论内容,并把数据写进csv文件里面,读取文件里面存储的评论内容,根据指定的背景图制作词云,抓取目标https://music.163.com/#/song?id=1299557768,2018年八月最热新歌TOP50中的Animal歌曲。引言网易云大厂一般都对自己的数据做了很好的加密,一般直接爬取都爬取不到数据,这也是爬取当中一个很头...原创 2018-09-02 20:17:14 · 16777 阅读 · 6 评论 -
python爬虫实战---微信好友的获取
本次主要对微信好友的信息获取,包括微信备注名称、省份、城市、个性签名、性别,对其中的个性签名就行词云的制作和对性别的统计。由于微信好友城市分布不多,主要都是集中在一个地区,所以就做地区分布图也没有什么意义;数据存储到mysql当中。导入包from wxpy import Bot---微信机器人from PIL import Image---图片处理from wordcloud im...原创 2018-09-07 19:52:15 · 969 阅读 · 0 评论 -
python爬虫实战---豆瓣电影top250的电影信息抓取
本文主要抓取豆瓣电影top250榜单里面的电影数据,提取的数据包括电影名称、电影的链接、电影的星级、电影引言、电影的评论 人数等。导入包from bs4 import BeautifulSoup as bs---进行网页解析import requests---用于网页请求import time---用于延长时间,防止过于快速抓取数据,封ipimport re---正则表达式使用...原创 2018-09-01 23:10:44 · 5279 阅读 · 2 评论 -
python爬虫实战---今日头条的图片抓取
本文是主要在今日头条里面的以“街拍路人”为搜索条件去提取网页的图片和标题,并把标题当做文件夹的名称,创建该文件夹,把图片保存到相应的文件夹下。导入库from urllib.parse import urlencode---把字典里面的数据拼接成如下字符串格式:urlencode()的方法接受参数形式为:[(key1,value),(key2,value2),.....]或者可以是字典的...原创 2018-09-01 15:18:10 · 2226 阅读 · 0 评论 -
python爬虫实战---猫眼电影:西虹市首富的评论抓取
本文旨在抓取电影的评论,包括电影评论者的昵称、来自的城市、评论内容、评分以及评论的时间,并将这些内容抓取下来保存到txt文本里面,并对其中的评论内容去重,并生成词云。导入库from urllib.error import HTTPError,URLError---异常处理from collections import defaultdict---创建列表from wordcloud i...原创 2018-08-22 08:10:38 · 2618 阅读 · 3 评论 -
python实战---猫眼榜单:TOP100榜
本文将爬取猫眼电影的榜单里面的TOP100榜单,爬取的数据包括电影名称、链接、评分和上映时间,数据将保存到txt文件里面去,TOP100榜的url:http://maoyan.com/board/4?offset=0导入库BeautifulSoup---解析网页 urlopen---获取网页源码 HTTPError、URLError---异常处理 pygal---数据可视化的处理提...原创 2018-08-16 08:42:06 · 1423 阅读 · 0 评论 -
python爬虫---酷安(安卓app的聚集地)
酷安最近app用荒了,想要看看有些哪些好玩的app可以安装下来玩玩,酷安就是安卓应用的聚集地网页内容模块import requests--网页请求import time--延时import traceback--输出异常from multiprocessing import Pool--多进程from lxml import etree--解析数据from pymysql i...原创 2019-06-08 13:37:16 · 4024 阅读 · 2 评论