
网络爬虫
Python654
这个作者很懒,什么都没留下…
展开
-
为哄女朋友开心,我用Python把各大菜谱信息都给抓取出来了(看看我是怎么做到的)
前言:在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择。下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧,包含种类很多。今天教大家去爬取下厨房的菜谱 ,保存在world文档,方便日后制作自己的小菜谱。一、项目目的获取菜谱,并批量把菜 名、 原 料 、下 载 链 接 、下载保存在world文档。二、项目准备软件:PyCharm需要的库:requests、lxml、fake_useragent、time网站如下:https://www.xiachuf原创 2020-06-17 11:48:28 · 440 阅读 · 0 评论 -
教你一招不用Python以及客户端也能轻松下载音乐视频(收藏篇)
前言今天要跟大家分享一些非常实用的技巧,不涉及到代码。当然你若是想把这些实现的步骤简化的话,用代码当然是最好的了。今天的目的很简单,就是在不用安装客户端的情况下把酷我音乐里的音乐下载下来。一、涉及的工具1、360浏览器、谷歌浏览器等。二、方法一1、打开浏览器,并输入酷我音乐,来到酷我听歌页面。2、输入我平时最喜欢听的歌 just like this ,得到如下图。3、我们都知道,当我们在网上听歌的时候,想要把它保存下来的话了,他会弹出个对话框,诸如下图这样。很显然原创 2020-06-15 16:50:11 · 558 阅读 · 0 评论 -
三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)
一、项目背景豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。今天小编以电视剧(美剧)为例,批量爬取对应的电影,写入csv文档 。用户可以通过评分,更好的选择自己想要的电影。二、项目目的获取对应的电影名称,评分,详情链接,下载 电影的图片,保存文档。三、涉及的库和网站1、网址如下:https://movie.douban.com/j/search_subjects?type=tv&原创 2020-06-13 15:36:35 · 5039 阅读 · 1 评论 -
Python学会这一招让你穷游全世界(驴友必备)
前言:穷游,是一种时尚的旅游方式。在自由旅行的同时,最大限度地省钱,花最少的钱享受最大的快乐。不是为穷而穷,而是一种不同以往的行走方式。和“有钱”“没钱”无关,只是想要用最经济的方式去“穷”尽天下美景。今天小编就给大家分享一下如何利用Python网络爬虫获取属于你的穷游攻略秘籍~~~一、项目背景穷游网提供原创实用的出境游旅行指南、攻略,旅行社区和问答交流平台,以及智能的旅行规划解决方案,同时提供签证、保险、机票、酒店预订、租车等在线增值服务。穷游“鼓励和帮助中国旅行者以自己的视角和方式体验世原创 2020-06-09 11:51:27 · 573 阅读 · 2 评论 -
想学爬虫的同学看过来,手把手教你利用Python网络爬虫获取APP推广信息
一、前言CPA之家app推广平台是国内很大的推广平台。该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析。二、项目目的实现将获取到的QQ,导入excel模板,并生成独立的excel文档。三、项目分析——反爬措施处理前期测试时发现,该网站反爬虫处理措施很多,测试到有以下几个:1. 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。2. 同一个ip连续访问40多次,直接封掉ip,起初我的ip就是这样被封掉的。为了解决这两个问题,最后经过原创 2020-06-08 10:17:06 · 896 阅读 · 0 评论 -
自学三个月的我,利用Python爬虫获取精美素材图片,看看我是怎么做到的(实战篇)
一、项目背景在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片。二、项目目标1、根据给定的网址获取网页源代码。2、利用正则表达式把源代码中的图片地址过滤出来。3、过滤出来的图片地址下载素材图片。三、涉及的库和网站1、网址如下:https://www.51miz.com/2、涉及的库:requests、lxml四、项目分析首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮,观察到网站的变原创 2020-06-05 11:04:12 · 991 阅读 · 0 评论 -
IT宅男利用Python网络爬虫获取Mikan动漫资源(属于宅男的快乐)
一、项目背景[蜜柑计划 - Mikan Project] :新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。二、项目目标实现获取动漫种子链接,并下载保存在文档。三、涉及的库和网站1、网址如下:https://mikanani.me/Home/Classic/{}2、涉及的库:requests、lxml、fake_useragent3、软件:PyCharm四、项目分析首先需要解原创 2020-06-02 17:10:18 · 6407 阅读 · 0 评论 -
一招教你利用Python网络爬虫获取链家网的房产信息(干货)
前言:随着人们生活方式的的提高,房子成为了我们必不可少的一部分。而网上的信息太过于复杂,为了了解最近房价的变化趋势。小编以链家这个网站为例,抓取房价的信息。一、项目目标实现将获取到的房子的名字、价格、房子的关注度,导入Word模板,并生成独立的Word文档。二、涉及的库和网站先列出网址,如下所示。网址:https://bj.lianjia.com/ershoufang/pg1/("bj"北京的缩写)库:requests、time 、lxml三、具体分析如何对下.原创 2020-06-01 18:09:49 · 2373 阅读 · 0 评论 -
Python多线程获取小米应用商店App,看看我是怎么做到的(干货篇)
一、【项目背景】小米应用商店给用户发现最好的安卓应用和游戏,安全可靠,可是要下载东西要一个一个的搜索太麻烦了。而且速度并不是很快。今天小编就教大家利用多线程爬取小米应用商店的游戏模块,快速获取我们想要的软件安装包。二、【项目目标】目标 :应用分类 - 聊天社交 应用名称, 应用链接,显示在控制台供用户下载。三、【涉及的库和网站】1、网址:百度搜 - 小米应用商店,进入官网。2、涉及的库:requests、threading 、queue 、json、time3、软件:Py原创 2020-05-28 16:59:11 · 778 阅读 · 0 评论 -
IT宅男利用Python网络爬虫获取有道翻译手机版翻译接口
【一、项目背景】有道翻译作为国内最大的翻译软件之一,用户量巨大。在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选。今天教大家如何去获取有道翻译手机版的翻译接口。【二、项目目标】多国语言的翻译,可以翻译词语或者句子。【三、涉及的库和网站】1、网址如下:http://m.youdao.com/translate2、涉及的库:requests、lxml3、软件:PyCharm2、涉及的库:requests、lxml3、软件:PyCharm【四、项目分.原创 2020-05-20 17:55:12 · 647 阅读 · 0 评论 -
IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)
【一、项目背景】百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢?今天,小编带大家通过搜索关键字来获取评论区的图片和视频。【二、项目目标】实现把贴吧获取的图片或视频保存在一个文件。【三、涉及的库和网站】1、网址如下:https://tieba.baidu.com/f?ie=utf-8&kw=吴京&fr=search2、涉及的库:requests、lxml、urrilb【四、项目分析】原创 2020-05-16 14:40:08 · 3440 阅读 · 0 评论 -
大学四年毕业季我用Python写了一个论文降重工具(希望能帮助到学弟学妹)
前言:时值毕业季,有不少小伙伴深受论文查重的困扰。因此我便想到做一个简单的自动去重的工具,先看看效果,我们再对原理或是代码实现做进一步的分析。首先需要输入appid以及key,这些可以在百度翻译开放平台申请一个账号,可以免费申请一个账号。接着将需要进行降重的文本内容复制到相应的输入框内,点击开始按钮,即可输出不同但意思相近的语句,即达到降重去重的作用。点击复制按钮便可以将得到的新文本复制到剪贴板上,点击清楚按钮可以重新输入需要降重的文本,并且循环往复地进行。去重原理论文查重的粒度是句子,原创 2020-05-15 15:11:38 · 2615 阅读 · 2 评论 -
python多种读写excel等数据文件的方式(收藏篇)
前言:python处理数据文件的途径有很多种,可以操作的文件类型主要包括文本文件(csv、txt、json等)、excel文件、数据库文件、api等其他数据文件。下面小编整理下python到底有哪些方式可以读写数据文件。1. read、readline、readlinesread() :一次性读取整个文件内容。推荐使用read(size)方法,size越大运行时间越长readline() :每次读取一行内容。内存不够时使用,一般不太用readlines() :一次性读取整个文件原创 2020-05-14 15:38:59 · 3417 阅读 · 0 评论 -
Python中最基础的数据类型(List,Tuple,Dict)及用法简析(收藏篇)
前言上次咱们简单的认识了String,Number,这次简单聊聊剩下的几个数据类型(列表,元组,字典)...Python中最基本的函数及其常用用法简析(新手必备)小本本记起来列表首先List是有[]包括的,每个元素用(逗号)隔开,List中可以嵌套任何数据类型,数据类型可以相互嵌套(set除外)如:# 定义一个列表li = ['a', 1, True, ('b', 'c',), [1, 2, 3], {'name': '咸鱼'}, {1, 2}]# 遍历for i in li原创 2020-05-13 17:08:27 · 303 阅读 · 0 评论 -
涨!涨!涨!2020年Python开发工程师薪资再次刷出新高度(你确定你不来了解下)
前言:闻名的TIOBE排行榜刚刚发布今年最新的编程言语排名榜。TIOBE编程社区索引是编程言语评价的一个指标,该指数每月更新一次。小伙伴们赶忙看看下面的排名情况吧!编程语言排行榜(TOP20)TIOBE编程社区指数是流行编程语言的一个指标,可以作为编程语言是选择依据。索引每月更新一次。该评级是基于世界各地熟练工程师的数量,课程和第三方供应商。通过上表,我们可以很明显的看到Python语言的排名呈现出上升的趋势,相信小伙伴们已经看到了目前AI的开展力度了,随着人工智能时代的降临, Python原创 2020-05-12 09:59:09 · 482 阅读 · 0 评论 -
看完就学会系列,小小一篇文章教会你利用Python网络爬虫抓取王者荣耀图片(建议收藏)
【一、项目背景】王者荣耀作为当下最火的游戏之一,里面的人物信息更是惟妙惟肖,但受到官网的限制,想下载一张高清的图片很难。(图片有版权)。以彼岸桌面这个网站为例,爬取王者荣耀图片的信息。【二、项目目标】实现将获取到的图片批量下载。【三、涉及的库和网站】1、网址如下:http://www.netbian.com/s/wangzherongyao/index.htm/2、涉及的库:requests、lxml【四、项目分析】首先需要解决如何对下一页的网址进行请求的问题。原创 2020-05-10 11:55:25 · 531 阅读 · 0 评论 -
Python中最基本的函数及其常用用法简析(新手必备)小本本记起来
前言:什么是函数?函数是为了达到某种目的而采取的行为,函数是可重复使用的,用来实现某个单一功能或者功能片段的代码块,简单来说就是由一系列的程序语句组成的程序段落。函数存在的意义:1. 提高代码的复用性 2. 将复杂的逻辑简单化,分功能化函数定义:小知识 : []表示可选 <>表示必备函数名字最好能直接表示该函数的功能,多个单词之间用_链接<def...原创 2020-05-08 17:14:38 · 701 阅读 · 0 评论 -
python3使用requests抓取信息时遇到304状态码的应对方法
接触过网络爬虫的小伙伴们应该都知道requests库,这个是一个非常实用,而且容易上手的爬虫库,相比于Python自带的urllib库来说,这个requests库真的非常讨人喜欢,小编也非常的喜欢用它。但是最近在网络爬虫的过程中,发现一个让人头大的问题。Python3使用requests 抓取信息时遇到304状态码。。。这有些让我摸不着头脑,从返回的状态码来看,应该抓取的内容没有抓取到,查...原创 2020-05-07 17:43:11 · 2647 阅读 · 0 评论 -
程序员利用Python定时抓取微博评论
【Part1——理论篇】试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口,如下图所示。但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,...原创 2020-05-06 18:27:24 · 565 阅读 · 0 评论 -
小学生都能学会的Python基础语法——代码规范&判断语句&循环语句
前言:Python 语言与 Perl,C 和 Java 等语言有许多相似之处。但是,也存在一些差异,在本章中我们将来学习 Python 的基础语法,让你快速学会 Python 编程。一、代码的执行顺序从上到下 从左到右二、代码规范模块名,包名,普通数据量一般小写字母,多个单词之间用 _ 连接 不要用系统定义的名称,具有特殊意义的表示符,如:doc,txt之类的 每行代码不易...原创 2020-05-05 14:47:38 · 777 阅读 · 0 评论 -
代码女神利用Python网络爬虫爬取淘宝评论区数据(用小本本记下来)
【一、项目简介】本文主要目标是采集淘宝的评价,找出客户所需要的功能。统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等。【二、项目准备工作】1. 准备Pycharm,下载安装等,可以参考这篇文章:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程2. 爬取商品地址,如下所示:https://detail.tmall.com/item.h...原创 2020-05-04 13:33:07 · 5322 阅读 · 4 评论