
Crawl
文章平均质量分 74
Python网络爬虫
北山啦
这个作者很懒,什么都没留下…
展开
-
Python疫情数据获取与可视化展示
使用Python爬取腾讯新闻疫情数据,并使用pyecharts可视化,绘制国内、国际日增长人数地图,matplotlib绘制方寸图。同时代码是在notebook中完成,随笔记录所的所学,此博客为我记录文章所用,发布到此,仅供网友阅读参考。作者:北山啦写在前面:这个已经不是什么新鲜的话题了,所以请大佬勿喷。原创 2021-03-19 22:31:19 · 29984 阅读 · 56 评论 -
Python爬取糗事百科段子
Python爬取糗事百科数据存入txt糗事百科是一个原创的糗事笑话分享社区,糗百网友分享的搞笑段子,使用Python爬取段子存入txt文件import requestsimport refrom fake_useragent import UserAgentheaders= {'User-Agent':str(UserAgent().random)}info_lists = []def judgment_sex(class_name): if class_name == 'wome原创 2021-03-05 14:05:33 · 3932 阅读 · 4 评论 -
Ajax爬取百度图片
Python爬取百度图片# -*- coding: utf-8 -*-"""Created on Sat Jan 5 01:38:24 2021@author: kun"""import timeimport requestsimport jsonimport urllibheaders = {'Accept': 'text/plain, */*; q=0.01', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; .原创 2021-01-05 13:04:56 · 2634 阅读 · 0 评论 -
BeautifulSoup爬取豆瓣电影Top250
任务要求:爬取豆瓣电影Top250的电影名、评分、短评、评分人数等信息通过博客对beautifulSoup4的简单介绍,现在开始实战啦,没有看过的,可以先看看Python网络爬虫基础–BeautifulSoup使用selenium定位获取标签对象并提取数据利用selenium爬取数据总结直接上代码# -*- coding: utf-8 -*-"""Created on Mon Dec 22 12:03:06 2020@author: kun"""import r.原创 2020-12-22 11:31:19 · 5553 阅读 · 2 评论 -
APP爬虫--appium提取数据
利用appium自动控制移动设备并提取数据学习目标了解 appium-python-client模块定位元素以及提取其文本内容的方法了解 appium-python-client模块控制滑动动作的方法以控制抖音app滑动并获取抖音短视频发布者昵称和点赞数等信息为例2.1 安装appium-python-client模块并启动已安装好的环境2.1.1 安装appium-python-client模块在window的虚拟环境下执行pip install appium-python-cli原创 2021-01-26 22:43:14 · 4859 阅读 · 0 评论 -
APP爬虫--appium环境安装
appium环境安装学习目标了解 appium环境的搭建2.1 环境安装以win10为例2.1.1 安装node.js点击进入 https://nodejs.org/zh-cn/点击下载安装包双击安装包,然后同样一路狂点下一步安装完成后在cmd终端中输入 node -v,显示版本号则表示安装成功2.1.2 安装java JDK点击进入官网下载页面 https://www.oracle.com/technetwork/java/javase/downloads/jd原创 2021-01-14 16:19:18 · 2748 阅读 · 0 评论 -
使用python中you-get库下载你要的视频
Python下你所想you-get介绍介绍一个超好用的程序,You-Get 。官方网址文章目录Python下你所想you-get介绍简单介绍安装you-get安装方法升级下载视频-i:查看画质与格式CTRL+C:暂停与恢复-o:设置输出文件名或路径下载其他内容简单介绍You-Get是一个小型的命令行实用程序,用于从Web下载媒体内容(视频,音频,图像),以防没有其他方便的方法。you-get之功用:于您心仪的媒体播放器中观看在线视频,脱离浏览器与广告下载您喜欢的网页上的图片 下载任何原创 2021-01-29 13:27:58 · 12545 阅读 · 7 评论 -
Scrapy框架的使用
Python爬虫入门之 Scrapy框架的使用Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 [1]支持自定义,方便,好用。异步的,,速度嗖嗖嗖的!!!异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架Scrapy中文文档常用命令:方法描述scrapy startproject scrapydemo创建一个名为 sc原创 2021-01-27 17:58:05 · 3242 阅读 · 0 评论 -
Python爬虫之数据存储
Python数据存储数据爬取后,如何存储呢,本文将讲解数据存储到excel、txt、数据库的常用操作结果展示这里的结果是直接print出来,如何持久化存储呢for title,actor,time,score,count,comment in zip(titles,actors,times,scores,counts,comments): actor = actor.strip() time = time.strip().split()[0] print(title,原创 2021-01-05 11:55:46 · 2599 阅读 · 0 评论 -
Python爬虫入门
Python爬虫入门之 初识爬虫简单介绍Python爬虫相关的知识文章目录Python爬虫入门之 初识爬虫1. 什么是爬虫?2. requests的基本使用2.1 你的第一个爬虫程序2.2 headers请求头的重要性3. 案例:豆瓣电影`Top250`数据请求4. 网页解析推荐阅读:使用xpath爬取数据jupyter notebook使用BeautifulSoup爬取豆瓣电影Top250一篇文章带你掌握requests模块Python网络爬虫基础–BeautifulSoup原创 2020-12-31 10:52:48 · 2142 阅读 · 0 评论 -
使用xpath爬取数据
使用xpath来提取数据,爬取数据的简单语法。下载模块快速下载模块pip install lxml 导入模块 from lxml import etreeetree的使用 h=etree.HTML(response.text)#response.text是网页的源码h.xpath('//img') #寻找所有的img结点,h.xpath('//div').xpath('.//img')#寻找所有div下的所有img结点xpath的语法 符号 XPath 使用路径表达式在.原创 2020-12-30 23:21:45 · 9531 阅读 · 0 评论 -
JS的解析
JS的解析学习目标:了解 定位js的方法了解 添加断点观察js的执行过程的方法应用 js2py获取js的方法1 确定js的位置对于前面人人网的案例,我们知道了url地址中有部分参数,但是参数是如何生成的呢?毫无疑问,参数肯定是js生成的,那么如何获取这些参数的规律呢?通过下面的学习来了解1.1 观察按钮的绑定js事件通过点击按钮,然后点击Event Listener,部分网站可以找到绑定的事件,对应的,只需要点击即可跳转到js的位置1.2 通过search all file 来搜原创 2020-12-30 15:32:27 · 2177 阅读 · 0 评论 -
Scrapy从入门到放弃6--scrapy_redis概念作用和流程
scrapy_redis概念作用和流程学习目标了解 分布式的概念及特点了解 scarpy_redis的概念了解 scrapy_redis的作用了解 scrapy_redis的工作流程在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据1. 分布式是什么简单的说 分布式就是不同的节点(服务器,ip不同)共同完成一个任务2. scrapy_redis的概念scrapy_redis是scrapy框架的原创 2020-12-30 15:29:57 · 1484 阅读 · 0 评论 -
Scrapy从入门到放弃5--中间件的使用
scrapy中间件的使用学习目标:应用 scrapy中使用间件使用随机UA的方法应用 scrapy中使用代理ip的的方法应用 scrapy与selenium配合使用1. scrapy中间件的分类和作用1.1 scrapy中间件的分类根据scrapy运行流程中所在位置不同分为:下载中间件爬虫中间件1.2 scrapy中间的作用:预处理request和response对象对header以及cookie进行更换和处理使用代理ip等对请求进行定制化操作,但在scrapy默认原创 2020-12-30 15:12:40 · 1571 阅读 · 0 评论 -
Scrapy从入门到放弃4--管道pipelines使用
Scrapy管道的使用学习目标:掌握 scrapy管道(pipelines.py)的使用之前我们在scrapy入门使用一节中学习了管道的基本使用,接下来我们深入的学习scrapy管道的使用1. pipeline中常用的方法:process_item(self,item,spider):管道类中必须有的函数实现对item数据的处理必须return itemopen_spider(self, spider): 在爬虫开启的时候仅执行一次close_spider(self,原创 2020-12-30 15:11:35 · 1581 阅读 · 0 评论 -
Scrapy从入门到放弃3--数据建模与请求
scrapy数据建模与请求学习目标:应用 在scrapy项目中进行建模应用 构造Request对象,并发送请求应用 利用meta参数在不同的解析函数中传递数据1. 数据建模通常在做项目的过程中,在items.py中进行数据建模1.1 为什么建模定义item即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查配合注释一起可以清晰的知道要抓取哪些字段,没有定义的字段不能抓取,在目标字段少的时候可以使用字典代替使用scrapy的一些特定组件需要Item原创 2020-12-30 15:10:19 · 1454 阅读 · 0 评论 -
Scrapy从入门到放弃2--模拟登入
scrapy模拟登陆学习目标:应用 请求对象cookies参数的使用了解 start_requests函数的作用应用 构造并发送post请求1. 回顾之前的模拟登陆的方法1.1 requests模块是如何实现模拟登陆的?直接携带cookies请求页面找url地址,发送post请求存储cookie1.2 selenium是如何模拟登陆的?找到对应的input标签,输入文本点击登陆1.3 scrapy的模拟登陆直接携带cookies找url地址,发送post请求存储co原创 2020-12-30 15:07:58 · 1414 阅读 · 0 评论 -
selenium总结
selenium提取数据总结附思维导图1. driver对象的常用属性和方法在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码driver.current_url 当前标签页的urldriver.close() 关闭当前标签页,如果只有一个标签页则关闭整个浏览器driver.quit() 关闭浏览器driver.forward() 页面前进driver.back()原创 2020-12-24 16:29:27 · 1572 阅读 · 2 评论 -
Scrapy从入门到放弃1--开发流程
scrapy的入门使用学习目标:掌握 scrapy的安装应用 创建scrapy的项目应用 创建scrapy爬虫应用 运行scrapy爬虫应用 scrapy定位以及提取数据或属性值的方法掌握 response响应对象的常用属性1 安装scrapy命令: sudo apt-get install scrapy或者: pip/pip3 install scrapy2 scrapy项目开发流程创建项目: scrapy startproject mySpider原创 2020-12-23 22:40:32 · 1607 阅读 · 0 评论 -
使用selenium爬取京东商品信息
任务要求:用selenium爬取京东商城某一款华为手机的评论,要求至少爬取2000条用户名和用户评论,网址为https://www.jd.com/,将这些信息存入Excel文件中,文件后缀为.csv。将ipynb文件和后缀为.csv的文件压缩打包通过博客对selenium的简单介绍,现在开始实战啦,没有看过的,可以先看看使用selenium定位获取标签对象并提取数据利用selenium爬取数据总结直接上代码"""Created on Thu Dec 10 14:15:14 20.原创 2020-12-21 20:15:22 · 1895 阅读 · 0 评论 -
Python常见的反爬手段和反反爬虫方法
常见的反爬手段和解决思路1 服务器反爬的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫)。三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网站,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文,就是这么个节奏。公司可免费查询的资源被批量抓走,丧失竞争力,原创 2020-12-19 14:59:27 · 2507 阅读 · 2 评论 -
selenium高阶用法搞定反爬虫
selenium的其它使用方法知识点:掌握 selenium控制标签页的切换掌握 selenium控制iframe的切换掌握 利用selenium获取cookie的方法掌握 手动实现页面等待掌握 selenium控制浏览器执行js代码的方法掌握 selenium开启无界面模式了解 selenium使用代理ip了解 selenium替换user-agent1. selenium标签页的切换当selenium控制浏览器打开多个标签页时,如何控制浏览器在不同的标签页中进行切换呢?需要原创 2020-12-19 14:47:57 · 3309 阅读 · 1 评论 -
使用selenium定位获取标签对象并提取数据
selenium提取数据知识点:了解 driver对象的常用属性和方法掌握 driver对象定位标签元素获取标签对象的方法掌握 标签对象提取文本和属性值的方法1. driver对象的常用属性和方法在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码driver.current_url 当前标签页的urldriver.close() 关闭当前标签页,如果只有一个标原创 2020-12-19 14:44:38 · 4702 阅读 · 2 评论 -
利用selenium爬取数据总结
selenium的介绍知识点:了解 selenium的工作原理了解 selenium以及chromedriver的安装掌握 标签对象click点击以及send_keys输入1. selenium运行效果展示Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。我们可以使用selenium很容易原创 2020-12-14 12:27:45 · 2343 阅读 · 0 评论 -
一篇文章带你掌握requests模块
一篇文章带你掌握requests模块知识点:掌握 headers参数的使用掌握 发送带参数的请求掌握 headers中携带cookie掌握 cookies参数的使用掌握 cookieJar的转换方法掌握 超时参数timeout的使用掌握 代理ip参数proxies的使用掌握 使用verify参数忽略CA证书掌握 requests模块发送post请求掌握 利用requests.session进行状态保持前面我们了解了爬虫的基础知识,接下来我们来学习如何在代码中实现我们的爬虫原创 2020-12-13 21:41:17 · 5237 阅读 · 0 评论 -
selenium驱动新版edge
selenium驱动新版edge下载地址大家需要根据自己的edge beta的版本来选择自己edge驱动下载地址具体的方法见下面查看edge版本点击右上角即可就可以看到版本啦下载驱动点击[网页]下载对应的驱动就好啦(https://msedgewebdriverstorage.z22.web.core.windows.net/)示例from selenium import webdriverdriver = webdriver.Edge(r"M:/msedgedriv原创 2020-12-13 21:34:41 · 5434 阅读 · 0 评论 -
BeautifulSoup爬取数据常用方法总结
安装BeautifulSoupfrom bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">原创 2020-10-18 14:33:08 · 3931 阅读 · 3 评论