
python爬虫学习
shy-2
人生苦短,我只入门不精通✌️
展开
-
谈谈爬虫过程中遇到的unicode编码和utf-8编码
爬虫过程中我们总是会遇到字符串编码问题,由于互联网发展至今,涌现了各式各样的编码,所以处理这种问题起来让人头疼。为了理清楚它们之间的关系,我写了这篇博客。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是429496.原创 2020-06-02 17:14:07 · 1184 阅读 · 0 评论 -
爬虫百战(5)——使用自动化工具selenium爬取淘宝数据
在此声明:本次爬虫数据仅作为学术探讨,不用于商业。如有侵权,联系立删!!!使用自动化工具selenium爬取淘宝数据准备工作爬虫所需的库和浏览器驱动网页分析工作网页分析代码实操效果展示准备工作爬虫所需的库和浏览器驱动本次爬虫所需要的库selenium#可使用pip命令安装pip install seleniumcsvretime安装浏览器驱动以谷歌浏览器为例,在浏览器地址栏中输入chrome://version/查看浏览器版本谷歌的驱动:chromedrive.原创 2020-05-09 22:51:38 · 902 阅读 · 0 评论 -
不会正则表达式你睡得着觉?——python第三方库re库的介绍
re库的介绍什么是正则表达式正则表达式的匹配规则python中的re库re库的使用complie函数在爬取网站所有的内容后,我们不会一股脑的将数据都保存下来,通常我们要过滤,拿到我们想要的就好,其它就丢一旁。那么,我们就需要学会怎么使用正则表达式,通过它我们才能过滤出我们想要的内容。什么是正则表达式正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式...原创 2020-05-09 15:35:13 · 820 阅读 · 0 评论 -
python爬虫零基础学习(四)配置python爬虫环境
python爬虫环境的准备概要python爬虫相关库的介绍及配置配置MySQL数据库windows系统上linux操作系统上配置MongoDb数据库windows系统上安装linux系统上安装概要了解python中常用的爬虫库了解MySQL数据库的配置方法了解MongoDb数据库的配置方法python爬虫相关库的介绍及配置python整合了许许多多用于爬虫开发的库,使用python开发爬虫需要了解python中常用的爬虫库的特点、功能及配置方法。urllib库在安装python时就已经给原创 2020-05-08 18:49:56 · 1057 阅读 · 0 评论 -
爬虫百战(四)——爬取yy短视频
今天跟大家分享的是爬取YY网站短视频本次爬取所有代码在本文结尾贴出爬取YY短视频准备工作撸代码准备工作首先,我们本次爬取的网站URL为https://www.yy.com/sv。点击链接进入网站后,我们要开始分析网页啦????接下来就是“经验”环节啦(也就是把刷新页面后Network下出现的数据包一个一个点击去看看),在我“不懈努力”之下,我发现了视频存储的位置:我们可以发现该数据...原创 2020-05-08 13:56:41 · 1564 阅读 · 0 评论 -
python爬虫零基础学习(三)说说什么是爬虫
本篇介绍的是网络爬虫的相关概念概要1.什么是爬虫2.细分爬虫的种类3.爬虫有关的协议4.网站的反爬机制及对应的反反爬策略爬虫爬虫是什么爬虫就是编写程序来模拟浏览器上网并让程序去互联网上获取数据的过程。爬虫为什么以python语言实现较多爬虫可以由很多语言来实现,比如:Java:Java可以非常好的处理和实现爬虫,是唯一可以同python抗衡的语言,但是使用Java实现起来...原创 2020-05-05 18:05:15 · 378 阅读 · 0 评论 -
爬虫百战(三):爬取B站视频弹幕绘制词云图
今天跟大家分享的爬取B站视频的弹幕并绘制出词云图本次爬虫所有代码在本文结尾贴出爬取B站视频弹幕绘制词云图准备工作撸代码完整代码准备工作昨天是五四青年节,我在B站看了一个名为《哔哩哔哩献给新一代的演讲——后浪》,给我看的热血澎湃????。所以我决定就以它作为试验对象爬取弹幕,绘制词云图。爬虫爬取前的分析是必不可少的,我们首先要找到弹幕在什么地方,要“有的放矢”。在我一番查找之后,我把目标定在了一...原创 2020-05-05 10:15:30 · 2330 阅读 · 5 评论 -
python难点解析——lambda匿名函数
python难点解析之lambda匿名函数lambda简介lambda与def不同之处lambda的使用方法有参无参lambda简介先来看个代码:第一行是lambda声明,x,y相当于传入的参数,整个函数会返回x+y的值。lambda作为一个表达式,定义了一个匿名寒素。上述的代码x,y为入口参数,x+y为函数体。在这里lambda简化了函数定义的书写形式python使用关键字lambda...原创 2020-04-29 20:08:37 · 388 阅读 · 0 评论 -
python爬虫难点解析——动态json数据处理
在前面爬取诸多案例,我们已经学会了怎么处理静态的html。但是还有许多常见的动态数据,比如比赛的实时弹幕,原创 2020-04-28 12:04:59 · 1882 阅读 · 0 评论 -
爬虫利器selenium和浏览器驱动安装教程
selenium安装直接使用pip命令安装pip install selenium使用谷歌浏览器测试是否安装成功from selenium import webdriverbrowser = webdriver.Chrome()browser.get("https://www.baidu.com/")运行这段代码会自动打开浏览器访问百度如果程序报错则说明没有安装浏览器驱动或者...原创 2020-04-27 18:37:08 · 1729 阅读 · 0 评论 -
爬虫百战(一):爬取当当网Top500本五星好评书籍
爬取当当网Top500本五星好评书籍==实战前提:==准备工作撸代码成果展示实战前提:掌握requests库的使用熟悉re库,正则表达式的简单使用可参考我的另外两篇博客进行学习准备工作1.打开当当网书籍排行榜的网址:五星图书排行榜打开之后可以看到:可以发现:每一页显示二十本书点击下一页发现地址发生改变:第二页http://bang.dangdang.com/boo...原创 2020-04-27 12:00:31 · 3005 阅读 · 1 评论 -
python爬虫零基础学习(二) http和https协议
http和https协议一 Http协议1.官方概念:2.理解3.Http工作原理4.Http四点注意事项5.Http之URL6.HTTP之Request7.HTTP之Response二 HTTPS协议1.官方概念2.理解3.HTTPS采用的加密技术非对称密钥加密4.HTTPS的证书机制一 Http协议1.官方概念:HTTP协议是Hyper Text Transfer P...原创 2020-04-24 18:19:34 · 512 阅读 · 0 评论 -
python爬虫零基础学习(一) jupyter环境安装
Jupyter环境安装什么是Jupyter Notebook?简介组成部分Jupyter Notebook的主要特点安装Jupyter Notebook运行Jupyter Notebook帮助1.启动2. 快捷键什么是Jupyter Notebook?简介Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。Jup...原创 2020-04-24 16:51:49 · 478 阅读 · 0 评论