- 博客(46)
- 收藏
- 关注
原创 学Python爬虫,我推荐《python3网络爬虫开发实战(第二版)》
对于崔大的这本《python3网络爬虫开发实战(第二版)》,其实还得从大一下学期的时候参加老师的课题说起,当时老师的课题需要采集一些旅游网站的评论数据,对于当时的我一筹莫展。然后通过请教老师和查询资料了解到爬虫这个东西,当时刚好课程在学习Python,然后碰巧中用度娘以及知乎这些工具搜索发现了python网络爬虫开发,对于当时基础很差的我,然后就考虑买一本厚一点的基础的爬虫书籍,然后结合豆瓣知乎的评价就冲了《python3网络爬虫开发实战(第一版)》,然后因此也和爬虫结下了不解之缘。后续学习过程中发现第一版
2021-12-29 21:04:31
1799
原创 python实现文本翻译
在很多数据处理的时候,我们可能会面临一个问题-多语言的文本数据,比如我最近做的一个评论数据分析,我们发现这个数据有多种语言形式,这个时候我们需要对它进行统一化,方面后面的进行,不然可能会面临多语言分情况分析(比如做情感分析的时候,语言不同,它所使用的模型也不同),所以这篇博客也是为了那个问题解决所介绍的。下面我主要介绍几种方法:1.translate...
2019-11-25 12:02:50
11488
3
原创 scrapy爬取360美食图片
基本介绍上面有篇博客专门对scrapy入门爬取进行了一个简单介绍,而且实现了对新闻网站数据的爬取,这次我们将要爬取360上面的美食图片。我们将图片相关的信息保存在MYSQL和MongDB数据库中,首先我们需要安装好MYSQL和MongDB数据库,安装这一块大家可以参考网上的安装教程。需求分析首先我们需要了解我们爬取的目标网站:https://image.so.com/z?ch=food,打开...
2019-11-09 22:03:26
782
原创 pyecharts绘图
基本介绍pyecharts是一个基于百度开发的echarts的一个第三方库,它绘制的图像功能更强大。交互性比较强,在用作展示等方面是一个值得使用的第三方库。在了解这个第三方库之前我们了解一下Echarts.ECharts是一个免费的、功能强大的、可视化的一个库。它可以非常简单的往软件产品中添加直观的、动态的和高度可定制化的图表。它是一个全新的基于zrender的用纯JavaScript打造完...
2019-11-09 15:28:21
5823
2
原创 seaborn绘图包的使用
Seaborn概述Seaborn是基于matplotlib的Python数据可视化库,并与pandas数据结构紧密集成。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形。它相对matplotlib用起来很简单,只需要简单几行代码就能绘制出比较好的图。seaborn提供的一些功能面向数据集的API,用于检查多个变量之间的关系专门支持使用分类变量显示观察结果或汇总统计信息可视化单...
2019-10-28 12:19:57
1593
原创 scrapy框架入门
scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各...
2019-10-24 19:16:38
557
原创 pandas 入门学习
概述pandas作为python的第三方库,它所包含的数据结构和数据处理工具的设计使其在python中进行数据清洗和分析非常快捷,pandas经常是和其他数值计算工具,Numpy和Scipy,以及数据可视化工具比如matplotlib一起使用的。pandas支持大部分Numpy语言风格的数组计算。pandas的 常用的工具数据结构:Series和DataFrame,这两种数据结构为大多数提供了...
2019-10-21 17:03:29
887
原创 数据存储
我们对网页进行请求后,然后利用解析器解析出数据,而做数据采集中很重要的一步就是数据存储,如何将爬取的数据保存下来,以及有哪几种途径,我这里大致的介绍一下。我们一般主要有四种,TXT文件,JSON文件,CSV文件以及数据库存储。文章目录TXT文件存储具体实例TXT文件存储将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据...
2019-10-08 11:11:56
545
原创 爬虫系列-解析库
概述在前面的实例中,我们采用正则表达式来提取相关的信息,但正则表达式过于复杂,容易写错,一旦写错就可能匹配不到我们想要的东西。所以这次博客我将介绍另一种提取信息的方法-解析库。对于网页的节点来说,它可以定义id、class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用...
2019-09-25 09:41:44
1048
原创 正则表达式-简单爬虫的实例
前面几篇博客主要介绍的是对于爬虫所需要的库以及相关知识点的介绍,这篇博客就是让我们练习一下真正的爬虫该怎么写。下面我主要讲两个实例,一个是b站新番的信息爬取,另一个是猫眼电影TOP100的相关信息爬取。b站新番排行榜的爬取首先我们需要request和re模块,我采用函数结构话来写爬虫,你们可以看看,首先我们找到我们需要爬取的详情页b站新番排行榜。我们需要爬取得信息有上面的新番排名,动漫名称...
2019-09-24 15:18:18
1958
原创 爬虫系列-正则表达式
我们常常总是说在处理字符串一类数据的时候,总会提到一个正则表达式,但每次别人提到是又爱又恨的感受,它虽然是一个万能的办法,但是它相比其他几个,麻烦很多,一般都不会用它,但它一般都是我们最后的杀手锏,我们在写爬虫的时候也少不它。工具介绍首先提供一个在线测试正则表达式的网站,点开这个链接你就可以进去看,然后最近设计一个匹配的文本,然后就可以得出合理的结果。比如:这个网站对于刚学习的小白是很有用...
2019-09-23 16:49:33
599
2
原创 python 神奇的第三方库 -Faker
在做数据处理和数据分析的时候,我们总是少不了测试数据,比如你想对设一个合理的数据清洗方案,但有的时候事先能够找一些样例做测试,但大多数的情况是我们自己构建一个测试数据。但对于我这个选择困难症的人,每次想名字或者定一些其他东西都是很纠结,前段时间在一篇微信推文上看到这个库,我觉得对我来说,受益匪浅。Faker这个库简单来说,就是造假,具体怎么造假,我这篇博客会详细的介绍。基本用法安装这个和其...
2019-09-21 12:00:18
2050
原创 爬虫系列-request基本库的使用
上一篇博客中,我们了解了urllib的基本用法,但是它还是存在很多缺陷,比如处理网页验证和Cookies时,需要写通过类来实例化对象比较麻烦。为了更加方便地实现这些操作,就有了更为强大的库requests,对于它来说Cookies、登录验证、代理设置等操作都容易很多。...
2019-09-19 16:46:53
625
1
原创 爬虫系列-urllib基本库的使用
学习爬虫,最基础便是模拟浏览器向服务器发出请求,请求需要来我们自己来构造?以及如何构造?具体怎么实现?服务器的响应和应答原理是什么样的?可能我们对这些一无所知,但python提供了功能齐全的类库来帮助我们完成这些请求。常用的HTTP库有urlllib.requests.trep等。而我们今天主要介绍的就是urllib库,这个库只需要我们传入相应的参数和相应的链接。首先我给出官方文档的链接,所有...
2019-09-18 07:57:12
463
3
原创 Python-matplotlib入门--基础图表的绘制(持续更新中)
通过前面几篇博客的大致内容,我们也能大致学会绘制图像,然后在我们做数据分析,统计分析的时候,我们需要用特定的图像来展示特定的数据,从而达到可视化的效果,让结果更加直观,这篇博客我将会详细介绍一下每一种图例。实例目录:1、线性图2、直方图3、条状图4、多序列条状图5、饼状图6、极坐标图7、散点图8、3D曲面首先需要区分清楚概念:直方图和条形图。条形图:条形图用长条形表示每一个类...
2019-09-16 20:50:06
641
3
原创 python基于Matplotlib模块的绘图2
上一篇博客简单介绍了一些如何进行绘图,和如何设置各种图形格式,这篇博客主要讲解一下一些细节部分以及具体的实例操作。实例1有时我们需要绘制一个图形,需要指定它的大小并且将其输出保存下来,这个时候我们需要用到plt.figure函数和plt.savefig()函数,这两个函数前一个是生成一个指定大小的figure,单位是英寸,如果我们不生成,后面也会自动创建。plt.savefig()函数则是保存...
2019-09-16 16:14:51
195
2
原创 python基于Matplotlib模块的绘图1
Matplotlib模块Matplotlib模块是python中绘图的第三方库,它模仿MATLAB中绘图,既适合交互式地进行制图,也可以作为绘图控件方便地嵌入GUI应用程序中。其中最主要的Matplotlib的pyplot子库提供了和MATLAB类似的绘图API,方便用户快速绘制2D图表,包括直方图、饼图、散点图等.在matplotlib.pyplot中,各种状态在函数调用中保留,以便跟踪当前...
2019-09-15 16:22:53
1005
原创 数据可视化概要
数据可视化数据如何呈现,如何突出它的重要性是我们在做数据挖掘中很重要的一个部分,而数据可视化让数据以可视化形式呈现时,格局、关联和其他会心时刻便浮现出来,让我们可以了解到数据背后的故事。常用的数据可视化工具如何制作一个既能准确的描述出数据的特点又能美观的图表,是数据可视化的最核心的内容,而对于数据可视化,我们不能只关注与实现的途径,我们更加关注的是它的结果。数据可视化没有最好的工具,我们的目...
2019-09-02 22:02:05
981
原创 numpy科学计算入门
为什么要用numpy?NumPy是一个开源的Python科学计算基础库,包含:• 一个强大的N维数组对象 ndarray • 广播功能函数 • 整合C/C++/Fortran代码的工具 • 线性代数、傅里叶变换、随机数生成等功能NumPy是SciPy、Pandas等数据处理或科学计算库的基础在numpy中我们会引入一种数组N维数组对象:ndarray,那么大家肯定在想Python已有列表类...
2019-06-02 18:01:34
320
原创 wordcloud绘制词云图
1.wordcloud的安装我直接推荐一种简单方式cmd命令行输入以下命令就可以了。pip install wordcloud2.wordcloud库介绍wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本,下面给大家看一个示例:3.wordcloud的使用接下来,介绍下wordcloud的基本使用。wordcloud...
2019-05-27 18:05:51
4567
2
转载 PEP8 编码规范
这里我就直接转载对python编程不是很熟的,可以看看下面的两个链接。PEP8 编码规范官网文档Python PEP8 编码规范中文版
2019-05-27 10:56:01
150
转载 rgb颜色查询对照
这个看了一下别人的博客,觉得写得很不错,就直接转载,有兴趣的可以看一下。https://blog.youkuaiyun.com/u010997144/article/details/52084386
2019-05-27 10:50:59
551
转载 python3:Tkinter——简单的窗口视窗
这个我直接转载几篇介绍的比较详细的博客,大家可以看看。python3:Tkinter——简单的窗口视窗窗口视窗Tkinter - 莫烦PythonPython tkinter 学习实践Python GUI之tkinter窗口视窗教程补充...
2019-05-27 10:47:40
650
原创 python调用百度API对数据进行情感分析
百度Al大家平常是不是被深度学习和机器学习的一些需要打标签的训练数据所困扰,小编也是这样,特别是利用深度学习进行情感分析的时候,正负面数据进行打标签是一个很繁琐的工作,人工打标签耗费时间长,成本高。最近小编在寻找数据的时候发现了一个由百度推出的Al开放平台,而且发现上面很多功能都是免费的,只需要注册一个账号。下面我就把网站介绍给大家。Al开放平台但小编今天向大家介绍的是情感倾向分析,下面小编...
2019-05-25 16:38:26
7558
7
原创 python逻辑回归识别猫(持续更新中)
逻辑回归简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加...
2019-05-15 09:39:07
2268
3
原创 python面向对象编程
面向对象编程概述面向对象编程(oop),是一种编程方式,这种编程方式需要使用“对象”来实现。这样听起来可能不懂,我借助知乎上面一个例子说明一下。面向对象是相对于面向过程的,比如你要充话费,你会想,可以下个支付宝,然后绑定银行卡,然后在淘宝上买卡,自己冲,这种种过程。但是对于你女朋友就不一样了,她是面向“对象”的,她会想,谁会充话费呢?当然是你了,她就给你电话,然后你把之前的做了一遍,然后她收到...
2019-05-06 17:06:42
205
原创 python文件操作
os库和常用命令在我们要对文件进行操作之前,必须先了解os标准库,文件操作的基础的是建立在操作系统上面完成的,现在操作系统很多都不会让普通的程序直接操作磁盘。我们的python也是一样的。而python对文件操作很多要依赖os库。os库调用方法import os然后我们需要熟悉几个os库常用的命令。os.listdir() 列出当前目录下的所有文件和文件夹(包括被隐藏的)os.sys...
2019-05-05 19:05:01
755
原创 python 模块与包
模块与包是任何大型程序的核心,就连Python安装程序本身也是一个包。本章重点涉及有关模块和包的常用编程技术,例如如何组织包、把大型模块分割成多个文件、创建命名空间包。同时,也给出了让你自定义导入语句的秘籍。模块模块简介模块是一个包含Python定义和语句的文件。文件名就是模块名后跟文件后缀 .py 在一个模块内部,模块名(作为一个字符串)可以通过全局变量 name 的值获得。比如你可以创...
2019-04-27 23:20:55
262
原创 python爬虫个人总结篇1
1.python中文转换url编码有很多时候,我们需要爬取搜索引擎,当你输入关键词后,形成了一个特定的网址,比如https://search.sina.com.cn/?q=%BA%FE%B1%B1%BE%AD%BC%C3%D1%A7%D4%BA&c=news&from=index,但是我输入的关键词是湖北经济学院,但其中出现一串莫名其妙的%BA%FE%B1%B1%BE%AD%BC...
2019-04-17 23:38:55
3587
1
原创 python 函数进阶笔记
函数的参数传递1.必选参数必选参数也叫位置参数,定义:就是在给函数传参数时,按照顺序,依次传值。举一个简单例子def sum(a,b): return a+bsum(2,3)函数sum(a,b)中有两个参数,a和b,这两个参数都是位置参数,调用的时候,传入的两个值按照顺序,依次赋值给a和b。2.默认参数定义:就是在写函数的时候直接给参数传默认的值,调用的时候,默认参...
2019-04-10 22:55:53
328
原创 python calendar介绍
caclendar 介绍calendar(日历)模块,默认每周第一天是星期一,最后一天是星期天。这也是python一个处理时间的模块。提供了对日期的一些操作方法,和生成日历的方法。calendar模块中提供了三大类:一、calendar.Calendar(firstweekday=0)该类提供了许多生成器,如星期的生成器,某月日历生成器二、calendar.TextCalendar(...
2019-04-08 18:42:05
5106
原创 random详解
random库的介绍random是python的一个随机函数标准库,主要用来产生随机数,用处比较广泛。调用方法和其他标准库类似,我就不多讲了。1.常用函数1.random.random()函数,随机生成[0.1)的浮点数import randomprint(random.random())0.35623569907830532.random.uniform 原型为:random....
2019-04-07 16:19:05
1171
原创 time和datatime的使用
time标准库的使用time是python处理时间的标准库,调用方法和其他python各种库的使用是一样的。import timetime标准库的函数主要分为三大类函数:时间获取,时间格式化,程序计时1.时间获取时间格式介绍在获取时间之前我们要了解这几点:在Python中,通常有这几种方式来表示时间: 1)时间戳 2)格式化的时间字符串 3)元组(struct_time)共九个元...
2019-04-07 15:53:13
1099
原创 python集合的用法
集合Python 还包含了一个数据类型 —— set (集合)。集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和 sysmmetric difference(对称差集)等数学运算。集合用大括号表示。集合的创建1.set() 函数可以用来创建集合 x = set('spam')...
2019-03-28 11:16:37
226
原创 python列表的用法
列表序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。Python有6个序列的内置类型,但最常见的是列表和元组。列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型,可以是字符串,可以是数字等等,列表可以嵌套。创建列表list3 =[]llist1...
2019-03-26 23:00:33
958
原创 python字符串详解
python字符串详解字符串字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。 通常以串的整体作为操作对象,如:在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是:长度相等,并且各个对应位置上的字符都相等。属于python基本数据类...
2019-03-19 22:25:20
490
原创 plotly入门(散点图和曲线图)
散点图散点图,顾名思义就是由一些散乱的点组成的图表,这些点在哪个位置,是由其X值和Y值确定的。所以也叫做XY散点图。特点是能直观表现出影响因素和预测对象之间的总体关系趋势。优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度。今天我们来看一下Python中plotly包来...
2019-03-19 21:22:45
9342
原创 强大的python绘图包plotly包
import plotly as pyfrom plotly.graph_objs import Scatter, Layout, Datatrace0 = Scatter( x = [1,2,3,4], y =[10,15,13,17])trace1 = Scatter( x =[1,2,3,4], y =[16,5,11,9])data =Data([...
2019-03-17 11:07:30
6375
3
原创 python内置函数功能汇总
python内置函数介绍内置函数介绍官网内置函数介绍常用内置函数abs(x) 返回一个数的绝对值。实参可以是整数或浮点数。如果实参是一个复数,返回它的模。abs(3)#结果还是3all(iterable)如果 iterable 的所有元素为真(或迭代器为空),返回 True 。def all(iterable): for element in iterable:...
2019-03-12 22:01:34
204
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人