- 博客(39)
- 收藏
- 关注
原创 关于Spark
spark集群搭建下载spark安装包,注意与Hadoop版本的匹配.在/usr/local下创建spark文件夹,然后解压我们刚才下载的包:[root@DW1 spark]# tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz [root@DW1 spark]# lsspark-2.4.3-bin-hadoop2.7 spark-2.4.3-bin-hado...
2019-08-06 08:13:22
423
原创 HDFS是什么
认识HDFSHDFS 是一个具有高度容错性的分布式文件系统, 适合部署在廉价的机器上。 HDFS 能提供高吞吐量的数据访问, 非常适合大规模数据集上的应用。HDFS 的架构如图所示, 总体上采用了 master/slave 架构, 主要由以下几个组件组成 :Client、 NameNode、 Secondary NameNode 和 DataNode。 下面分别对这几个组件进行介绍:Cli...
2019-08-01 12:33:34
3058
转载 SQL中ROW_NUMBER OVER函数的基本用法
函数语法: ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)函数作用:从1开始,为按组排序的每条记录添加一个序列号 函数只能用于select和order by子句中 不能用在where子句不分组排序不进行分组时语法为ROW_NUMBER() OVER(ORDER BY COLUMN),如:有一个表A就一个字段num,数据如下...
2019-07-15 09:16:13
2314
原创 数据分析11|分类算法之朴素贝叶斯
算法第二篇,关键是理解逆向概率,区分贝叶斯原理、贝叶斯分类器和朴素贝叶斯三者间的关系。以下附上学习笔记链接,供君享用:分类算法之朴素贝叶斯...
2019-07-10 19:19:38
245
原创 数据分析10|分类算法之决策树
从本篇开始进入数据挖掘算法部分的学习。之前对算法敬畏若神,但通过近段时间https://github.com/yelupoxiao/myPython/blob/master/数据分析/知识体系/10.分类算法之决策树.ipynb...
2019-07-10 19:11:50
195
原创 Python中PyEcharts库安装报错的解决办法
如果安装pyecharts后,进行导包操作,如form pyecharts import Line 报错,出现类似connot import name 'Line’ 问题,那么下面给出了解决办法:
2019-07-09 13:18:17
2619
转载 正则表达式
什么是正则表达式?正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式.“Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp”.正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等.想...
2019-07-09 13:00:40
141
原创 数据分析09|数据转换
讲点题外话。近一个月多都是在github上写学习笔记很少来cdsn。之前是在git上写完再粘贴到cdsn这边,后来闲复来粘去浪费时间精力,就把复制粘贴的步骤cut了。但是最近发现一个问题:自从cut掉复制粘贴的步骤后,我发现自己的学习效率下降得厉害。之前学习劲头非常足,现在学习经常会感到乏味。我不能确认,学习劲头下降跟cut的行为两者间是否有关联,但最近看到一篇讲提升学习效率的文章,说道提升学...
2019-07-08 18:50:06
159
原创 数据分析08|数据集成
文章目录概念释义数据集成的两种架构ELT工具Kettle的安装安装JDK安装Kettle概念释义数据集集成简单通俗地解释是把不同来源的数据合并存放在一起(如数据仓库),从而方便后续数据挖掘工作。如果把数据挖掘比喻成炒菜,数据集成就是备菜的过程。在实际大数据项目中,80%的工作与数据集成相关。广义的数据集成包括数据清洗、数据抽取、数据集成和数据变换等操作。那么,数据集成有什么意义?在日常实际...
2019-06-15 13:30:04
904
原创 统计学04|线性回归,卡方分布,方差分析
文章目录线性回归(简单线性回归)决定系数卡方分布方差分析线性回归(简单线性回归)简单线性回归模型是用于估计一个连续预测变量和一个连续回应变量的线性关系。回归方程或估计回归方程表达为:f(x)=wx+bf(x)=wx+bf(x)=wx+bx是预测变量f(x)是回应变量的预测值b是回归线在y轴上的截距w是回归线的斜率b和w称为回归系数问题:只要能求出www和bbb,便能得到线性模...
2019-05-17 17:29:22
1659
原创 统计学03|假设检验
文章目录假设检验与第一类型错误单侧检验和双侧检验Z统计量和T统计量均值之差假设检验与第一类型错误假设检验本质是一种逆向思维的应用。用大白话讲,就是假如你想证明自己能办成一件事,可以先假设你办不成这件事,通过证明办不成这件事发生的概率非常小来论证这件事是可以办成的。在统计学中,这个办不成这件事的假设被称为零假设,记为H0H_0H0,而你办成这件事的假设(在事实发生之前同样是假设)被称为备择假...
2019-05-16 01:21:31
388
原创 统计学02|中心极限定理,置信区间
文章目录中心极限定理伯努利分布置信区间中心极限定理在上一篇统计学01|基础知识、二项分布、泊松分布、正态分布提到过一个“大数定律”的概念,指随着数据量的增加数据会呈现出一定的规律。中心极限定理正是“大数定律”的其中之一。中心极限定理是指在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布...
2019-05-14 08:16:31
635
原创 数据分析07|数据清洗
文章目录数据清洗"完全合一"利用Pandas进行数据清洗1.完整性2.全面性3.合理性4.唯一性养成数据审核的习惯经过数据采集得到的数据,通常情况下是无法直接拿来用的,因为可能存在缺失值、空行、重复行等等诸多问题。因此需要对采集得到的数据做一些必要的处理,也就是数据清洗。就好比炒菜一样,大部分时间都花在准备上,如买菜、择菜、洗菜等。在整个数据分析过程中,不论是 在时间还是 功夫上,数据清洗大概占...
2019-05-13 20:44:23
597
原创 数据分析06|数据采集
文章目录数据采集Python爬虫Requests访问页面XPath定位JSON对象利用JSON数据自动下载周星驰图片Python爬虫概述导图数据采集巧妇难为无米之炊。没有数据支撑一切都是空想。彼得德鲁克说过,对于一项业务如果不能衡量它,那就无法实现有效增长。衡量的本质就是量化思维,数据则是实现量化的主要手段和结果。数据(英语:data),是指未经过处理的原始记录。一般而言,数据缺乏组织及...
2019-05-13 11:43:48
818
原创 统计学01|基础知识、二项分布、泊松分布、正态分布
文章目录基础知识概念释义数据描述概率分布两个概念二项分布泊松分布大数定律正态分布统计学系列主要是对统计学知识进行梳理以及对学习过程的分享,以期提升对统计学相关知识体系化认知水平。本文是该系列的第一篇,主要内容包括统计学基础知识和对概率分布的介绍。基础知识概念释义统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。随着大数据(Big Dat...
2019-05-12 21:31:14
8960
1
原创 Python中zip函数的用法
可以肯定地告诉你,zip()函数实际上就是你一开始猜测的那种“打包函数”,不过你需要搞清楚它具体是如何打包的。zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。需要注意的是,在Py3中zip()函数的输出是对象内存地址,所以需要...
2019-05-10 01:07:11
449
原创 Python中min/max函数的用法
本篇以min()函数为例进行说明,max()同理。先来看看源码def min(*args, key=None): # known special case of min """ min(iterable, *[, default=obj, key=func]) -> value min(arg1, arg2, *args, *[, key=func]) -&g...
2019-05-09 23:54:35
15983
1
原创 Python中函数加括号和不加括号的区别
先说结论,再举实例验证。结论:在Python中,函数加括号是指对此函数的调用,函数不加括号是指调用函数本身(的内存地址),也可以理解成对函数重命名(希望这对你理解两者的区别有所帮助,如果你觉得没有帮助那就忽略此段逗号后面的内容)。举个栗子。可能比较长,但耐心看的话你一定会有收获,不单单局限于题目问题本身。我在自学《Python编程从入门到实践》第9章进行代码复写时,因为疏忽大意一直无法...
2019-05-09 20:46:43
9771
7
原创 数据分析05|用户画像
对用户画像换个角度理解就是业务需求,而标签化则是用户画像的关键步骤,通过对用户打标签达到快速理解用户群体的目的,以此为依据帮助企业进行精准化营销从而实现销量的增长.用户画像是数据分析的起点,更准确地说是业务需求是数据分析的起点,而"打标签"可以算是数据分析的基本功,也是小白和高手的分水岭.拿用户画像来说,小白常常迷茫于找不到切入点,往往是表面工作做了一大堆但多是"隔靴搔痒",对实际业务半毛钱的...
2019-05-09 00:13:14
396
原创 Python3 字典 items方法
一句话解释:遍历字典后以元组形式封装键值对并以列表形式返回。结合实例来理解:# 例1a = {1: 'a', 2: 'b', 3: 'c'}b = a.items()print(b)a = {1: 'a', 2: 'b', 3: 'c'}b = a.items()print(b)输出结果:([(1, 'a'), (2, 'b'), (3, 'c')])# 例2res=[...
2019-05-08 20:18:05
909
原创 数据分析04|数据分析基本概念
假如你是几年前开始接触数据分析,将会被告知数据分析就像厨师炒菜,按照菜谱(设计方案)采购食材(数据采集),然后是洗菜(数据处理),接着是下锅烹饪(数据分析),经过打荷(数据展现)后最终端菜上桌(撰写报告)。这也是数据分析的常规流程,而括号内的概念是每个入门数据分析人员要务必掌握的基本概念,至少要能了解这些步骤分别代表什么、能实现什么功能以及具体如何实现。不过自从大数据概念进入广泛应用后,数据分析...
2019-05-08 15:13:19
751
原创 [*]在jupyter中
在正常使用jupyter的过程中,如果遇到In [*]情况,意味着内核正在运行当中,会导致运行单元格不显示结果,一般处理步骤如下:稍等一会,大概2-3分钟点击菜单Kernel并单机interrupt,如果不起作用再单机Restart关闭页面重新打开...
2019-05-07 22:55:39
2048
1
原创 input和raw_input的区别
首先明确一点,input()与raw_input()的区别只存在Python2.X环境下,因为在Python3中将Python2中的input()删除了,同时将raw_input()改名为input()。如果你主要使用Py3,那么你只需关注在使用input()时所输入的数据最后都会输出成字符串格式,所以当你进行数字格式输入时要利用int()做好格式转换。Py2.x环境下运行:# 例1>...
2019-05-07 22:47:30
38464
原创 数据分析03|Pandas库
文章目录在NumPy中数据结构是以ndarray展开的,也就是多维数组(大数据分析基础02|NumPy库),而Pandas是基于NumPy构建的含有更高级数据结构的工具包,也就是Series和DataFrame这两个核心数据结构,分别代表了一维序列和二维表结构。同时,基于两个核心数据结构,通过Pandas我们可以对数据进行导入、清洗、处理、统计和输出。...
2019-05-07 00:14:28
185
原创 数据分析02|NumPy库
文章目录NumPy库为什么这么重要对多维数组的理解NumPy基础操作NumPy库是Python所有三方库中使用最多的,也是诸如SciPy、Panda等其他三方库的基础库,所以作为基本功是要求务必学习掌握的,这也是后期利用Python进行大数据分析的基础。下面我将从三个维度将自己学习NumPy库的心得体会进行总结(若是需求更多的学习资料,可以进入我的 Github 进行查阅,里面有详细的学习笔记...
2019-04-27 22:44:11
246
原创 MySQL学习05|数据的导入导出
作为常规操作,数据的导入导出是MySQL学习中务必要求掌握的知识。当然大多数情况下,MySQL数据库中对数据操作导入导出还是相对固定而简单,下面我们一起来了解下。导出数据参考资料:https://www.yiibai.com/mysql/export-table-to-csv.htmlCSV代表逗号分隔值。 您经常使用CSV文件格式在Microsoft Excel,Open Office...
2019-04-21 22:49:05
113
原创 MySQL学习04|项目实战
文章目录上部数据的导入导出项目一:各部分工资最高的员工项目二:换座位项目三:分数排名项目四:行程与用户项目五:各部门前3高工资的员工项目六:分数排名下部参考代码以及解析通过前面三篇的学习分享,你应该基本掌握了SLQ语言以及MySQL的相关知识。下面分享几个实战项目提供给你作为练手,其中上部为项目内容,下部为参考答案。作为知识学习的目的之一,应用实践能力应当摆在首要位置。所以,学了不一定懂了,懂了...
2019-04-21 22:28:02
517
原创 MySQL学习03|表操作,表联结
文章目录MySQL表数据类型用SQL语句创建表用SQL语句向表中添加数据用SQL语句删除表用SQL语句更新表MySQL别名SQL JOIN表联结在掌握了SQL语句的基本语法之后,我们下面将进入实操阶段。在实际工作当中,SLQ语句应用最频繁的地方就是对表(TABLE)的各种操作。在关系型数据库当中,绝大部分任务都是根据业务需求编写SQL代码从数据库中各种表中增删改查所需数据,有时候是对一个表操作,...
2019-04-04 03:58:34
255
原创 MySQL学习02|语法基础
文章目录SQL是什么?MySQL是什么?查询语句select from筛选语句where分组语句group by排序语句order by函数SQL注释SQL代码规范本篇是基础的SQL语法学习,学完了这些内容可以说就掌握了SQL语句。首先通过MySQL导入示例数据库,至于使用cmd还是navicat根据自身情况来安排。*导入示例数据库https://www.yiibai.com/mysql/h...
2019-04-02 15:35:04
190
原创 MySQL学习01|MySQL软件安装,数据库基础知识
文章目录软件安装以及服务器设置Navicat for SQL数据库基础知识MySQL数据库管理系统导言:本系列是以MySQL数据库管理系统为基础,重点记录SQL语言的学习过程。除了必要的软件安装介绍以及基础知识外,较少涉及数据库部分,请务必知晓。软件安装以及服务器设置新手学习新的软件工具,每次安装软件的过程就是一场自我磨难。比如本人,学Python时安装Anaconda与Pycharm是这样...
2019-03-31 21:42:45
378
原创 Python基础06|实战:用python画佩奇
文章目录参考资料turtle库:成果展示:参考代码:写在最后的话通过前面的学习,我们掌握了python相关基础知识,下面我们通过一个实战项目来对以往所学知识进行一次整体复盘。同时,通过实战项目我们可以初步掌握python在实际应用中如何具体进行编程操作的。此项目中涉及到一个叫做“turtle”(海龟画图)的python标准库,如果你对这个库感到陌生,也不要着急,可以参考学习下面这篇资料之后再进行...
2019-03-08 15:08:02
717
原创 Python基础05|文件,模块,类与对象,正则表达式
文章目录file打开文件方式(读写两种方式)文件对象的操作方法学习对excel及csv文件进行操作os模块datetime模块类和对象正则表达式re模块http请求file打开文件方式(读写两种方式)文件对象的操作方法学习对excel及csv文件进行操作os模块datetime模块类和对象正则表达式re模块http请求...
2019-03-07 16:01:45
327
原创 Python基础04|函数的基础知识
文章目录python中关键字、函数及方法的区别关键字函数的定义函数参数函数作用域函数返回值从本篇开始我们将进入函数知识的学习。随着学习过程的深入,你将发现代码世界的神奇会逐步展现在你的面前,一种有别于从前、渐渐习得的思维方式(编程思维)将会让你领略到世界别样的精彩,而思维方式转换所带来的心理体验也一定会令人印象深刻。python中关键字、函数及方法的区别在学习函数知识之前,我们有必要先来理清...
2019-03-04 23:29:44
467
原创 Python基础03|字典,集合,判断语句,循环语句
文章目录开始先补充一个知识点。我们知道在python中有六种基本数据类型,分别是Number(数字) ,String(字符串) ,List(列表) ,Tuple(元组) ,Set(集合) ,Dictionary(字典)。这六种基本数据类型又可根据对象是否可变划分成可变型数据与不可变型数据两部分。其中Number(数字) ,String(字符串) ,Tuple(元组)都是不可变类型;而List(...
2019-03-03 10:58:52
405
原创 Python基础02|基本数据类型:列表,元组,字符串
列表标志基本操作相关方法元组标志基本操作string字符串定义及基本操作相关方法字符串格式化问题
2019-03-01 00:01:18
305
原创 Python基础01|环境搭建,基础讲解,基本数据类型之数字
开篇语顾名思义,这是我个人自学python的初始,基础篇当中的基础知识梳理。先自我介绍下写下这篇博客时我的python水平:自学python月余,主要做了三件事:1.安装Aanconda 和 Pycharm;2.买了本《Python编程从入门到实战》,同时在网上买了套python基础的视频教程;3.结合视频教程开始看书,目前看到了第8章 函数。所以,对于之前毫无编程经验的我来说,完全新手...
2019-02-26 21:54:31
503
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人