- 博客(32)
- 收藏
- 关注
原创 常见的数据预处理--python篇
常见的数据预处理--python篇1、 加载数据1.1 数据读取1.2 CSV文件合并1.3 CSV文件拆分1.4 数据查看2、缺失值2.1 缺失值查看2.2 缺失值处理2.2.1 不处理2.2.2 删除2.2.3 填充2.2.3.1 固定值填充2.2.3.2 出现最频繁值填充2.2.3.3 中位数/均值插补2.2.3.4 用前后数据填充2.2.3.5 拉格朗日插值法2.2.3.6 其它插补方法3、异常值3.1 异常值识别3.1.1 描述性统计法3.1.2 三西格玛法3.1.3 箱型图3.1.4 其它3.2
2020-05-15 16:37:27
2829
1
原创 数据预处理
数据预处理1 数据可能存在的问题2 数据预处理步骤2.1 数据清洗2.1.1 缺失值处理2.1.2 离群点处理2.2 数据转换1 数据可能存在的问题在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “
2020-05-15 16:25:42
1255
原创 机器学习支持向量机--SVM
机器学习支持向量机--SVM1.SVM概念2.原理解析3.关于核函数(线性SVM-->非线性SVM)**多项式核函数**高斯核4.SVM与CNN5.调参经验1.SVM概念过渡带边界上的向量叫做支撑向量2.原理解析对于线性可分数据,分割平面的确定方法:找到分割平面的参数,是的支撑向量到大分割平面的距离最大,即间隔最远由于fi(x)都是<=0,vi>=...
2020-03-30 19:00:42
448
原创 机器学习--Adaboost
机器学习--Adaboostboosting思想算法流程为什么能收敛?理解boosting思想算法流程1.考虑权值进去,初始化相等权值2.给基本分类器加权值!谁的误差率越小,谁的权值就越大!3.更新样本权值若样本预测错误,测样本的权值升高!4.构建基本分类器的线性组合,得到最终分类器为什么能收敛?理解bagging:基分类器相互独立m*(均值/m) ...
2020-03-29 21:53:03
374
原创 NiFi用户使用指南笔记
NiFi 用户使用指南笔记组件具有版本依赖关系处理器设置pelnalty duration:组件发生故障,是数据在此刻没法处理但之后还可以处理时,处理器可以选择搁置缓存该FlowFile,在指定时间过后再处理。yield duration:当处理器发生故障,无论花多长时间,数据无法再得到进一步的处理时,启用yield duration,这段时间过后放弃任务。Automaticall...
2020-03-29 18:48:14
2168
原创 机器学习--随机森林
机器学习--随机森林机器学习--随机森林随机森林作用1.计算特征重要度2.检测异常值机器学习–随机森林随机森林作用1.计算特征重要度2.检测异常值未完待续。。。...
2020-03-26 23:55:30
200
原创 机器学习--决策树
机器学习--决策树机器学习--决策树1.定义2.生成算法3.衡量标准:信息增益,Gini系数4.评价函数5.样本不均衡的处理方法机器学习–决策树决策树分支的过程就是熵不断减小的过程 ,熵为0的点无法继续分支,仍然可以看作贪心算法。1.定义2.生成算法节点分支的方法:选择一个属性,是的根据该属性分支后,熵下降最快!3.衡量标准:信息增益,Gini系数4.评价函数5.样本不均...
2020-03-26 18:10:51
207
原创 机器学习数学基础
这里写自定义目录标题机器学习数学基础1.条件概率2.全概率公式3.贝叶斯(Bayes)公式4.条件熵5.相对熵6.互信息7.互信息与条件熵机器学习数学基础数学基础1.条件概率2.全概率公式3.贝叶斯(Bayes)公式4.条件熵5.相对熵6.互信息度量两个随机变量距离7.互信息与条件熵并集为联合熵,交集为互信息,H(X|Y):给出Y信息后,H(X)减少了I(X...
2020-03-25 22:04:35
647
原创 Python数据分析 --前言
前言一. 重要的Python库考虑到那些还不太了解Python科学计算生态系统和库的读者,下面我先对各个库做一个简单的介绍。NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。它提供了以下功能(不限于此):快速高效的多维数组对象ndarray。用于对数组执行元素级计算以及直接对数组执...
2019-12-30 17:53:38
379
原创 Hadoop入门体系介绍(1)
Hadoop体系介绍1. Hadoop快速入门1.1 数据 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。 数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字, 称为数字数据。 在计算机系统中,数据以二进制信息单元 0,1 的形式表示。1.2 大数据1.2.1 概念 指的是传统数据处理应用软件不足...
2019-08-14 21:52:51
293
原创 Linux Shell编程基础
Linux Shell编程基础1. Shell 简介1.1 Shell概述 Shell 本身是一个用 C 语言编写的程序,它是用户使用 Unix/Linux 的桥梁,用户的大部分工 作都是通过 Shell 完成的。Shell 既是一种命令语言,又是一种程序设计语言: 作为命令语言,它交互式地解释和执行用户输入的命令; 作为程序设计语言,它定义了各种变量和参数,并提供了许多在高级语言中才具有...
2019-08-08 21:27:56
398
原创 Linux 计划任务
Linux 计划任务6.1 概念计划任务在 Linux 的体现主要分为 at 和 crontab,其中:at:通过 at 命令安排任务在某一时刻执行一次crontab:通过 crontab 命令,我们可以在固定的间隔时间执行指定的系统指令或 shell script 脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常适 合周期性的日志分析或数据备份等工作6.2...
2019-08-07 16:23:04
274
原创 Linux 进程管理
Linux 进程管理5.1 进程概念 进程是操作系统中非常重要的一个概念,进程是程序的执行过程,相对于程序,进程是动态的,在 linux 系统中,它与用户权限相关,程序与进程并没有一一对应,一个程序可能对应 多个进程 子进程与父进程:一个进程产生另外一个进程,产生的进程称为子进程,生成另外一个进程的进程称为父进程。5.2 进程状态 进程状态总体来看主要包括三种,分别是就绪状态、运行...
2019-08-07 16:16:39
194
原创 Linux 软件安装
Linux 软件安装1、二进制发布包软件已经针对具体平台编译打包发布,只要解压,修改配置即可演示过程见 JDK 安装文档”资料-jdk 安装” 或者参考 Linux 系统中的 Tomcat 的安装2、RPM发布包软件已经按照 RedHat 的包管理工具规范 RPM 进行打包发布,需要获取到相应的软件 RPM 发布包,然后用 RPM命令进行安装 演示过程见 MySQL 安装文档”资料-My...
2019-08-07 15:52:26
268
原创 Linux 系统管理
系统管理2.1、挂载外部设备 挂载是一个非常重要的功能,使用非常频繁。它指将一个设备(通常是存储设备,可以挂载 光盘、硬盘、磁带、光盘镜像文件等)挂接到一个已存在的目录上(这个目录可以不为空, 但挂载后这个目录下以前的内容将不可用)。 需要理解的是,Linux 操作系统将所有的设备都看作文件,它将整个计算机的资源都整合成 一个大的文件目录。我们要访问存储设备中的文件,必须将文件所在的分区...
2019-08-07 15:46:01
279
原创 Linux Httpd服务
Linux Httpd服务1、 先检查本机的 httpd 服务是否开启,使用命令: service --status-all | grep httpd2、 开启 httpd 服务3、 我们进入到/var/www/html 目录下,新建一个 huangbo.html 文件,往文件里加入一个字 符串”huangbo wangbaoqiang xuzheng”,然后保存:cd /var/www...
2019-08-07 15:30:40
693
原创 Linux 用户和组
Linux用户和组1.用户和组的概念在最开始介绍 Linux 系统的时候有介绍过说 Linux 是一个多任务多用户的操作系统,当我们 在使用 ls -l 命令的时候我们看到如下信息:2.用户操作 Linux 中的用户管理主要涉及到用户账号的添加、删除和修改。所有操作都影响/etc/passwd 中的文件内容1、 添加用户组操作 前面我们知道,组是权限的集合。在 linux 系...
2019-08-07 14:44:24
327
原创 Linux 网络管理
Linux 网络管理1.ifconfig命令2.网络配置3.修改主机名4.配置主机映射5.其他常用网络管理命令6.防火墙1.ifconfig命令【服务器获取IP的方式:1.DHCP 动态获取IP 2.static 静态获取,手动绑定】2.网络配置1.Vmware虚拟机与宿主机通信的三种网络方式,(1).Bridge(桥接模式)(2).Host-Only(仅主机模式)宿主(3)...
2019-08-06 20:57:54
534
原创 Linux VI文本编辑器
VI文本编辑器 学会使用 vi 编辑器是学习 Linux 系统的必备技术之一,因为一般的 Linux 服务器是没有 GUI 界面的,Linux 运维及开发人员基本上都是通过命令行的方式进行文本编辑或程序编写的。 vi 编辑器是 Linux 内置的文本编辑器,几乎所有的类 unix 系统中都内置了 vi 编辑器,而其它 编辑器则不一定,另外很多软件会调用 vi 编辑进行内容编写,例如 cront...
2019-08-05 20:59:03
1312
原创 Linux常用命令
Linux常用命令及使用常用命令文件管理 :mkdir, rmdir, mv, rm, cp, touch, cat, tac, echo, more, less, head, tail, file, find, rename, ln, pwd, scp, alias磁盘管理: ls, cd, du, df, mount, unmounts, fdisk文档处理 :wc, sort, un...
2019-08-05 17:17:00
128
原创 Linux文件系统
Linux文件系统基本概念1.每个文件必为叶子 节点。2.磁盘分区:主分区、扩展分区、逻辑分区。 以MBR为例: 分区表大小:64bytes 主分区大小:16bytes==>故最多只能存储4个主分区的信息。 ==>但可以划分扩展分区,将扩展分区划分为多个逻辑分区。3.所有的存储设备在Linux系统中都表现为一个设备文件 IDE接口磁盘的命名规...
2019-08-05 16:24:32
92
原创 NiFi用户文档分析(3)
NiFi用户文档分析(3)连接组件将处理器和其他组件添加到画布并进行配置后,下一步是将它们彼此连接,以便NiFi知道在处理完每个FlowFile后如何处理。这是通过在每个组件之间创建连接来实现的。当用户将鼠标悬停在组件的中心上时,会出现一个新的连接图标( ):用户将连接气泡从一个组件拖动到另一个组件,直到第二个组件突出显示。当用户释放鼠标时,会出现“创建连接”对话框。该对话框包含两个选项...
2019-08-04 18:06:15
632
原创 NiFi用户指南文档分析(2)
NiFi文档分析组件版本您可以访问有关处理器,控制器服务和报告任务的版本的信息。当您在具有运行不同版本组件的多个NiFi实例的集群环境中工作或者已升级到较新版本的处理器时,此功能尤其有用。“添加处理器”,“添加控制器服务”和“添加报告任务”对话框包括一个标识组件版本的列,以及组件的名称,创建组件的组织或组以及包含该组件的NAR包。画布上显示的每个组件也包含此信息。排序和过滤组件添加组件时...
2019-08-03 10:23:31
1307
原创 NiFi用户文档分析(1)
Nifi文档分析(1)Nifi文档分析。术语介绍DataFlow Manager(DFM):NiFi用户,有添删改数据流组件权限。FlowFile:代表NiFi中的单个数据。由两个组件组成:属性和内容,内容是FlowFIle表示的数据,属性是提供有关数据的信息或上下文的特征,两者由键值对构成。所有FlowFile都具有的标准属性:-uuid:通用唯一标识符,用于区分.-filename...
2019-08-02 19:50:01
619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人