少半个西瓜-优快云博客

原创 Matplotlib学习笔记(二)

目录一、Matplotlib设置坐标轴 1)、设定当前显示的X轴区间和Y轴区间，上代码了。 2)、修改显示X轴的脚标[ticks] 3)、修改显示Y轴的脚标[ticks]二、Matplotlib设置 Legend小图例三、设置annotate注释和task注释一、Matplotlib设置坐标轴今天继续学习matplotlib...

2019-08-09 14:10:13 384

原创 Matplotlib学习笔记(一)

目录一、Matplotlib介绍二、Matplotlib安装三、Matplotlib基本用法四、Matplotlib中的figure图像五、学习笔记小结一、Matplotlib介绍在学习数据挖掘、机器学习等对数据有更高的一些分析的时候，往往图形更能体现出数据的变化情况，在这个时候我们需要一个代码简单、功能强大的画图工具！ 1.Matpl...

2019-08-06 20:00:54 432 2

转载评分卡模型中的IV和WOE详解

1.IV的用途 IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑...

2019-01-22 14:05:48 416

原创 SparkSQL+Hbase+HDFS实现SQL完全封装(二)

注：SparkSQL+Hbase+HDFS实现SQL完全封装(二) 是在一的基础上做了一些优化。1.描述：通过读取SQL脚本文件内的SQL脚本，实现在大数据平台中的业务处理，对于没有JAVA或是语言基础的同学来说，通过封装完全可以只写SQL就能实现业务的处理。注：优点：部署后团队其它人员只要会写SQL就行。缺点：优化方面也只能对写的SQL进行优化2.平台环境Spark:sp...

2018-05-08 15:29:41 868

原创 Hadoop-2.6.0完全分布式集群+Zookeeper安装测试(二)

1.描述：大数据平台环境搭建连载。Hadoop集群+Zookeeper集群安装2.环境介绍环境配置：虚拟机： vmware workstation 10.0.0 系统： CentOS-6.5-x86_64 节点： 1...

2018-03-08 15:49:59 538

原创 Hadoop-2.6.0完全分布式集群搭建和测试(一)

1.描述：大数据平台环境搭建连载。2.环境介绍环境配置：虚拟机： vmware workstation 10.0.0 系统： CentOS-6.5-x86_64 节点： 192.168.73.100 Master 1...

2018-02-26 08:55:52 830

一、在菜单栏选择编辑→ 虚拟网络编辑器，打开虚拟网络编辑器对话框，选择Net网络连接方式，随意设置子网IP，点击NAT设置页面，查看子网掩码和网关，后面修改静态IP会用到。注：上面的“使用本地DHCP服务……”这一项是没有钩选的二、检查物理主机网卡设置，打开网络和共享中心→ 更改适配器设置→，在VMware Network Adapter VMnet8上单击右键，选择属性按钮打开属性对话框。 ...

2018-02-24 11:17:39 23748 12

原创 SparkSQL+Hbase+HDFS实现SQL完全封装(一)

1.描述：通过读取SQL脚本文件内的SQL脚本，实现在大数据平台中的业务处理，对于没有JAVA或是语言基础的同学来说，通过封装完全可以只写SQL就能实现业务的处理。2.平台环境Spark:spark-2.2.1-bin-hadoop2.73.具体思路：通过读取HDFS上的SQL脚本文件[可以直接放到Linux上面]，解析SQL脚本获取SparkSQL需要的原表、目标表、目标表的字段名以及查询SQ...

2018-02-23 16:14:09 5162