- 博客(13)
- 收藏
- 关注
原创 LightGBM标签特征应用小结
昨天我用LightGBM对一个小数据集进行了回归预测,其中特征部分包含定性特征(标签特征),因为在LightGBM官方文档中看到LightGBM可以通过‘categorical_feature’参数直接处理标签特征,而且计算速度更快,效果更佳。文档参数说明如下:categorical_feature
2018-12-05 09:35:53
4759
1
原创 Python时间序列缺失值处理(日期缺失填充)完全教程-附Python完整例程
前言因近期进行时间序列分析时遇到了数据预处理中的缺失值处理问题,其中日期缺失和填充在网上没有找到较好较全资料,耗费了我一晚上工作时间,所以下面我对这次时间序列缺失值处理学习做了以下小结以供之后同行们参考指正。时间序列缺失值处理一、编程前准备 收集时间序列数据,相信看这篇博客的各位已经完成了这步。 需要安装pandas模块,并利用Python的Lib文...
2018-10-23 22:39:09
25761
9
原创 利用Python计算数据的Pearson相关系数
步骤一:读取数据# _*_ coding: utf-8 _*_import pandas as pdimport numpy as npdf = pd.read_csv("D:data1.csv",index_col='user_id')步骤二:异常数据处理(如无需预处理跳过数据预处理程序),进行Pearson相关系数计算运用箱型图分析选出异常值,取前后相邻数据中值替换d...
2018-08-30 11:29:44
6719
1
翻译 Python中abs( )、ceil( )、cmp( )、exp( )、fabs( )、floor( )、log( )、modf( )、pow( )、round( )、sqrt( )解释
Python数学函数函数 返回值 ( 描述 ) abs(x) 返回数字的绝对值,如abs(-10) 返回 10 ceil(x) 返回数字的上入整数,如math.ceil(4.1) 返回 5 cmp(x, y) 如果 x < y 返回 -1, 如果 x == y 返回 0, 如果 x > y 返回 1 exp(x) 返回e的x次幂(ex)...
2018-08-29 19:04:55
1321
原创 异常数据处理——箱型图分析原理及Python例程
箱型图分析原理及Python例程 一、箱型图分析原理箱型图可以通过程序设置一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值则识别为异常值,箱型图如下图所示:首先我们定义下上四分位和下四分位:上四分位我们设为 U,表示的是所有样本中只有1/4的数值大于U ,即从大到小排序时U处于25%处;同理,下四分位我们设为 L,表示的是所有样本中只有1/4的数值小于L,即从大到小...
2018-07-17 09:36:38
4942
原创 XGBoost参数设置中文版及XGBoost的Python模块解释
前言本文来源于 m_buddy 博主的《XGBoost参数解释》博文,进行了简单修改,原文链接。XGBoost参数官方文档:XGBoost Parameters (official guide)。XGBoost的Python模块介绍官方文档:Python Package Introduction在运行XGboost之前, 我们必须设置三种类型的参数: 通用参数(general parameters...
2018-06-29 12:02:23
4416
原创 CART(分类回归树)之回归树总结与树剪枝总结
CART(分类回归树)之回归树总结与树剪枝总结 CART(Classification And Regression Trees,分类回归树)与分类算法中决策树ID3算法最大的不同点在于,决策树是一种贪心算法,其要在给定时间内做出最佳选择,但并不关心能否到达全局最优,不能直接处理连续型特征,且决策树特征切分份数由该特征值份数决定;分类回归树采用二元切分法(符合阈值条件进入左子树,否则...
2018-06-27 22:40:56
2022
转载 多层感知机原理详解 & Python与R实现
转载自:https://www.cnblogs.com/feffery/p/8996623.html ; 博客园网站“费弗里”博主的《数据科学学习手札34》 因作者正在进行电力用户短期负荷预测方向学习,正遇到了多层感知机的应用问题,所以搜到博客园中费弗里博主写的的以下资料,进行转载以便学习查阅。一、简介 机器学习分为很多个领域,其中的连接主义指的就是以神经元(neuron)为...
2018-06-22 11:16:58
10656
1
转载 Python2和Python3共存时pip使用解决办法
1、添加python2到系统环境变量 打开,控制面板\系统和安全\系统,选择高级系统设置,环境变量,选择Path,点击编辑,新建,分别添加D:\Python\python27和D:\Python\python27\Scripts到环境变量。注意:python3安装时可以选择自动添加到系统环境变量,如未选择,方法和python2添加过程相同。2、修改python.exe名字为python2...
2018-06-21 20:32:01
772
原创 Python 中的 random.uniform( ) 函数教程与实例解析
random.uniform( ) 函数教程与实例解析1. uniform( ) 函数说明random.uniform(x, y) 方法将随机生成一个实数,它在 [x,y] 范围内。2. uniform( ) 的语法与参数2.1 语法# _*_ coding: utf-8 _*_import randomrandom.uniform(x, y)或# _*_ coding: utf-8 _*_...
2018-06-20 09:51:15
90582
5
原创 Python中列表(list)的extend( )和append( )方法区别解析
Python中列表(list)的extend( )和append( )方法区别解析 Python语言列表类型自带的extend( ) 和 append( ) 方法功能类似,但是在处理多个列表时,这两个方法的处理结果是完全不同的。 1、append( ) 方法 假定存在两个列表,a 和 b:a = [1, 2, 3]b = [4, 5, 6]a.append(b)p...
2018-06-14 17:06:17
527
原创 无监督学习——聚类算法(Unsupervised learning-clustering)通俗讲解
接触过机器学习(Machine learning)的看官都应该知道机器学习分为监督学习(supervised learning)和无监督学习(unsupervised learning)。通俗的来讲,监督学习是我们提供大量数据,并且这些数据都有其对应的具体标签(或具体的准确值、实际特征对应值),也就是算法中的y,例如:训练集{X,Y}。然后由我们利用回归算法或分类算法对数据进行训练...
2018-06-04 23:27:09
11777
1
转载 Python_sklearn库教程与例程
Python_sklearn数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。 原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。 如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去均值/标准差)。1.1 标准正态分布(...
2018-05-31 23:30:00
1515
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人