
数据分析与机器学习
花花呼呼
这个作者很懒,什么都没留下…
展开
-
Kaggle机器学习之建模必要流程
Kaggle的机器学习教程中,概括了建模的几个常识或者必要流程。 1. 清洗好数据,得到X和y。 2. 选择合适的模型,面对未知的数据和业务需求可以先尝试不同的模型。 3. 将样本数据分为训练数据和检验数据两类,训练数据带入模型,参数可先从简,检验数据进行模型检验。 4. 模型参数优化,以防欠拟合和过拟合。清洗好数据,得到X和y。 2import pandas as pd...翻译 2018-06-02 21:47:06 · 760 阅读 · 1 评论 -
Python之数据可视化
背景在进行有效的数据处理和分析建模之前,需要事先深入的了解下数据,数据的可视化是非常必要和关键的一步。 1、pandas简单绘图单变量绘图,即只画其中一列数据,横坐标默认为index:# 柱状图df.plot.bar()# 折线图df.plot.line()# 直方图df.plot.hist()# 面积图df.plot.area()双变量绘图,即需要...原创 2018-06-15 15:10:57 · 3484 阅读 · 0 评论 -
Surfer绘制等值线图
本教程介绍如何用Surfer绘制如下效果的等值线图。(用GIS,Mapinfo也可以实现)其中,A1-A14为采样站位,该例子里红色区域为海域,放在陆地上一样的画,然后横坐标经度,纵坐标为维度。假如我们只有下面两个文件,数据文件data.xls和海岸线的bln文件渤海海岸线.bln,如下图,其中类似海岸线这种文件可以自己Surfer点取也...原创 2016-12-31 21:31:00 · 37875 阅读 · 5 评论 -
MATLAB自定义公式拟合
这里我们简单介绍下MATLAB拟合工具箱中自定义公式的拟合。以颗粒物PM为例子,我们有这样的处理好的excel数据,PM(电压),RH,Ref(标准PM值)。以 Ref = PM/(a +b*(RH^2)/(1-RH))为我们的自定义公式,求系数a和b。复制excel变量到MATLABMATLAB拟合工具箱拟合...原创 2017-07-21 15:38:00 · 18954 阅读 · 0 评论 -
简单求散点曲线面积并求均值
例:加热一根钢管,因为热损耗及加热不完美均匀的问题,钢管上温度分布不均匀,通过测量不锈钢管上的温度分布,我们得到了下面这样的一个曲线,然后如何求钢管上的平均温度。不锈钢管上温度分布思路:这里我们用积分(曲线下面积)然后除以起始测量的距离差。直接求平均会有较大误差,一是温度分布没规律,二是如果测量时没有等距测量误差则更大方法一、Exc...原创 2018-02-08 13:40:00 · 9222 阅读 · 0 评论 -
灰色模型(GM)的局限浅谈
灰色模型就是当有很多未知因素左右变量时,对变量进行预测的建模。以灰色系统中单序列一阶线性微分方程模型GM(1,1)模型最为常用,具体介绍看该论文。MATLAB封装好的gm11.m函数可在这里下载,已经验证。接下来我们检验下预测的效果,我们先对于没有什么规律的数据进行预测看看,因为有规律的数据譬如GDP年增长,人口增长之类的还是蛮准的。一、无规律的数据例如,一个早上7点50的石家庄到深...原创 2017-07-22 00:19:00 · 14591 阅读 · 0 评论 -
Matlab—颜色图、簇状堆积柱状图和阴影Error Bar
Matlab里内置了很多绘图函数,也有很多开源的可以下载(Google很容易检索到)。这里介绍三种最近碰到的主要用于Paper里的几种图,有的可以用Excel绘制,但是相当繁琐,有那个时间去百度去谷歌,不如直接Matlab(或者其他很多工具像Origin,Suffer,R语言和Python等),写点code,一劳永逸。直入正题:1. 颜色图主要的函数是...原创 2016-12-12 19:55:00 · 7219 阅读 · 0 评论 -
Excel批量自动处理数据——indirect与averageifs
在很多工作里,我们都会接触到大量固定格式的数据,大部分还可以用Excel打开,面对这些数据的处理,专业点的一般是编程处理,譬如matlab,Python和 R语言都是非常好用的。但是很多童鞋没接触过编程,也没时间学习或者对编程不感冒,所以我们今天介绍下用Excel批量处理下这样的数据,其思想与编程一样。1. 取自己想要的值indirect ()假如我们...原创 2016-12-14 00:03:00 · 3146 阅读 · 0 评论 -
MATLAB神经网络简单预测--气体传感器
很多模式或关系不清晰的情况下,比较适合用神经网络。关于神经网络本身,最近发展的很快,应用也越来越广,自行谷歌。本文使用的为最为流行的前馈神经网络(feed-forward neural network),网络各层使用默认的Sigmoid函数,以气体传感器为例简单介绍下MATLAB神经网络工具箱的使用。我们有下面的数据原始电压CO_diff和温湿度(Te...原创 2017-06-14 21:27:00 · 2620 阅读 · 0 评论 -
非线性关系用线性拟合和人工神经网络拟合的对比分析
实际应用中有很多非线性关系的变量很迷惑人,让人误用(多元)线性回归,这篇文章对比分析了线性回归和人工神经网络对这种变量的拟合,然后介绍下这种误用带来的后果,同时也会加深我们对人工神经网络的理解。一、多元线性回归(MLR)与人工神经网络(ANN)--有模式我们用数学上一个人人皆知的例子,矩形面积= 长*宽,假如一个研究人员不知道矩形面积与长和宽的关系,他...原创 2017-06-21 20:29:00 · 3113 阅读 · 0 评论 -
将分类文本数据转换为模型可输入数据get_dummies
背景很多数据是文本类型的,譬如调查问卷中一些Yes or No选择,将其直接输入模型,很多时候会报错。这里提供一个简单的方法,将其用one-hot encoding pd.get_dummies()的方式转换一下。import pandas as pddf = pd.DataFrame({'a':[None,1,2,3],'b':[4,None,None,6],'c':[1,2,1...原创 2018-06-04 17:39:15 · 898 阅读 · 0 评论 -
机器学习之GridSearchCV模型调参
背景大部分机器学习模型都会有很多参数,不同的参数组合会产生不同的效果 ,如果模型数据量不是很大,也就是说运行时间不是很长,可以考虑使用GridSearchCV这个工具包自动选择输入参数中的最优组合。注意:在实际应用中,可能会遇到很大数据量,模型运行特别费计算资源和时间,这个时候用GridSearchCV可能会成本太高,需要对模型了解深入一点或者积累更多的实战经验,最后进行手动调参。代码...原创 2018-06-11 14:46:39 · 8916 阅读 · 0 评论 -
Python如何优雅地处理NaN
背景很多数据不可避免的会遗失掉,或者采集的时候采集对象不愿意透露,这就造成了很多NaN(Not a Number)的出现。这些NaN会造成大部分模型运行出错,所以对NaN的处理很有必要。方法1、简单粗暴地去掉有如下dataframe,先用df.isnull().sum()检查下哪一列有多少NaN: import pandas as pddf = pd.DataF...翻译 2018-06-04 14:22:07 · 106982 阅读 · 2 评论 -
SQL学习笔记
1. AS和INNER JOIN数据库pet_records上面两张表Pets和Owners,合成Pets_And_Owners,注意AS和INNER JOIN的用法:SELECT p.Name AS Pet_Name, o.Name as Owner_NameFROM `pet_records.pets` as pINNER JOIN `pet_records.owners` as o ON...翻译 2018-06-23 15:57:06 · 306 阅读 · 0 评论