- 博客(10)
- 收藏
- 关注
转载 异常检测用几种方法
在污染的数量已知的情况下,下面的例子介绍了执行野点和异常检测的两种不同方式:基于协方差的稳健估计,假设数据是高斯分布的,那么在这样的案例中执行效果将优于One-Class SVM;利用One-Class SVM,它有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果,例如两个截然分开的数据集;正常值和异常值的真实状况是由点的颜色而定的,橙色填充的区域则表示这部...
2014-07-07 01:17:00
241
转载 Scikit-Learn:开源的机器学习Python模块(转载)
摘要:scikit-learn是一个用于机器学习的Python模块,其具有操作简单、效率高、无访问限制、BSD开源协议等等特征,在机器学习这一块是比较受欢迎的。scikit-learn是一个用于机器学习的 Python 模块,建立在SciPy基础之上,获得3-Clause BSD 开源许可证。这个项目是由 David Cournapeau在 2007 年发起的一个...
2014-07-06 22:14:00
205
转载 100 的阶乘末尾有多少个0?
写这篇随笔的原因是对博客http://blog.youkuaiyun.com/liming0931/article/details/7766861一文中的源码改进: 1 int getfn_1(const int n) 2 { 3 int counter=0; //the counter! 4 int flag=n; 5 while(flag) ...
2014-07-04 21:12:00
186
转载 WEKA中的数据预处理
数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。标准化(standardize):类weka.filters.unsupervised...
2014-06-30 00:31:00
340
转载 WEKA运行参数修改(RunWeka.ini文件)
一般使用weka进行数据挖掘的时候会碰到两个问题,一是内存不够,二是libsvm使用不了,这时就需要重新配置RunWeka.ini文件,解决上述问题。查看RunWeka.ini原文如下: 1 # Contains the commands for running Weka either with a command prompt 2 # ("cmd_console") or ...
2014-06-29 12:50:00
611
转载 用 WEKA 进行数据挖掘——第二章: 回归
回归回归是最为简单易用的一种技术,但可能也是最不强大(这二者总是相伴而来,很有趣吧)。此模型可以简单到只有一个输入变量和一个输出变量(在 Excel 中称为 Scatter 图形,或 OpenOffice.org 内的 XYDiagram)。当然,也可以远比此复杂,可以包括很多输入变量。实际上,所有回归模型均符合同一个通用模式。多个自变量综合在一起可以生成一个结果 — 一个因变量。然...
2014-06-27 21:07:00
849
转载 用 WEKA 进行数据挖掘 ——第一章:简介
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato Env...
2014-06-27 20:58:00
195
转载 数据挖掘简介(转载)
1.1 数据挖掘的定义Data mining is the process of seeking interesting or valuable information in large database. 数据挖掘(datamining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、...
2014-06-25 21:38:00
190
转载 windows下Perl如何读取大文件的最后一行(总结)
Perl中读取文件最后一行的方法很多,比如(1)将文件读入数组,取最后一个元素open (FILE,"file.txt") or die "$!";my @arr=<FILE>;;close FILE;my $last=$arr[$#arr];#$last里就是最后一行的内容了。(2)一行一行读入,到最后一行时输出open ...
2014-06-25 00:33:00
813
转载 常用神经网络模型及其应用评述(转载)
神经网络是由大量处理单元(神经元)互相连接而成的网络,实际上ANN并不完全模拟了生物的神经系统,而是一种抽象、简化和模拟。神经网络的信息处理通过神经元的相互作用来实现,知识与信息的存贮表现在网络元件互连的分布式结构与联系,神经网络的学习和识别各神经元连接权系数的动态演化过程。实践中常用的基本神经网络模型有:感知器神经网络、线性神经网络、BP神经网络、径向基神经网络、自组织神经网络、反...
2014-06-24 00:21:00
338
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人