1. WEKA(Waikato Environment for KnowledgeAnalysis):怀卡托智能分析环境。
作为一个大众化的数据挖掘工作平台,WEKA集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等等。通过其接口,可在其基础上实现自己的数据挖掘算法。
(源代码地址:http://www.cs.waikato.ac.nz/ml/weka/)
2. WEKA的数据文件格式:
- ARFF(Attribute-Relation File Format):ARFF格式(.arff)是WEKA支持得最好的文件格式,这是一种ASCII文本文件。
- CSV:WEKA提供对CSV文件的支持,利用WEKA也可以将CSV文件格式转化成ARFF文件格式。
- WEKA提供通过JDBC访问数据库的功能。
3. ARFF文件结构:可以分为两个部分:头信息和数据信息。
① 头信息(Head information)

本文介绍了WEKA数据挖掘平台及其主要数据文件格式ARFF。ARFF文件由头信息(包括关系声明和属性声明)和数据信息组成,支持数值型、标称型、字符串型和日期时间型数据。WEKA还支持CSV文件转换,并能通过JDBC访问数据库。头信息定义了属性的名称和数据类型,数据信息包含实例数据,缺失值用问号表示。注意ARFF文件的格式规范,如注释、属性顺序和值的大小写敏感性。
最低0.47元/天 解锁文章
1492

被折叠的 条评论
为什么被折叠?



