
机器学习实战
文章平均质量分 88
蓝亚之舟
个人网站:lanyazhizhou com,欢迎关注点赞支持!!
展开
-
python解决Failed building wheel for XXX
前言今天运行一个python机器学习项目,结果报错连连,出现两个问题:ERROR: Failed building wheel for XXXERROR: xxx.whl is not a supported wheel on this platform.觉得很有意义,这里记录一下。解决方案一个老项目要求sklearn版本是0.23.1的,我卸载当前版本,安装该版本时,报错如下: ERROR: Failed building wheel for scikit-learn Runnin原创 2021-05-12 10:01:39 · 65895 阅读 · 29 评论 -
针对CIC-IDS2017数据集机器学习算法对比
前言针对CIC-IDS2017数据集,采用了其中常见的机器学习算法对该数据集进行了训练和测试,这里记录一下测试结果。关于CIC-IDS2017数据集介绍可以参照:https://blog.youkuaiyun.com/yuangan1529/article/details/115024003?spm=1001.2014.3001.55011、采用算法和数据相关特征采用机器学习算法如下:支持向量机(SVM) 逻辑回归 K近邻算法 决策树 随机森林 朴素贝叶斯 Adaboo...原创 2021-03-20 12:59:13 · 10226 阅读 · 17 评论 -
学习weka(7):weka数据预处理方法
1、前言weka 数据预处理阶段全部在 filter 上:下面把一些常见的机器学习数据与处理方法处理说一下(下面所有实例都是在 Explorer 模块上进行的)。2、数据预处理方法可以看到其 filters 可以分为五类,重点是画红框的部分:supervised 是有监督的,unsupervised 是无监督的;每一种往下分,又分为基于 attribute(属性列)和 instance(实例),基于属性列是按照列来进行操作的,基于实例是按照数据行进行操作的。2.1 常见机器学习预处理方法常见原创 2021-04-11 09:34:54 · 18052 阅读 · 0 评论 -
学习weka(6):weka之workbench与simpleCLI详解
1、workBench从Weka 3.8.0开始,提供了一个名为Workbench的新用户界面。Workbench提供了一个多合一的应用程序,该应用程序包含了前面各节中描述的所有主要的WEKA GUI,如下图所示:这就没啥好说的了,之前几章各个界面功能都详细说明了,下面就不展开了。2、simpleCLI如上图所示,就是一个简单的命令行窗口,之前提到过,下面也不展开叙述了。...原创 2021-04-08 12:48:45 · 1233 阅读 · 1 评论 -
学习weka(5):weka之KnowledgeFlow详解
1、前言之前讲了 Explorer 和 Experiment 模块功能,这一章讲一讲 KnowledgeFlow(知识流)界面的功能。该模块功能在某些方面很实用,这里大概讲一下其使用原理:首先通过拉拽在画板上绘制机器学习流程图(右键各个模块图,可以设置参数),然后点击运行,整个算法会按照你绘制的流程图进行运行,最终给出结果。流程图示例如下:2、界面介绍如上图所示,总的来说共有 5 个区域,一一讲述:区域 1:菜单项,主要使用的就是 data mining process,后面 Atribu原创 2021-04-08 12:46:52 · 2550 阅读 · 5 评论 -
学习weka(4):weka之experimenter界面介绍
前言如上图所示,之前我们介绍了 Explorer 界面,说实话,对于一般的机器学习研究,尤其是工程性质的项目,我觉得 Explorer 应用就足够了(其他功能没看的前提下),毕竟数据加载,算法选择,特征选择,数据可视化,算法运行等功能已经足够齐全了。但是,这个功能只占据了 weka 五分之一,这就让我十分好奇,其他应用究竟是什么功能呢?让我们来看一下。1、简单介绍简单来说,experimenter 完成的功能有如下几个:支持多个算法对多个数据集进行运算支持分布式运算Explorer 应用原创 2021-03-26 12:26:42 · 2369 阅读 · 0 评论 -
学习weka(3):idea中集成weka
一、前期准备1、加入依赖百度搜索 maven,找到 maven 的 repository 仓库,寻找 weka 的依赖包:找到稳定版本(我下载 weka 软件的时候就是这个版本,没有犹豫,就是它了),点击进去选择对应版本,依然是和自己软件版本一致:点击进去可以看到对应的依赖语句代码了,当然也可以下载 jar 包,不过能偷懒就偷懒一下吧:<dependency> <groupId>nz.ac.waikato.cms.weka</groupId>原创 2021-03-20 21:00:03 · 4806 阅读 · 7 评论 -
学习weka(2):weka软件使用实例:针对kdd99数据集进行训练和测试
前言kdd99 数据集之前介绍过,没有看的可以参考:KDD CUP99数据集预处理(Python实现)这里拿 kdd99 数据集练练手,主要目的是熟悉一下 weka 的使用。1、数据集准备使用 WEKA 作数据挖掘,面临的第一个问题往往是我们的数据不是 ARFF 格式的。幸好,WEKA 还提供了对 CSV 文件的支持,而这种格式是被很多其他软件所支持的。虽然 weka 也支持 csv 格式,但是建议还是转为 ARFF 格式最好。1.1 简单打开一个 csv 文件(加载数据)(1)加载数据方式原创 2021-03-20 20:54:32 · 7536 阅读 · 2 评论 -
学习weka(1):weka软件安装使用教程
前言介绍[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f7lvlABt-1616221690906)(\weka下载安装教程\weka鸟图.jpg)]Weka 的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是 SPSS 公司商业数据挖掘产品–Clementine )的,基于 JAVA 环境下开源的机器学习(machine learning)以及数据挖掘(data min原创 2021-03-20 14:32:24 · 9048 阅读 · 0 评论 -
java调用python
前言这一章来学习如何使用 java 调用 python 机器学习模块,毕竟 python 在算法方法好用,但是做 web 项目还是 java 更优,最近有个项目想要集成机器学习算法,这里简单记录一下。java 调用 python,分三步来学习:第一步:java 调用 python 语句第二步:java 调用 python 脚本第三步:java调用python脚本函数(如何传递参数)第四步:java调用python机器学习模块并运行上面三步都需要调用 jython 库,两种加入项目方法:原创 2021-03-20 14:26:52 · 7966 阅读 · 4 评论 -
sklearn常用数据预处理方法
前言sklearn常用数据预处理方法比较常见的是标准化、归一化还有正则化,这些方法对于机器模型的训练有很大帮助,大多数时候不仅可以提高模型的准确度还可以减少训练时间。1、标准化(1)scale对每列数据进行快速标准化(z标准化),以均值为0,标准差为1的正态分布对每列数据进行标准化,应用公式为:代码:fromsklearnimportpreprocessingimportnumpyasnpx=np.array([[1.,-1.,2.]...原创 2021-03-20 13:15:13 · 2208 阅读 · 0 评论 -
CIC-IDS2017数据集训练和测试
1、数据集预处理1.1整合数据并剔除脏数据如上图所示,整个数据集是分开的,想要训练,必须要整合在一起,同时在数据集中存在Nan和Infiniti脏数据(只有第15列和第16列存在)需要剔除:具体代码如下:```pythonimportpandasaspd#按行合并多个Dataframe数据defmergeData():monday=writeData("data\MachineLearningCVE\Monday-W...原创 2021-03-20 11:08:17 · 25818 阅读 · 48 评论 -
CIC-IDS数据集特征介绍
###1、简介通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目,该项目对自1998年以来现有的11个数据集的评估表明,大多数数据集(比如经典的KDDCUP99,NSLKDD等)已经过时且不可靠。其中一些数据集缺乏流量多样性和容量,一些数据集没有涵盖各种已知的攻击,而另一些数据集将数据包有效载荷数据匿名化,这不能反映当前的趋势。有些还缺少特征集和元数据。CIC-IDS-2017数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs)。它的数据采集截至2017...原创 2021-03-20 10:57:45 · 29579 阅读 · 20 评论 -
机器学习实战(4)——朴素贝叶斯(下)
一、大概框架1、贝叶斯决策:对某个数据点进行分类,有多个类别供你选择,我们自然要选择可能性最大那个,这就是贝叶斯决策的核心思想举个例子:如果你面前有一个黑人,让你判断他是哪个洲的人,给你三个选择:亚洲人、非洲人、美洲人,你会选择哪个?哈哈哈,这么简单的问题,你居然还问的出口,当然是非洲人了,对,只要是个正常人就会选择非洲人,为什么呢?难道说亚洲人和美洲人中就没有黑人了吗?当然是有的,但是概率相当小...原创 2018-07-15 16:01:54 · 657 阅读 · 2 评论 -
机器学习实战(3)——朴素贝叶斯(上)(附带Python3源码与资源分享)
一、理论基础1、贝叶斯决策理论朴素贝叶斯是贝叶斯决策理论的一部分,后者是前者的基础,所以在讲述朴素贝叶斯之前,有必要快速了解一下贝叶斯决策理论。假设我们现在有一个数据集,它由两类数据(原点和三角)组成,数据分布图如下所示:因为图形的概率分布参数我们是已知的,所以如果现在有一点A(x,y),我们就可以根据概率分布得到这一点A属于这两个类别的概率是多少,这里我们用P1(x,y)表示数据点A属于类别1(...原创 2018-07-14 20:06:29 · 3042 阅读 · 0 评论 -
机器学习各种算法的理解(不断更新)
1、K-近邻算法刚刚吧K-近邻算法整理了一下,下面说一下我对它的理解(1)优点简单有效:效果很好(对于适用这个算法的问题来说),而且原理很简单,没有什么困难的数学公式来推导理解不需要很长时间的训练:只要有数据集就可以直接运行,不需要训练出模型是一种online算法:也就是它是一种在线算法,新数据可以直接加入数据集而不必重新训练(没有它本身就没有模型可言)(2)缺点首先,这个算法不是常规的机器学习算...原创 2018-06-28 20:40:48 · 1504 阅读 · 0 评论 -
机器学习实战(2)——决策树
一、概述说起决策树算法,其原理理解起来很容易,但是具体操作起来却有几个难点(比如如何选择决定属性,信息熵和信息增益是怎么回事)1、生活类比初入机器学习的小白可能觉得决策树是一个高大上的名词,但是其原理却非常简单,在我们生活中我们经常会用到他,比如我们在团体竞赛活动中经常玩的二十个问题游戏: 参与游戏的一方在脑海中幻象某个事物,其他参与者通过向他提问,只允许提20个问题,问题答案也只能用对或错来回答...原创 2018-07-03 09:07:30 · 1728 阅读 · 0 评论 -
机器学习实战(1)——K-近邻算法(源码和参考书在最后有附)
一、概述1、简单说,k-近邻算法(KNN)采用测量不同特征值之间的距离方法进行分类2、原理:(1) 数据集:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签(也就是说,我们知道样本集中每个数据与所属分类的对应关系)(2)分类:输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似(最邻近)的数据的分类标签。(3)K:一般来...原创 2018-06-26 19:23:47 · 3069 阅读 · 1 评论