
机器学习
文章平均质量分 80
Ichimaru_Gin_
不能总做自己会的东西!
展开
-
机器学习驱动的语言测试
这里写自定义目录标题机器学习驱动的语言测试背景Item Response Theory (IRT, 项目反应理论或潜在特质理论)computer-adaptive testing (CAT,计算机自适应测试)The Common European Framework of Reference (CEFR, 欧洲语言共同参考框架)测试结构和测试形式The Vocabulary Scale 词汇评级特征模型实验The Passage Scale 文章评级模型特征语料库文章难度排名实验文章难度评级实验事后验证实验翻译 2020-06-22 21:49:02 · 1579 阅读 · 0 评论 -
机器学习----K-近邻算法(Python代码详解)
本博文的内容主要是我在自学《Machine Learning in Action》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。 距离采用欧式距离计算公式,计算两个向量点xA和xB之间的距离: d=(xA0−xB0)2+(xA1−xB1)2−−−−−−−−−−−−−−−−−−−−−−−√ d = \sqrt{(xA_0-原创 2016-10-10 19:56:13 · 1056 阅读 · 0 评论 -
机器学习 Logistic回归 原理Python实现
基本思想回归:假设有一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称为回归。Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类,使用最优化算法寻找最佳拟合参数。Logistic回归优缺点优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 使用数据类型:数值型和标称型Sigmoid函数为了对数据进行预测分类,原创 2016-11-28 16:40:14 · 2320 阅读 · 0 评论 -
ID3 决策树 Python实现
算法原理根据信息增益的评判准则,选择一个当前最优的特征对数据集进行分割,递归此操作,直到最后被分割的子数据集只含有一种类型的样本或者用完所有的特征,最后选择该子集中多数的类别最为该子集的最终类别(当然也可以有)。信息增益熵(Entropy):指信息的期望值 熵是一个很玄的概念,人类的成长过程其实就是一个降低熵的过程,就像人刚出生事,大脑内的每一个神经元都是互相连接的,然后随着年龄的增长不断的断掉一原创 2016-11-17 09:41:34 · 531 阅读 · 0 评论 -
朴素贝叶斯原理及Python实现
朴素贝叶斯分类器优缺点优点:在数据较少的情况下依然有效,可以处理多分类问题 缺点:对输入数据的准备方式较为敏感 使用数据类型:标称型数据算法原理朴素贝叶斯分类器是基于贝叶斯概率理论构建的,即我们希望通过一个已知事务的先验概率(条件概率)去推测该事物的后验概率。 首先我们来回顾一下贝叶斯概率理论原理: 贝叶斯公式说明: 1,事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率原创 2016-11-22 11:09:41 · 1334 阅读 · 0 评论 -
KEEL 的一般操作步骤详细说明
源起实验室一个一位师姐着急赶毕业论文,时间紧张,我就帮她KEEL做了一些小实验。虽然去年用KEEL做过一些实验,但是猛地拿起来还是有些生疏,就在做实验的过程中整理了一下基本的操作过程,以防今后再突然要用的时候浪费时间。正文以做modules 里的Imbalanced实验为例。1,双击打开KEEL的执行jar包2,导入数据:选择Data Management2,选择 Import Data3,选择...原创 2018-03-08 19:45:04 · 7278 阅读 · 22 评论 -
Python sklearn KFold 生成交叉验证数据集
源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档>>> import numpy as np>>> from sklearn.m...原创 2018-03-06 11:23:40 · 17768 阅读 · 0 评论