
机器学习
文章平均质量分 57
zhourunan123
这个作者很懒,什么都没留下…
展开
-
机器学习----K-means(一)
1. 算法概述:聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用到所有对象,簇内的对象越相似,聚类的效果越好。K-means称为K-均值,是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。1.1 算法特点:优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢适用数据类型:数值型数据1.2 工作流程:K-means是...原创 2018-04-23 00:05:29 · 304 阅读 · 0 评论 -
机器学习----神经网络(实战)
import numpy as npdef tanh(x): return np.tanh(x)def tanh_deriv(x): return 1.0 - np.tanh(x)*np.tanh(x)def logistic(x): return 1/(1 + np.exp(-x))def logistic_derivative(x): r...原创 2018-05-17 17:42:48 · 1015 阅读 · 0 评论 -
Python下LDA的基础用法
"""第一部分:载入数据"""import numpy as npimport ldaimport lda.datasets # document-term matrixX = lda.datasets.load_reuters()print("type(X): {}".format(type(X)))print("shape: {}\n".format(X.shape))...转载 2018-07-12 00:11:42 · 8745 阅读 · 0 评论 -
机器学习----过拟合和欠拟合
过拟合(1)什么是过拟合?模型学习能力太强,以至于把噪声数据的特征也学习到了,导致模型泛化能力下降,在训练集上表现很好,但是在测试集上表现很差。(2)过拟合出现的原因:训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度; 训练集和测试集特征分布不一致; 样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系; 权值学习迭代次数...原创 2018-07-24 21:30:55 · 584 阅读 · 0 评论 -
机器学习----神经网络(一)
1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以下部分组成: ...原创 2018-05-17 16:40:42 · 206 阅读 · 0 评论 -
机器学习----简单线性回归
基础知识:应用: import numpy as npdef SLR(x,y): #x,y是两个列表,且长度相同 n = len(x) #初始化分子 numerator = 0 #初始化分母 denominator = 0 for i in range(0,n): numerator += (...原创 2018-05-04 12:13:30 · 171 阅读 · 0 评论 -
机器学习----KNN算法(一)
k近邻(k-nearest neighbor,K-NN)1968年提出了最初的邻近算法是一种基于分类和回归的算法基于实例的学习、懒惰学习算法思想:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来预测。通常,在分类任务中,可使用“投票法”,即选择这k个样本中出现最多的类标标记作为预测结果;在回归任务中,可使用“平均法”,即将这k个样本的实值输出标记的平均...原创 2018-04-22 22:10:13 · 212 阅读 · 0 评论 -
机器学习----KNN(Python调用sklearn库)(二)
#导入sklearn库中的neighbors,datasets模块# from sklearn import neighbors# from sklearn import datasetsfrom sklearn import neighbors,datasets#KNN分类器knn = neighbors.KNeighborsClassifier() iris = datasets....原创 2018-04-22 22:04:40 · 2599 阅读 · 0 评论 -
机器学习----KNN(Python实现)(三)
#导入csv,读取数据import csv#导入random,进行随机变量的运算import random#导入math,进行数学运算import mathimport operator#下载算法所需的数据集,并将数据集分为训练集和测试集#参数:filename文件路径名;以split为界限将数据集分为训练集(产生模型)和测试集;def loadDataset(filename...原创 2018-04-22 22:00:04 · 198 阅读 · 0 评论 -
机器学习----基础知识
机器学习的特点:机器学习算法以数据和特征为基础,是数据驱动的科学;机器学习的目标是对数据进行预测与分析;机器学习以模型方法为中心,并利用统计学习的方法构建模型,并且利用构建好的模型对未知的数据进行预测和分类;机器学习是以概率论、统计学、信息论、计算理论、最优化以及计算机科学等多领域交叉的学科,因此要想在机器学习上有所成绩,必须要有深厚的数学基础。 机器学习的对象:特征:是最后需要输入到模型中进行...原创 2018-04-21 12:31:34 · 535 阅读 · 0 评论 -
机器学习----决策树(一)
资料来源:麦子学院---深度学习基础:机器学习基础介绍:机器学习 彭亮老师原创 2018-04-23 22:19:35 · 215 阅读 · 0 评论 -
机器学习----十大经典算法(总)
一、C4.5算法C4.5是决策树算法ID3的改进,它继承了ID3 算法的优点,并用信息增益率选择划分属性,能处理非离散或不完整的数据。二、K均值(K-means)算法K-means是基于距离的聚类算法,师徒找出满足方差最小的K个聚类。三、支持向量机(SVM)SVM选择合适的核函数将低维空间中难以划分的向量集映射到高维空间,建立一个分割超平面使其与支持向量的距离最大。四、最大期望(EM)算法EM算法...原创 2018-05-01 09:52:01 · 1903 阅读 · 1 评论 -
机器学习的学习方式
一、监督学习监督学习通过预测结果与实际结果的比较不断调整模块,直到预测结果达到预期,常用于分类和回归问题。二、无监督学习无监督学习的目标是通过对无关标记的样本的学习,发现数据内在的性质和规律。常见应用包括关联规则的学习及聚类等。三、半监督学习输入的数据分为已标识和未标识两部分。模型通过学习数据内在结构,合理地组织数据进行预测。常用于分类和回归。四、强化学习强化学习将输入数据直接反馈到模型,模型必须...原创 2018-05-01 10:01:18 · 722 阅读 · 0 评论 -
机器学习----决策树ID3之Python实现(二)
from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import preprocessingfrom sklearn import treefrom sklearn.externals.six import StringIOallElectronicsData = open("F:\\t...原创 2018-04-24 14:50:40 · 232 阅读 · 0 评论 -
机器学习----K-means(二)
%matplotlib inline # -*- coding: utf-8 -*-'''K均值聚类'''from numpy import *import numpy as npdef loadDataSet(fileName): '''导入数据''' dataMat = [] fr = open(fileName) for line in fr.r...原创 2018-04-24 14:54:50 · 264 阅读 · 0 评论 -
机器学习----面试题目总结(一)
以下题目来自:微信公众号(人工智能头条)你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类?假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。你如何阅读扫描版pdf文件或图像格式的书面文件的内容?朴素贝叶斯为什么被称为“朴素”?请详细介绍一下朴素贝叶斯分...原创 2018-04-24 15:33:52 · 680 阅读 · 0 评论 -
机器学习----面试题目总结(二)
源自:微信公众号(人工智能头条)----阿里机器学习七面面经一面(现场面)由于现场面大部分原理都需要手写解释。监督学习非监督学习啥区别,word2vec 属于啥类型xgb,gbdt啥区别l1,l2正则原理、区别xgb中l1正则怎么用的python 中 list 底层怎么实现list dict有什么区别手写对dict排序介绍项目,从项目中又问了一些二面(现场面)二面大哥是临时叫来的,没看过我的简历,...原创 2018-04-24 15:37:48 · 296 阅读 · 0 评论 -
机器学习----SVM实现(一)
调用sklearn 库实现SVM:实战一:from sklearn import svmX = [[2,0],[1,1],[2,3]]y = [0,0,1]clf = svm.SVC(kernel = 'linear')clf.fit(X,y)print(clf)print(clf.support_vectors_)print(clf.support_)#每类中有几个支持向量p...原创 2018-04-24 17:47:37 · 530 阅读 · 0 评论 -
机器学习----正则化
L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。L0正则:模型参数中非零参数个数;L1正则:模型各参数绝对值之和;L2正则:模型各个参数的平方和的开方值。L1和L2的区别:L1是模型各个参数的绝对值之和。L2是模型各个参数的平方和的开方值。使用L1可以得到稀疏的权值;用L2可以得到平滑的权值L1会趋向于产生少量的特征,而其...原创 2018-07-24 21:34:45 · 386 阅读 · 0 评论