
机器学习
手写的丶从前
对软件狂热的骚年
展开
-
搜索与排名
爬虫程序建立索引我们通过爬虫程序得到网站的信息之后,包括每一层的url信息和页面出现的单词,还包括链接上出现的单词等信息,这个时候我们就需要将这些信息存入数据库,并为它们建立索引。本书中建立的索引如下表wordlist保存了爬取到的单词的索引,表urllist保存了每个url的索引。表wordlocation保存了每个url对应页面上出现的wordid以及他们的locatio...原创 2018-07-03 15:58:34 · 281 阅读 · 0 评论 -
机器学习算法列表
机器学习:监督式学习(分类、回归):决策树(ID3、C4.5)、朴素贝叶斯、最小二乘回归、逻辑回归(Logistic)、支持向量机、传递神经网络 非监督式学习(关联、聚类):奇异值分解、主成分分析、独立成分分析、Apriori、K-Means 半监督式学习(分类、回归):图论推理、拉普拉斯支持向量机常见算法:正则化算法(Regularization Algorithms) 集成算法...原创 2018-07-30 18:28:22 · 477 阅读 · 0 评论 -
面试常见问题
1、GBDT和LR的差别。(这个问题可以推广的,和AdaBoost、RF、XgBoost,etc的差别)LR模型对于各个特征值得范围差别很大时候,如果不进行特征标准化,会导致训练出来大特征值的权重明显比其他特征要高很多,模型的准确性影响非常大。针对本次实验,X的第一个特征值增大100000倍以后,accuracy从0.95降低到了0.33。如果对特征值进行标准化以后,score会提升到90%...原创 2018-08-06 16:45:09 · 225 阅读 · 0 评论 -
各种机器学习的应用场景分别是什么?
写给懒得看的人:没有最好的分类器,只有最合适的分类器。随机森林平均来说最强,但也只在9.9%的数据集上拿到了第一,优点是鲜有短板。SVM的平均水平紧随其后,在10.7%的数据集上拿到第一。神经网络(13.2%)和boosting(~9%)表现不错。数据维度越高,随机森林就比AdaBoost强越多,但是整体不及SVM[2]。数据量越大,神经网络就越强。近邻 (Neares...转载 2018-08-06 16:46:21 · 657 阅读 · 0 评论 -
决策树、随机森林、AdaBoost、GBDT、Logistic回归、SVM
序言本文尽可能的不涉及到繁杂的数学公式,把面试中常问的模型核心点,用比较通俗易懂但又不是专业性的语言进行描述。希望可以帮助大家在找工作时提纲挈领的复习最核心的内容,或是在准备的过程中抓住每个模型的重点。实战环境说明:Python 2.7; Sklearn 0.19.0; graphviz 0.8.1 决策树可视化。一、决策树1.1 原理顾名思义,决策树就是用一棵树来...转载 2018-08-06 16:50:42 · 4903 阅读 · 0 评论 -
scikit-learn-线性回归(最小二乘法)
from sklearn import linear_modelreg = linear_model.LinearRegression()reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2]) 训练函数—————————>LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1,...原创 2018-08-02 13:48:52 · 666 阅读 · 0 评论 -
贝叶斯
高斯朴素贝叶斯特征可能性被假设为高斯: import numpy as npX = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])Y = np.array(...原创 2019-05-20 16:38:37 · 161 阅读 · 0 评论