
机器学习
急着吃饭的李先生
苟全性命于乱世,不求闻达于诸侯。
展开
-
基于内容的推荐
1 推荐系统概论推荐系统可以分为三个阶段人类手工生成的推荐系统早期的门户网站,里面的内容都是由网站编辑手工选择的,这也是一种原始的推荐系统简单的聚合推荐系统例如KTV里面的歌曲点播排行榜,畅销书排行榜,电影票房排行榜,按照物品的时间性质推荐,例如最近上架的新品推荐真正的个性化,千人千面的推荐系统Amazon的商品推荐,Netflix的电影推荐...原创 2019-11-29 07:12:51 · 162 阅读 · 0 评论 -
层次聚类
1 层次聚类与距离计算通过层次聚类我们可以对原有样本数据做层次上的划分。相反,K-Means算法本身是扁平化的,不具备任何层次的概念。K-Means的不足之处:使用K-Means需要指定K值对于不规则的样本,K-Means算法的表现也会比较差K-Means算法在聚类时不能捕获层次关系层次聚类算法的好处就是通过算法自动给数据做分层,数据之间的层次关系一目了然对于层次聚类,通常有两种...原创 2019-11-28 20:50:00 · 209 阅读 · 0 评论 -
机器学习笔记
1.线性分类器与非线性分类器的区别以及优劣如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归常见的非线性分类器:决策树、RF、GBDT、多层感知机SVM两种都有(看线性核还是高斯核)线性分类器速度快、编程方便,但是可能拟合效果不会很好非线性分类器编程复杂,但是效果拟合能力强...原创 2019-11-10 15:40:59 · 156 阅读 · 0 评论 -
RFM模型与用户分层
RFM模型与用户分层原创 2019-09-17 12:08:58 · 561 阅读 · 0 评论 -
集成模型之提升(Boosting)
首先回顾一下什么叫Bagging? 比如在随机森林里,针对于样本数据,我们同时训练了多棵决策树,然后让这些决策树通过投票的方式来参与预测。这种方式的好处也讲过,可以很好地提升模型的稳定性。 其实任意的集成模型只要训练得合理都具备这种特性的,Boosting也不例外。...原创 2019-10-28 18:59:08 · 291 阅读 · 0 评论 -
Tushare简介
量化投资,也就是通过数量化的方式和模型去做投资决策。量化投资是一个很庞大的领域,从量化投资开始至今,衍生出了大量的投资理念和策略。纵观国内外量化投资现状,国内其实刚刚起步,还有很长的路要走,这里包括数据的完整性、透明性等。 国内目前散户(个人投资者)很多,但比如像美国这些欧美国家,绝大部分是以机构投资者为主的,而且他们很多都在使用量化投资技术。...原创 2019-10-17 22:50:15 · 725 阅读 · 0 评论 -
决策树
在所有的机器学习模型中,决策树是最贴近咱们生活的!从数据中学习决策树,需要学习三样东西:树的形状每一个决策的阈值θ叶节点的值一棵决策树也具有大量的参数,但树本身是具有结构的。结构的学习也叫作Structured Prediction,因为这种问题不像之前讨论的比如回归问题只需要预测一个值就可以了,而是同时也要学出一种具体的结构。结构的学习一般来说都很难,很多都是NP-hard问题。...原创 2019-10-16 07:16:35 · 359 阅读 · 0 评论 -
文本表示与tf-idf
文本本身属于非结构化数据,而且我们要知道非结构化数据是不能直接作为模型的输入的。如何把一个单词表示成向量?第一种,也是最简单的表示法叫作独热编码的表示。词典:[机器,学习,有,意思,人工智能,是,未来]每个单词的表示:机器:(1,0,0,0,0,0,0)学习:(0,1,0,0,0,0,0)意思:(0,0,0,1,0,0,0)未来:(0,0,0,0,0,0,1)单词的表示了解完了,...原创 2019-10-15 16:45:21 · 472 阅读 · 0 评论 -
文本预处理技术
在本节我将搭建一个情感分析系统,它是文本领域最为经典的项目之一,在各行各业中有着广泛的应用。具体的源代码将放在我的项目实战专栏。情感分析问题本身是,给定一个文本并输出它的情感值,情感值无非是正面、负面或者中性。我们希望通过使用一种算法去识别一个文本的情感,这个问题本身属于文本分类问题。 如果只是正面或者负面,就是二分类问题;但如果是正面、负面和中性,则是三分类问题。情感分析的场景非常多:量...原创 2019-10-14 19:47:34 · 576 阅读 · 0 评论 -
生成模型与判别模型
生成模型指的就是一种可以用来生成数据或者样本的模型。曾经有没有想过能否让机器写程序? 能不能让机器学会画画? 能否让机器给自己编一个曲子? 这就是生成模型可以做的事情,无非就是效果上能不能达到要求罢了。训练一个生成模型不仅可以用来完成识别任务,也可以生成一些样本,包括图片、文章、代码、视频、音频等等。虽然生成这些数据本身具有很大挑战,但至少从理论来讲是一条可行的道路。判别模型主要用来判别样本...原创 2019-10-14 19:36:09 · 185 阅读 · 0 评论 -
朴素贝叶斯
文本分类领域永恒的经典原创 2019-10-09 16:03:52 · 168 阅读 · 0 评论 -
网格搜索与贝叶斯优化
对于超参数的搜索,最常用的方法叫作网格搜索 (Grid Search),就是在可选的空间里,把每一种可能性逐一去尝试,也是工业界里最常用的方法。原创 2019-10-09 07:27:10 · 1576 阅读 · 0 评论 -
特征选择技术
特征选择技术是建模过程中最核心的部分,因为不一定所有的特征都有效,而且特征里包含的噪声也会影响着模型的效果。所以,最直接的方式就是:在建模前做一次特征选择,只保留有价值的特征。特诊选择的几种常见方法:...原创 2019-10-07 14:26:03 · 429 阅读 · 0 评论 -
精确率、准确率、召回率与F1-Score
TP: Ture Positive 把正的判断为正的数目 True Positive,判断正确,且判为了正,即正的预测为正的。FN: False Negative 把正的错判为负的数目 False Negative,判断错误,且判为了负,即把正的判为了负的FP: False Positive 把负的错判为正的数目 False Positive, 判断错误,且判为了正,即把负的判为了正的TN:...原创 2019-10-07 14:22:56 · 555 阅读 · 0 评论 -
模型的泛化能力、过拟合以及正则
为了构建一个泛化能力很强的模型,我们需要做几项关键的事情:选择正确的数据选择合理的模型选择合适的优化算法避免模型的过拟合第一、需要正确的数据。我们不能期待使用一个错误的数据来构建一个泛化能力强的模型。比如数据里包含了大量的噪声,这很难让我们训练出有效模型出来。第二、需要选择合适的模型。比如图像识别,我们都知道CNN是最合适的模型; 对于构建评分卡,可能集成模型是比较合适的。这里没有...原创 2019-10-02 20:26:00 · 1576 阅读 · 0 评论 -
ROC与AUC
ROC与AUC转载 2019-10-02 14:03:29 · 253 阅读 · 0 评论 -
无监督学习K-means
K-means的计算流程原创 2019-10-01 09:14:34 · 167 阅读 · 0 评论 -
缺失值处理及特征编码
1 缺失值处理删除法:相应的属性全部删掉删除相应的记录填补法:对于数值型(real-valued)变量,我们经常使用平均法则,就是用平均值来填补缺失值。2 特征编码机器学习项目的核心是建模,它的基础是数据。而且,它的输入一定是数值类型的,所以我们不能把一个字符串直接作为一个模型的输入,需要把字符串转换成数值类型,比如向量或矩阵形式。标签编码标签编码有一个不好的地方:如果我...原创 2019-09-24 12:15:09 · 686 阅读 · 0 评论 -
集成模型之随机森林
一种最实用而且最有效的模型 - ”集成模型(ensemble model)” 对于几乎所有的分类问题(除了图像识别,因为对于图像识别问题,目前深度学习是标配),集成模型成为了我们的首选。...原创 2019-10-16 14:54:08 · 541 阅读 · 0 评论 -
KNN复杂度分析及KD树
复杂度一般分为两种,时间复杂度和空间复杂度。这里的时间复杂度指的是程序运行时花费的时间,空间复杂度指的是内存消耗的大小。KNN在搜索阶段的时间复杂度是多少?我们都知道KNN在训练阶段不参与任何实质性的模型训练,但在测试阶段需要跟每一个样本做距离的计算。数据量少的时候倒没有关系,但一旦数据量很大时就成为一个瓶颈。假如有N个样本,而且每个样本的特征为D维的向量。那对于一个目标样本的预测,需要的...原创 2019-09-27 10:26:06 · 8769 阅读 · 0 评论 -
监督学习算法KNN
KNN算法1 KNN的介绍核心思想:给定一个预测目标,接下来计算预测目标和所有样本之间的距离或者相似度,然后选择距离最近的前K个样本,然后通过这些样本来投票决策。一般对于二分类问题来说,把K设置为奇数是容易防止平局的现象。但对于多分类来说,设置为奇数未必一定能够防平局。代码实现:#iris数据集是开源数据中最为重要的数据集之一。这个数据包含了3个类别,所以适合的问题是分类问题。iris...原创 2019-09-21 20:41:38 · 448 阅读 · 0 评论 -
多元线性回归模型
diamonds = pd.read_table("./diamonds.csv",sep=",")diamonds.head()上面的表格里提供了一份数据。它的目的是通过砖石的各个特性来预测其价格。我们尝试着使用多元线性回归来拟合这份数据。...原创 2019-09-27 18:42:55 · 610 阅读 · 0 评论 -
一元线性回归模型
1 一元线性回归在回归模型里,线性回归绝对是最简单的,但这并不妨碍它成为回归问题上的佼佼者。对于绝大部分的数据分析场景,线性回归是我们的首选。归其原因,有几点:模型简单且适用于大数据。训练起来也非常快,资源消耗也少。模型本身有非常好的可解释性。通过模型的训练,我们完全可以了解到哪些特征是有效的、哪些特征是无效的。而且,假如模型在线上环境出现了问题,我们也可以快速定位问题的根源是什么。由此可...原创 2019-09-27 13:57:37 · 517 阅读 · 0 评论 -
逻辑回归的目标函数
任何一个分类问题其实都可以使用逻辑回归来解决。至少,逻辑回归是一个非常靠谱的基准(Baseline)。**在设计模型阶段我们首先试图通过简单的方法来快速得到答案,这种方法所提供的结果可以认为是基准。**之后在这个基准的前提下,再通过一些优化手段来不断提升系统的性能。...原创 2019-09-30 20:19:09 · 3770 阅读 · 1 评论 -
聚类算法的评估方法
聚类算法的评估方法原创 2019-09-17 12:09:44 · 608 阅读 · 0 评论 -
人工智能概述
1 人工智能1.1 人工智能的概念我们可以把任何的一个事物,它只要具备了一定的智能,我们可以把它归类成人工智能人工智能是具备以下特征的一个系统:像人类一样思考像人类一样的行动具备理性思考能力具备理性的行动能力人工智能分为两类:限制领域人工智能(某一个特定场景下解决某一类特定的问题),比如:电商推荐系统金融评分卡医疗智能问答和通用型人工智能(像人类一样,几乎可以做任...原创 2019-09-19 09:53:15 · 356 阅读 · 0 评论