
机器学习
文章平均质量分 94
分享总结机器学习的相关知识
爱喝水的lrr
这个作者很懒,什么都没留下…
展开
-
推荐系统之协同过滤推荐
目录协同过滤算法协同过滤的核心基于项目的协同过滤算法基于用户的协同过滤算法隐喻义模型参考协同过滤算法先介绍一下集体智慧集体智慧(collective intelligence)的核心原理是指在大量的人群的行为和数据中收集答案,帮助你对整个人群的到统计意义上的结论,这些结论是在单个个体上无法得到的,他往往是某种趋势或者人群中共性的部分。协同过滤是利用集体智慧的一个典型方法。协同过滤核心原理是指一般在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西原创 2020-08-06 22:38:21 · 601 阅读 · 0 评论 -
特征提取之文本分析(侧重从文本中挖掘有价值的特征)
目录背景文本分词N-gram特征统计N-gram中的概率计算N-gram的用途N-gram中N的确定参考关于作者背景因为平时建模过程中会碰到一些文本类的特征,所以整理了下该怎样处理文本特征,以及怎样做文本特征类的衍生,涉及到NLP的内容很浅显。如果想深入学习NLP,请移步到大神微博…文本分词利用python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。统计分词word前后word的分布概率,通过P(pre_word原创 2020-08-06 16:02:20 · 603 阅读 · 0 评论 -
支持向量机SVM相关总结
目录)简介算法原理算法特性参考简介支持向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大时它有别于感知机;SVM还包括核技巧,这是他成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的学习算法就是求解凸二次规划的最优化算法算法原理SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示原创 2020-08-05 22:53:08 · 1475 阅读 · 0 评论 -
贝叶斯算法小总结
目录贝叶斯定理朴素贝叶斯分类半朴素贝叶斯分类独依赖估计常见的版朴素贝斯算法SPODE和TAN优点&缺点参考贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故称为贝叶斯分类。贝叶斯定理已知某条件概率,如何得到两个时间交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)朴素贝叶斯分类朴素贝叶斯(分类器)是一种生成模型原创 2020-08-05 15:01:59 · 688 阅读 · 0 评论 -
数据降维算法总结(LDA&PCA)
目录LDAPCALDAPCA#https://blog.youkuaiyun.com/qq_17249717/article/details/82349860?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLear原创 2020-08-05 00:41:43 · 2061 阅读 · 2 评论 -
KNN算法小总结,小白必会系类
目录原创 2020-08-04 17:59:40 · 444 阅读 · 0 评论 -
五种聚类算法思想总结
目录聚类算法K-means聚类算法算法思想代价函数优点缺点改进参考聚类算法聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相同的属性和特征,不同组数据之间的属性或者特征相差就会比较大。K-means聚类算法算法思想K-means算法的思想比较简单,假设我们要把数据分成K个类随机选取k个点,作为聚类中心;计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就形成了k个簇再重新计算每个原创 2020-08-04 12:04:26 · 4451 阅读 · 0 评论 -
离群点检测方法总结
目录Isolation Forest定义算法流程参考异常检测(anomaly detection),或者又被称为离群点检测。异常数据分样本中大多数数据不太一样异常数据在整体数据样本中占比比较小异常数据的不同,可以利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度Isolation Forest孤立森林算法是一种适用于连续数据的无监督异常检测方法。与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同,孤立森林算法通过对样本点的孤立来检测异常值。具体来说,该原创 2020-08-03 17:34:53 · 1518 阅读 · 0 评论 -
集成算法总结
目录BaggingBoostingstacking常用的集成算法随机森林xgboostAdaboostGBDTLightgbm集成算法是构建多个学习器,通过一定策略结合来完成学习任务。正所谓三个臭皮匠顶一个诸葛亮,当弱学习器被正确组合时,我们能得到更精确、鲁棒性更好的学习器。由于个体学习器在准确性和多样性存在冲突,追求多样性势必要牺牲准确性。这就需要将这些“好而不同”的个体学习器结合起来。而研究如何产生并结合个体学习器也是集成学习研究的核心。集成学习的思想时将这些弱学习器的偏置或方差结合起来,从而创建一原创 2020-08-03 02:23:30 · 2400 阅读 · 0 评论 -
决策树分类与回归总结
目录决策树决策树原创 2020-07-24 00:57:13 · 2727 阅读 · 1 评论 -
总结线性回归和逻辑回归原理以及面试题
目录线性回归概念计算推导评估方法逻辑回归线性回归概念计算推导评估方法LDA 数据不平衡 多分类问题逻辑回归原创 2020-07-18 17:29:16 · 1207 阅读 · 1 评论 -
机器学习模型性能评估指标总结以及python实现
模型性能指标总结目录新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入目录你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Mar原创 2020-07-16 16:44:36 · 2425 阅读 · 5 评论 -
欠拟合/过拟合/正则化
欠拟合和过拟合目录新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入目录你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Mark原创 2020-07-14 15:13:15 · 556 阅读 · 0 评论 -
了解一下机器学习建模
了解一下机器学习建模什么是机器学习机器学习的分类监督学习无监督学习半监督学习强化学习机器学习建模流程什么是机器学习定义: 机器学习是一门研究如何让计算机不需要明确的程序也能具备学习能力的学科。这么说可能有点太笼统,简单举个小例子,方便大家理解机器学习的分类监督学习无监督学习半监督学习强化学习机器学习建模流程...原创 2020-07-07 01:50:52 · 618 阅读 · 0 评论