❥机器学习
文章平均质量分 71
搬运代码打工人
分享学习
记录日常
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
协同过滤推荐算法的原理及实现(基于item算法细节)
协同过滤推荐算法的原理及实现(基于item算法细节)对于新网站,或数据量较小的网站,建议搭建的推荐系统为:基于item实现的协同过滤推荐。转载 2019-12-31 11:42:54 · 811 阅读 · 0 评论 -
python数据科学(2)
1. Numpy 库# import numpy as np# 创造数组a_list = [1, 2, 3]an_array = np.array(a_list)print(an_array)# 指定数据类型an_array = np.array(a_list, dtype = float)print(an_array)# 创建矩阵a_listoflist = [[1, ...原创 2019-12-27 14:23:27 · 929 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(0)【机器学习】
同样的颜色不同的方块是同一个类型的,这边的蓝色的方块,指的是学习的情景,通常学习的情景是你没有办法控制的。比如,因为我们没有data做监督学习,所以我们才做reinforcement learning。现在因为Alpha Go比较火,所以Alpha Go中用到的reinforcement learning会被认为比较潮。所以说有学生去面试,说明自己是做监督学习的,就会被质疑为什么不做reinforcement learning。那这个时候你就应该和他说,如果我今天可以监督学习,其实就不应该做reinfor.原创 2021-07-12 21:06:22 · 200 阅读 · 2 评论 -
转:python 实现高斯混合模型GMM | 可视化
转:python 实现高斯混合模型GMM | 可视化转载 2021-06-07 08:31:35 · 1463 阅读 · 0 评论 -
【集成学习(案例)】蒸汽量预测
集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量原创 2021-05-23 23:39:34 · 356 阅读 · 0 评论 -
【集成学习(案例)】幸福感预测
集成学习案例一 (幸福感预测)背景介绍幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗?另外,在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣;同时与大家生活息息相关,每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性,生活中是不是将多一些乐趣;如果能找到影响幸福感的政策因素,便原创 2021-05-18 22:14:40 · 556 阅读 · 0 评论 -
【集成学习(下)】Stacking
3. Stacking集成学习算法这里详细讲解一下 stacking 的 cvBlending与Stacking对比:Blending的优点在于:比stacking简单(因为不用进行k次的交叉验证来获得stacker feature)而缺点在于:使用了很少的数据(是划分hold-out作为测试集,并非cv)blender可能会过拟合(其实大概率是第一点导致的)stacking使用多次的CV会比较稳健基于前面对Blending集成学习算法的讨论,我们知道:Blending在集成的过程原创 2021-05-14 00:09:25 · 614 阅读 · 0 评论 -
深度学习——激活函数
深度学习激活函数汇总转载 2021-05-13 14:50:29 · 121 阅读 · 0 评论 -
【集成学习(下)】Blending
Blending不知道大家小时候有没有过这种经历:老师上课提问到你,那时候你因为开小差而无法立刻得知问题的答案。就在你彷徨的时候,由于你平时人缘比较好,因此周围的同学向你伸出援手告诉了你他们脑中的正确答案,因此你对他们的答案加以总结和分析最终的得出正确答案。相信大家都有过这样的经历,说这个故事的目的是为了引出集成学习家族中的Blending方式,这种集成方式跟我们的故事是十分相像的。如图:(图片来源:https://blog.youkuaiyun.com/maqunfi/article/details/8222011原创 2021-05-11 23:34:03 · 174 阅读 · 0 评论 -
高维数据可视化
数据降维与可视化——t-SNE转载 2021-05-09 14:11:50 · 240 阅读 · 0 评论 -
【集成学习(中)】XGBoost 和 lightgbm
6. XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted,包括前面说过,两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gradient Boosting框架下实现机器学习算法。 XGB原创 2021-04-27 01:10:50 · 517 阅读 · 0 评论 -
python聚类分析
聚类分析转载 2021-04-24 11:32:01 · 406 阅读 · 0 评论 -
python 因子分析
因子分析转载 2021-04-24 11:19:12 · 226 阅读 · 0 评论 -
【集成学习(中)】GDBT
4. 前向分步算法¶Adaboost中:计算M个基本分类器,每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost每次学习单一分类器以及单一分类器的参数(权重)。接下来,我们抽象出Adaboost算法的【抽取整体框架逻辑】,构建集成学习的一个非常重要的框架----前向分步算法,在这个框架,我们不仅可以解决分类问题,也可以解决回归问题。(1) 加法模型:在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即:f(x)=∑m=1Mβmb(x原创 2021-04-23 23:51:59 · 257 阅读 · 0 评论 -
【集成学习(中)】adaboost
1. 导论回顾:Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是通过不断减少偏差的形原创 2021-04-20 22:52:14 · 185 阅读 · 0 评论 -
【集成学习(中)】bagging
bagging的思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的【果然没那么简单】,因此一个简单的思路是通过不同的采样增加模型的差异性。bagging的原理分析Bagging的核心在于自助采样(bootstrap): 有放回的从数据集中进行采样【目的是增加模型的差异性】,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子原创 2021-04-18 01:44:48 · 211 阅读 · 0 评论 -
python 科研 曲线图
python科研 曲线图转载 2021-04-17 15:00:58 · 348 阅读 · 0 评论 -
【集成学习(中)】集成学习投票法
投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据,并以少数服从多数的方法确定正确的传输数据。一般情况下,错误总是发生在局部,因此融合多个数据原创 2021-04-15 01:33:26 · 547 阅读 · 0 评论 -
【集成学习(上)】机器学习基础_06
(4) 评估模型的性能并调参:萌神知乎:https://zhuanlan.zhihu.com/p/140040705from sklearn import datasetsimport pandas as pdiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] = yda原创 2021-03-30 01:21:11 · 317 阅读 · 0 评论 -
【集成学习(上)】机器学习基础_05
2.2 使用sklearn构建完整的分类项目(1) 收集数据集并选择合适的特征:在数据集上我们使用我们比较熟悉的IRIS鸢尾花数据集。import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target原创 2021-03-28 00:19:16 · 158 阅读 · 1 评论 -
【集成学习(上)】机器学习基础_04
(5) 对模型超参数进行调优(调参):在刚刚的讨论中,我们似乎对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数λ\lambdaλ应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数λ\lambdaλ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身就是最优化的任务之一,我们脑海中浮原创 2021-03-25 00:46:13 · 208 阅读 · 0 评论 -
【集成学习(上)】机器学习基础_03
(4) 优化基础模型(a) 训练均方误差与测试均方误差:在回归中,我们最常用的评价指标为均方误差,即:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=N1i=1∑N(yi−f^(xi))2,其中f^(xi)\hat{ f}(x_i)f^(xi)是样本xix_ixi应用建立的模型f^\hat{f}f^预测的结果。如果我们所用的数据是训练集上的数据,那么这个误差为原创 2021-03-22 22:21:44 · 231 阅读 · 0 评论 -
【集成学习(上)】机器学习基础_02
# 引入相关科学计算包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline plt.style.use("ggplot") import seaborn as sns2. 使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并原创 2021-03-18 22:41:42 · 225 阅读 · 0 评论 -
【集成学习(上)】机器学习基础_01
1.导论1.0 定义与分类:定义1: Tom Mitchell:根据优化过程抽象定义机器学习机器学习本质上属于应用统计学,更多地关注如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。定义2: 花书《深度学习》:论计算在机器学习中的重要性【指出计算能力得到了利用 (实际上强调了对计算能力的使用),而传统的统计概念置信区间则不再强调。】机器学习本质上属于应用统计学,更多地关注如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。有监督学习和无监督学习。有监督学习原创 2021-03-16 00:30:19 · 405 阅读 · 2 评论 -
DQN - boqi - 1
概括与基础0.1 0.1强监督学习和强化学习的区别强化学习输入的是序列数据,而不是独立数据并不知道每一步正确的行为是什么强化学习过程是一个不断的试错过程:trial-and-error exploration没有一个监督,只有延迟的奖励信号agent行为影响后续数据:需要交互现实生活中,强化学习例子下象棋自然界,鹿学会战力股票购买,最大化收益玩游戏最近将强化学习和深度学习结合起来,形成了新的深度强化学习从传统方法到深度学习的方法从设计特征 —》到 end -原创 2021-01-13 15:37:01 · 189 阅读 · 0 评论 -
相对熵KL divergence与交叉熵Cross-Entropy
转载记录一下交叉熵(Cross-Entropy)转载 2019-08-05 16:39:43 · 364 阅读 · 0 评论 -
Compared CD Algorithm
Algorithmoptimism objectiveComplexitylimitationMultilevelusing Fast-Unfolding to find maximum Q-modularityO(V)O(V)O(V)seldom used in small networkEdge-betweennessminimize the betwee...原创 2019-07-24 08:49:35 · 144 阅读 · 0 评论 -
python实现ReLU算法
在stackoverflow上有人讨论使用numpy快速实现relu激活函数的方法。import numpy as npx = np.random.random((5000, 5000)) - 0.5print("max method1:")%timeit -n10 np.maximum(x, 0)print("max method2:")%timeit -n10 np.maxim...转载 2019-07-10 21:40:42 · 3605 阅读 · 0 评论 -
社区检测(网络分析)(图聚类)---进阶概念解析
向心性的计算临近节点(Neighbourhood)集中系数(Clustering Coefficient):节点的集中系数 == 其临近的节点中有边相连的节点数/其临近节点总数。图的集中系数是其每个节点的聚类系数的平均数。节点的集中系数表现了这个节点的临近节点的集中情况。图的集中系数表明图的集中水平。度中心性(Degree Centrality):计算一个节点的边数,度中心性关注单个节点。...原创 2019-07-09 12:47:33 · 4323 阅读 · 0 评论 -
理解SVM的三层境界
写的真的好,偶然看到,记录一下,理解SVM的三层境界转载 2019-06-13 20:53:07 · 322 阅读 · 0 评论
分享