
机器学习基础
文章平均质量分 78
Swayzzu
这个作者很懒,什么都没留下…
展开
-
jupyter notebook的kernel无法启动问题
解决jupyter notebook的kernel 无法启动问题原创 2021-11-28 11:13:44 · 5470 阅读 · 4 评论 -
非凸函数求解
Set Cover Problem原创 2021-11-22 09:22:21 · 2611 阅读 · 0 评论 -
使用工具解决实际问题-线性规划
目录一、问题二、流程①确定目标②确定条件③寻找工具④工具解读⑤参数设置一、问题假设我们需要从北京(0号节点),运送一批货物到上海(7号节点),中间的1-6号节点都是中转站。如上图所示。不同的节点有不同的发送货物的上限,比如0发往1,最多发3吨,0发往2,最多发2吨,1可以发往4/5号节点,分别是最多5吨和1吨。如何能使从北京发往上海的发送的货物重量达到最大?二、流程①确定目标一次发送的货物重量最大,说明从0号节点出发的时候,量最大,因此..原创 2021-11-21 20:43:17 · 456 阅读 · 0 评论 -
逻辑回归和非监督学习
模型的保存与加载安装joblib:conda install joblib保存:joblib.dump(rf, 'test.pkl')加载:estimator = joblib.load加载后直接将测试集代入即可进行预测。逻辑回归分类算法线性回归的式子作为逻辑回归的输入。适用场景:二分类问题逻辑回归也能得出概率值。逻辑回归是解决二分类问题的利器逻辑回归的输入:sigmoid函数:根据以上函数图像,函数的输出值均在0-1之间。可将其视为概率值..原创 2021-09-19 10:50:10 · 1173 阅读 · 0 评论 -
线性回归与岭回归
线性回归:一种能预测的趋势线性关系,在二维中是直线关系,三维中是平面关系线性关系定义:y = wx+bb是为了对于单个特征的情况更加通用多个特征:w1*特征1+w2*特征2+b线性关系模型如上所示。数组和矩阵的区别0维数组:51维:[1,2,5,5,4,8]2为:[[1,4,5],[1,4,7]]3维:[[[1,4,5],[1,4,7]],[[1,4,5],[1,4,7]]]数组运算:加法,乘法矩阵:必须是二维。满足了特定的运算需求,矩..原创 2021-09-18 12:47:49 · 5151 阅读 · 0 评论 -
决策树与随机森林
程序中的if-then结构。利用这类结果分析数据。信息论。信息的单位:比特信息熵假设有32支球队,在不知道任何信息的情况下,以二分法去猜冠军,最多猜5次。此时:每个球队的夺冠概率为1/32,那么:5 = -(1/32log1/32 + 1/32log1/32 + ......)共32项相加。若有一点点信息,则使用二分法猜冠军的时候,次数一定比5次小,那么它的准确信息量应该是:H = -(p1logp1 + p2logp2 + ... + p32logp32)则H称为信息熵,单位为原创 2021-09-17 13:28:49 · 983 阅读 · 0 评论 -
朴素贝叶斯及模型选择、调优
概率基础概率:某件事情发生的可能性。联合概率:包含多个条件,并且所有条件同时成立的概率记作:P(A,B)P(A, B) = P(A) * P(B)条件概率:事件A在另外一个事件B已经发生的条件下的发生概率记作:P(A|B)特性:P(A1,A2|B) = P(A1|B)P(A2|B)注意:此条件概率的成立,是由于A1,A2相互独立的结果朴素贝叶斯原理:对于每一个样本,算出属于每一个类别的概率,归为概率最高的那一类。朴素贝叶斯:朴素意思就是特征独立P(科技|文档.原创 2021-09-16 13:10:51 · 2639 阅读 · 0 评论 -
k-近邻算法(KNN)
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(相似的样本,特征之间的值应该都是相近的。)距离求法:k-近邻算法需要做标准化处理API:k值取很小,容易受异常点的影响。k值取很大,容易受k值数量(类别)波动性能问题:样本数量越多,花费时间越长。优点:简单,易于理解,易于实现,无需估计参数,无需训练(不需要迭代)缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大必须指定K值,K值..原创 2021-09-16 10:57:54 · 256 阅读 · 0 评论 -
数据降维与机器学习算法
机器学习中的维度:特征的数量降维即减少特征数量方式:1.特征选择选择原因:冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有影响2.主成分分析特征选择主要方法:过滤式(VarianceThreshold)、嵌入式(正则化、决策树)、包裹式(不常用)过滤式:sklearn特征选择APIsklearn.feature_selection.VarianceThreshold没有最好的方差选择,需要根据实际效果选择方差。其他特征选择方法.原创 2021-09-14 13:16:33 · 444 阅读 · 0 评论 -
机器学习特征工程
一、机器学习概述机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测。二、数据集的构成历史数据的格式:csv文件不用mysql的原因:1、文件大的话读取速度慢;2、格式不符合机器学习要求的格式pandas:读取数据处理数据的工具。可用的数据集:Kaggle:大数据竞赛平台、80万科学家、真实数据、数据量巨大Kaggle网址:https://www.kaggle.com/datasetsUCI:360个数据集、覆盖科学生活经济等领域、数据量几十万原创 2021-09-13 11:36:52 · 165 阅读 · 0 评论