
机器学习算法基础
文章平均质量分 83
桑之未落0208
努力学习数据挖掘的大学生
展开
-
Chapter 8无监督学习
无监督学习原创 2022-07-14 23:57:53 · 130 阅读 · 0 评论 -
Chapter 7 逻辑回归
逻辑回归原创 2022-07-14 22:14:35 · 434 阅读 · 0 评论 -
Chapter 6 线性回归、岭回归
线性回归与岭回归原创 2022-07-09 19:10:01 · 956 阅读 · 0 评论 -
Chapter 5 分类算法——决策树与随机森林
决策树与随机森林原创 2022-06-22 23:40:20 · 232 阅读 · 0 评论 -
Chapter 4 k-近邻算法与朴素贝叶斯
k-近邻的优缺点(1)k值大小k值取很小:容易受异常点影响k值取很大:容易受最近数据太多导致比例变化(2)优缺点:优点:简单,易于理解,易于实现,无需估计参数,无需训练缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大;必须指定K值,K值选择不当则分类精度不能保证。使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试。k-近邻算法实现:加快搜索速度——基于算法的改进KDTree,API接口里面有实现拉普拉斯平滑系数:问题:从上面的例子我们得到娱乐概率为0,这是不合理的,如果词频原创 2022-06-22 16:00:50 · 561 阅读 · 0 评论 -
Chpater 3 sklearn数据集与估计器
训练集:75%(推荐)、70%、80%。用于训练,构建模型测试集:25%(推荐)、30%、20%。在模型检验时使用,用于评估模型是否有效sklearn.datasets加载获取流行数据集datasets.load_()获取小规模数据集,数据包含在datasets里datasets.fetch_(data_home=None)获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/load和fetch返回的数据类型d原创 2022-06-16 16:31:46 · 187 阅读 · 0 评论 -
Chapter 2 特征工程、机器学习算法
其它特征选择方法神经网络降维案例使用Jupyterps:其他降维方法——线性判别分析LDA监督学习 :特征值+目标值分类(目标值离散型)—— k-近邻算法、贝叶斯分类、决策树与 随机森林、逻辑回归、神经网络回归(目标值连续型)——线性回归、岭回归标注——隐马尔可夫模型 (不做要求)无监督学习:特征值聚类——k-means...原创 2022-06-15 20:26:32 · 153 阅读 · 0 评论 -
Chapter 1机器学习概述
机器学习是从数据中自动分析获得规律(模型), 并利用规律对未知数据进行预测机器学习的数据:文件csvMySQL:1.性能瓶颈、读取速度慢2.格式不太符合机器学习要求的格式pandas:读取工具构成:Kaggle特点:1、大数据竞赛平台 2、80万科学家 3、真实数据 4、数据量巨大UCI特点:1、收录了360个数据集 2、覆盖科学、生活、经济等领域 3、数据量几十万scikit-learn特点:1、数据量较小 2、方便学习特征值+目标值(有些数据集是可以没有目标值的)导入scikit-learn原创 2022-06-14 20:11:48 · 217 阅读 · 0 评论