
机器学习算法
Allen__MB
这个作者很懒,什么都没留下…
展开
-
数学基础内容
在这里插入图片描述](https://img-blog.csdnimg.cn/63590a5cb0f8454c92a79575b865d6dc.png)原创 2024-04-21 20:22:47 · 195 阅读 · 0 评论 -
K-Mean聚类、DBSCAN聚类原理与实现
聚类问题是一种无监督问题,聚类问题的目的是将相似的对象分在一组,这类算法的难点在:1.如何评估聚类的结果 2.如何调参K-Means聚类算法基本概念:要得到的簇的个数:需要指定k值质心:均值,即向量各维度的平均值距离的度量:通常采用欧式距离和余弦相似度(均需要先对数据做标准化处理)优化目标:工作流程:1.指定k2.随机选取两个点作为质心3.计算每一个点到质心的距离并将该点分入距...原创 2019-09-04 19:01:02 · 455 阅读 · 0 评论 -
PCA原理与实现
import numpy as npimport pandas as pddf = pd.read_csv("iris.data", header=None)df.columns = ["sepal_len", "sepal_wid", "petal_len", "petal_wid", "class"]X = df[["sepal_len", "sepal_wid", "petal_...原创 2019-09-04 16:36:46 · 204 阅读 · 0 评论 -
LDA线性判别分析的原理推导与Python实现
feature_dict = {i: label for i, label in zip(range(4), ("sepal length in cm", "sepal width in cm", "petal length in cm", "petal width in cm"))}import pandas as pddf = pd.read_csv("i...原创 2019-09-01 11:05:26 · 316 阅读 · 0 评论 -
SVM原理与实现
支持向量机(Support Vector Machine)是一种有监督的机器学习方法,主要用来解决二分类问题,具体是通过寻求一个决策边界使得两类数据可以最好地分开需求:现有两类数据点,需要寻找一个决策辨别使得两类数据被最好的分开决策边界数学表达:ωTx+b=0\boldsymbol{\omega}^{T} \boldsymbol{x}+b=0ωTx+b=0这里ωT\omega^{T}ωT...原创 2019-08-29 11:00:12 · 206 阅读 · 0 评论 -
关键词提取TF-IDF原理、词云,LDA,朴素贝叶斯分类器的实现
TF-IDF原理TF-IDF的全称是Term Frequency,Inverse Document Frequency表示词频与逆词频,它的思想是如果某个词比较少见,但它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性TF=某个词在文章中出现的次数该文出现次数最多的词出现次数TF=\frac{某个词在文章中出现的次数}{该文出现次数最多的词出现次数}TF=该文出现次数最多的词出现次...原创 2019-08-26 17:23:38 · 1175 阅读 · 0 评论 -
贝叶斯分类器原理与单词自动纠错的实现
贝叶斯算法原理是通过贝叶斯公式将正向概率转换为逆向概率和先验概率之积正向概率:袋子中有N个白球,n个黑球,摸个球是黑球的概率逆向概率:并不知道黑球和白球的比例,先摸几个球,以结果推测袋中黑白球的比例贝叶斯公式:ρ(A∣B)=P(B∣A)P(A)P(B)\rho(A | B)=\frac{P(B | A) P(A)}{P(B)}ρ(A∣B)=P(B)P(B∣A)P(A)P(Ai∣B)=P...原创 2019-08-10 16:06:24 · 511 阅读 · 0 评论 -
集成学习算法与随机数森林、Adaboost原理
集成学习的目的是让机器学习算法的效果更好集成学习主要有三种方式:1.Bagging:训练多个分类器,并以取平均或者众数的方式去的最终结果2.Boosting:从弱学习器开始加强,通过对分类错误的样本赋予更高的权重完成模型的强化3.Stacking:以分阶段的模式聚和多个分类或回归模型降方差(bagging),减偏差(boosting),提升预测准确性(stacking)Bagging...原创 2019-08-06 17:58:22 · 315 阅读 · 0 评论 -
Titanic获救的随机森林,集成学习实现
import pandas as pdimport numpy as np#数据预处理-------------------------------------------------------------------------------------------------------------DATA = pd.read_csv("titanic_train.csv")p...原创 2019-08-08 10:34:36 · 143 阅读 · 0 评论 -
决策树算法原理与实例
决策树就是从根节点开始一步步走到叶子节点(最终的决策)所有数据最终都会落到叶子节点,既可以做分类也可以做回归节点又可以分为: 1.根节点 2.非叶子节点与分枝 3.叶子节点熵决策树选用熵来当做将数据分开的标准熵:熵的定义是随机变量不确定性的度量熵的公式是:H(X)=−∑pilogpiH(X)=-\sum pi \log piH(X)=−∑pilogpi当pi=0或者pi...原创 2019-08-05 22:31:56 · 461 阅读 · 0 评论 -
逻逻辑回归案例:信用卡欺诈检测
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltDATA = pd.read_csv("creditcard.csv")#查看数据是否平衡---------------------------------------------------------------------------------...原创 2019-08-03 22:46:35 · 342 阅读 · 0 评论 -
线性回归及逻辑回归算法的推导、手动实现逻辑回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltData = pd.read_csv("LogiReg_data.txt", header=None, names=["Exam1", "Exam2", "Admitted"])positive = Data[Data["Admitted"] == 1...原创 2019-07-30 15:10:50 · 622 阅读 · 0 评论