
机器学习
文章平均质量分 58
Handsome coder
let's code now
展开
-
决策树简单实现
一、分类from sklearn.datasets import load_irisfrom sklearn import treeiris = load_iris()X, y = iris.data, iris.targetclf = tree.DecisionTreeClassifier()clf = clf.fit(X, y)plt.figure(figsize=(16,12))tree.plot_tree(clf,filled=True) 二、回归print(__doc__原创 2021-05-05 16:44:58 · 218 阅读 · 0 评论 -
线性分类模型Linear models for classification
1、二分类from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import LinearSVCX, y = mglearn.datasets.make_forge()#导入数据fig, axes = plt.subplots(1, 2, figsize=(10, 3))#1行2列for model, ax in zip([LinearSVC(), LogisticRegression()], axes): #原创 2021-05-05 11:44:26 · 241 阅读 · 0 评论 -
从模型中选择最佳特征(SelectFromModel Feature Selection Example in Python)
SKLearn api提供selectfrom model类,用来提取数据集的最佳特征(根据其权重重要度)。selectfrom model是一个元估计器-通过与阀值进行比较,来决定权重重要性标题SelectFromModel for regression dataestimator = AdaBoostRegressor(random_state=0, n_estimators=50)selector = SelectFromModel(estimator)selector = selector原创 2021-05-05 07:50:53 · 1186 阅读 · 0 评论 -
Scikit-learn之最佳特征选择
一、如何使用SelectKBestclass sklearn.feature_selection.SelectKBest(score_func=, *, k=10)根据给定的选择器选择出前k个与标签最相关的特征。参数说明如下```pythonParametersscore_func: 可调用的函数输入两个数组X和y,并返回一对数组(分数,p-value)或带分数的单个数组。默认值为f_classif(请参见下文“另请参见”)。默认功能仅适用于分类任务。k:int or “all”, o原创 2021-05-05 06:45:16 · 1041 阅读 · 0 评论 -
岭回归(Ridge Regression Example in Python)
一、岭回归1、准备数据2、最佳alpha3、训练模型与检查结果4、利用岭回归交叉验证5、源码from sklearn.datasets import load_bostonfrom sklearn.linear_model import Ridge, RidgeCVfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitimport mat原创 2021-05-04 17:02:31 · 970 阅读 · 0 评论 -
Scikit-learn之线性模型(一)
一、Fitting a line through datafrom sklearn import datasetsboston = datasets.load_boston()from sklearn.linear_model import LinearRegressionlr = LinearRegression()lr.fit(boston.data, boston.target)predictions = lr.predict(boston.data)import numpy as原创 2021-05-04 15:48:34 · 307 阅读 · 0 评论 -
绘制直方图
概念直方图:直方图是一种统计报告图,形式上也是一个个的长条形,但是直方图用长条形的面积表示频数,所以长条形的高度表示频数/(除)组距, 宽度表示组距,其长度和宽度均有意义。当宽度相同时,一般就用长条形长度表示频数。一、plt.hist直方图x=[1,2,3,4,5,6,6,5,5,4]plt.hist(x, bins=10,facecolor="blue", edgecolor="black", alpha=0.7)#bins:直方图的长条形数目,可选项,默认为10#alpha:透明度#原创 2021-05-04 11:20:53 · 1865 阅读 · 0 评论 -
Scikit-Learn之利用高斯过程回归
一、导入数据并参看形状from sklearn.datasets import load_bostonimport numpy as npboston = load_boston()boston_X = boston.databoston_y = boston.targetprint(boston_X.shape)print(boston_y.shape)train_set = np.random.choice([True, False], len(boston_y),p=[.75, .2原创 2021-05-03 20:53:31 · 5080 阅读 · 1 评论 -
数据缺失处理
一、缺失值的处理方法由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:1.忽略元组当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失原创 2021-05-03 10:49:20 · 2150 阅读 · 1 评论 -
one-hot理解
one-hot是比较常用的文本特征特征提取的方法。one-hot编码,又称“独热编码”。其实就是用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,且这些寄存器位中只有一位有效,说白了就是只能有一个状态。假设有四个样本,每个样本有三种特征:这样,4个样本的特征向量就可以这么表示:sample1 -> [0,1,1,0,0,0,1,0,0]sample2 -> [1,0,0,1,0,0,0,1,0]sample3 -> [0,1,0,0,1,0,0,1,0]sample原创 2021-05-03 08:53:32 · 1835 阅读 · 0 评论 -
Scikit-learn之k近邻算法实现
系列文章目录一、导包、导数据import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score#load the classifying modelsfrom sklearn.linear_model import原创 2021-05-02 10:15:10 · 306 阅读 · 0 评论 -
Scikit-Learn机器学习之k折交叉验证
K折交叉验证1、什么叫K折交叉验证?本例主要讲4折2、如果不交叉验证import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score#load the classifying modelsfrom sklea原创 2021-05-02 10:01:53 · 355 阅读 · 0 评论 -
Scikit-learn机器学习
系列文章目录一、莺尾花Iris数据集长什么样?读取本地数据集Irisdf = pd.read_csv('C:/Users/lzc/Desktop/机器学习/利用python进行数据分析/pydata-book-2nd-edition/pydata-book-2nd-edition/iris-data.csv',nrows=5) #注意C:/Users/lzc/Desktop/机器学习/利用python进行数据分析/pydata-book-2nd-edition/pydata-book-2nd-e原创 2021-05-01 11:38:12 · 229 阅读 · 0 评论 -
Scikit-learn学习
一、目的这份指导书的目的是为了说明scikit-learn提供的主要features,这是机器学习实践的基本知识,首先你的先按照scikit-learn库。scikit-learn是一个开源的机器学习库,支持监督学习和非监督学习,它提供不同的工具来训练模型、数据预处理、模型选择和评估等。二、Fitting and predicting: estimator basicsscikit-learn提供了很多机器学习算法和模型,叫做estimators,每个estimator 可以用来fit一些数据。H原创 2021-04-29 20:12:39 · 351 阅读 · 0 评论 -
机器学习之感知机python实现
文章目录一、感知机是什么?1.iris数据集长什么样?二、代码实现1.引入库2.load data3.剩余代码4.感知机实现5.感知机实现6.测试总结一、感知机是什么?拿出iris数据集中两个分类的数据和[sepal length,sepal width]作为特征1.iris数据集长什么样?二、代码实现1.引入库import pandas as pdimport numpy as npfrom sklearn.datasets import load_irisimport mat原创 2021-04-24 09:19:43 · 311 阅读 · 3 评论 -
Maximum entropy model最大熵模型
最大熵模型一、最大熵原理一、最大熵模型的定义二级目录三级目录一、最大熵原理满足这两个约束条件的概率分布任然有无穷多个。在缺少其他信息的情况下,可以认为A与B是等概率的,C和D与E是等概率的,于是一、最大熵模型的定义令偏导数等于0参考文献1.李航 统计机器学习二级目录三级目录...原创 2021-04-17 15:11:24 · 141 阅读 · 0 评论 -
EM算法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2021-04-17 10:26:32 · 216 阅读 · 0 评论 -
概率图模型之学习(五)
系列文章目录前言一、不含隐变量的参数估计。。。。二、含隐变量的参数估计总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...原创 2021-04-17 09:09:35 · 102 阅读 · 0 评论 -
概率图之推理与流动(五)
推理模式概率图模型的推理模型有三种分别是:causal reasoning/因果推理 :也就是知道了事件的一个原因后,我们会改变对事件结果的预估。evidential reasoning/证据推理 :也就是当我们知道了事件的结果后,我们会改变对引发事件的原因的判断。intercausal reasoning/原因间推理 :有人翻译为因果间推理,我以为这容易产生误解。intercausal reasoning的意思是,有多个原因导致了某个事件的发生,如果我们已经知道了事件的结果,那么对其中一个原因的观转载 2021-04-16 19:25:19 · 573 阅读 · 0 评论 -
概率图模型系列之条件随机场(四)
条件随机场一、概率无向图模型1.模型定义2.概率无向图模型定义3.概率无向图的分解二、条件随机场(CRF)的定义与形式1.CRF的定义定义11.3也可以这样定义2.CRF的参数化形式3.CRF的矩阵形式三、三个基本问题3.1计算问题3.2学习问题3.3预测问题总结...原创 2021-04-14 20:22:27 · 176 阅读 · 0 评论 -
概率图模型系列之隐马尔科夫模型HMM(三)
隐马尔科夫模型HMM文章目录隐马尔科夫模型HMM一、隐马尔科夫是什么?二、HMM模型的两个基本的假设1.基本假设三、三个基本问题3.1 计算问题(Evaluation问题)--计算观测序列出现的概率前向算法3.2 学习问题--计算模型的参数3.3 预测问题--给定观测序列预测隐藏序列总结一、隐马尔科夫是什么?隐马尔可夫模型(Hidden Markov Model,HMM)描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。HMM是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测原创 2021-04-13 20:28:50 · 214 阅读 · 1 评论 -
概率图模型系列之朴素贝叶斯法(二)
朴素贝叶斯法文章目录朴素贝叶斯法前言二、使用步骤1.引入库2.读入数据总结前言# 一、朴素贝叶斯的学习与分类## 1.基本假设
好的原创 2021-04-11 21:16:01 · 204 阅读 · 0 评论