
机器学习笔记
乐亦亦乐
大道至简 知行合一
展开
-
一元线性回归模型与多元线性回归模型
"""《深度学习与图像识别原理实践》"""import numpy as npclass SimpleLinearRegressionSelf: def __init__(self): """ 初始化Simple Linear regression 模型 """ self.a_=None self.b_=None def fit(self,x_train,y_train): asser.翻译 2020-09-08 15:47:20 · 841 阅读 · 0 评论 -
机器学习流程知识结构图
原创 2020-03-08 10:23:39 · 1974 阅读 · 2 评论 -
sklearn中常用的机器学习算法API
机器学习算法分类监督学习(预测) 特征值+目标值 分类: k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归: 线性回归、领回归 标注: 隐马尔可夫模型 无监督学习 特征值 聚类 k-means 开发流程: 建立模型:根据数据类型划分应用种类原始数据明确问题做什么 数据的基本处理:pda去处理数据(缺失值,合并表……...原创 2020-03-01 21:03:57 · 2418 阅读 · 0 评论 -
Python文本数据分析——新闻分类任务
逆文档频率(Inverse Document Frequency缩写为IDF)如果某个词比较少,但是它在这篇文章中多次出现,那么它可能就反映了这篇文章的特性正是我们需要的关键词词频(TF)=某个词在文章中的出现次数 / 该文出现次数最多的词出现的次数逆文档频率(IDF)=log(语料库的文档总数 / 包含该词的文档数+1)TF-IDF:关键词提取TF-IDF=词频(TF)...原创 2020-12-24 21:35:21 · 2125 阅读 · 2 评论 -
(四)PyTorch——多分类问题及深层次神经网络(mnist数字识别问题)
MNIST是一个非常有名的手写数字识别数据集,在很多资料中,这个数据集都会被用作深度学习的入门案例。MNIST数据集是NIST数据集的一个子集,它包含了60000张图片作为训练数据,10000张图片作为测试数据。在MNIST数据集中的每一张图片都代表了0~9中的一个数字。图片的大小都为28x28,且数字都会出现在图片的正中间。数字图片及其像素矩阵:(MNIST数据集中图片的像素大小为28...原创 2020-02-01 21:03:27 · 1311 阅读 · 0 评论 -
(三)PyTorch——多层神经网络
线性回归中,公式是y=wx+b;在Logistic回归中,公式是y=Sigmoid(wx+b),可以看成是单层神经网络,其中sigmod称为激活函数。左边是一张神经元的图片,神经元通过突触接受输入,然后通过神经激活的方式传输给后面的神经元。这对比于右边的神经网络,首先接受数据输入,然后通过计算得到结果,接着经过激活函数,再传给第二层的神经元。激活函数:加入非线性的因...原创 2020-01-31 23:22:51 · 1706 阅读 · 1 评论 -
机器学习算法——决策树
1. 什么是决策树/判定树(decision tree)?判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。树模型:决策树:从根结点开始一步步走到叶子结点(决策) 所有的数据最终会落到叶子结点,既可以做分类也可以做回归树的组成:根结点:第一个选择点 非叶子结点与分支...原创 2020-01-13 12:19:24 · 1024 阅读 · 0 评论 -
逻辑回归-信用卡欺诈检测
数据集:import matplotlib.pyplot as pltimport numpy as npimport pandas as pddata=pd.read_csv("creditcard.csv")print(data.head())import matplotlib.pyplot as pltimport numpy as npi...原创 2020-01-13 09:57:02 · 680 阅读 · 0 评论 -
Python学习笔记-梯度下降求解逻辑回归(唐宇迪-机器学习)
建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学管理员,你想根据两次考试的结果来决定每个申请人的录取机会,你有以前申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,有两个考试的申请人的分数和录取决定,为了做到这一点,建立一个分类模型,根据考试成绩估计入学概率。导入数据,并读取数据import numpy as npimport pan...原创 2020-01-12 13:07:15 · 1181 阅读 · 0 评论 -
Python数据可视化库-----Seaborn(唐宇迪机器学习笔记)
简介什么是SeabornSeaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为m...原创 2020-01-10 14:25:24 · 963 阅读 · 0 评论 -
Python数据可视化库-----Matplotlib(学习笔记)
Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。另一篇可视化案例《python机器学习经典实例》——可视化数据一个完整的图形的表现需要的标准开发步骤:获取数据集合 拆分数据集合得到需要的数据元素集 创建一个图表并设置相关的辅助信息(刻度...原创 2020-01-09 20:32:22 · 1182 阅读 · 1 评论 -
Pandas学习(数据读取、索引、数据预处理、自定义函数)
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel d...原创 2020-01-09 14:22:43 · 1012 阅读 · 1 评论 -
python机器学习——NLTK及分析文本数据(自然语言处理基础)
NLTKNLTK(Natural Language Toolkit),自然语言处理工具包,在NLP(自然语言处理)领域中,最常使用的一个Python库。自带语料库,词性分类库。自带分类,分词功能。 NLTK安装 安装:pip install NLTK 测试:import nltk Anaconda不用安装 安装语料库:import nltknltk.download()执行...原创 2018-08-15 17:19:39 · 23498 阅读 · 6 评论 -
python机器学习——人脸识别
用OpenCV-Python从网络摄像头采集信息import cv2# 初始化网络摄像头cap = cv2.VideoCapture(0)# 定义网格摄像头采集图像比例系数scaling_factor = 0.5# 循环采集直到按下Esc键while True: # 采集当前画面 ret, frame = cap.read() # 调整帧的大小 ...原创 2018-08-18 11:41:02 · 2833 阅读 · 0 评论 -
python机器学习——贝叶斯方法
贝叶斯公式百度百科 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。贝叶斯法则是关于随机事件A和B的条件概率...原创 2018-08-16 17:00:41 · 7655 阅读 · 0 评论 -
python机器学习——图像内容分析
计算机视觉:计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉包括多个级别的分析。在低级视觉分析领域,计算机视觉可以进行像素处理,例如边检测,形态处理和光流。在中级和高级视觉分析领域,计算机视觉可以处理事物,例如物体识别,3D建模,运...原创 2018-08-17 16:05:37 · 5373 阅读 · 1 评论 -
python——Numpy函数库基础
构成一个4X4的随机数组>>> from numpy import *>>> random.rand(4,4)array([[ 0.64739371, 0.58006968, 0.53814822, 0.95993873], [ 0.39470874, 0.68392526, 0.397054 , 0.83557031], ...原创 2018-08-24 11:55:36 · 393 阅读 · 0 评论 -
python机器学习——k-近邻算法(KNN)
KNN 简单的说,knn采用测量不同特征值之间的距离方法,进行分类优点:精度高,对异常值不敏感,无数据输入假定。 缺点:计算复杂度高,空间复杂度高。 适用数据范围:数值型和标称型。工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,...原创 2018-08-24 13:25:03 · 397 阅读 · 0 评论 -
《python机器学习经典实例》——可视化数据
可视化数据简介:数据可视化是机器学习的核心,利用它有助于制定正确的的策略来理解数据。数据的视觉表示帮助我们选择正确的算法。数据的可视化的主要目标之一就是用图和表清晰的表达数据,以便我们更准确、更有效的交流信息。 在现实世界中总会存在各种数值数据,我们想将这些数值数据编码成图、线、点、条等,以便直观的显示出这些数值中包含的信息,同时可以使复杂分布的数据更容易被理解和应用。这一...原创 2019-01-03 19:28:00 · 2682 阅读 · 0 评论 -
分析句子情感——NLTK电影评论
import nltk.classify.utilfrom nltk.classify import NaiveBayesClassifierfrom nltk.corpus import movie_reviews #定义一个用于提取特征的函数def extract_features(word_list): return dict([(word, True) for wor...原创 2019-01-03 19:54:41 · 1693 阅读 · 1 评论 -
无监督学习——聚类(k-means算法)
无监督学习是一种对不含标记的数据建立模型的机器学习范式。 无监督学习应用领域: - 数据挖掘 - 医学影像 - 股票市场分析 - 计算机视觉 - 市场分析 最常见的无监督学习就是聚类。 聚类的定义:聚类就是对大量未知标注的数据集,按数据的内在相似性将数...原创 2018-08-12 09:21:49 · 22711 阅读 · 25 评论