
机器学习
文章平均质量分 86
Shuo Zhang
目前是研究生学习阶段,对人工智能和大数据这方便比较感兴趣
展开
-
基本文本分类:电影评论文本分类
使用评论文本将影评分为积极(positive)或消极(nagetive)两类。这是一个二元(binary)或者二分类问题,一种重要且应用广泛的机器学习问题。 我们将使用来源于网络电影数据库(Internet Movie Database)的IMDB数据集(IMDBdataset),其包含 50,000 条影评文本。从该数据集切割出的25,000条评论用作训练,另外 25,000 条用作测试。训练集与测试集是平衡的(balanced),意味着它们包含相等数量的积极和消极评论。im...原创 2020-08-19 00:02:59 · 2791 阅读 · 1 评论 -
TensorFlow常用激活函数及其特点用法(6种)详解
每个神经元都必须有激活函数。它们为神经元提供了模拟复杂非线性数据集所必需的非线性特性。该函数取所有输入的加权和,进而生成一个输出信号。你可以把它看作输入和输出之间的转换。使用适当的激活函数,可以将输出值限定在一个定义的范围内。如果 xi是第 j 个输入,Wj是连接第 j 个输入到神经元的权重,b 是神经元的偏置,神经元的输出(在生物学术语中,神经元的激活)由激活函数决定,并且在数学上表示如下:这里,g 表示激活函数。激活函数的参数 ΣWjxj+b 被称为神经元的活动。 ...原创 2020-08-17 19:21:30 · 1754 阅读 · 0 评论 -
K-折交叉验证(原理及实现)
在机器学习中,我们训练数据集去训练一个model(模型),通常的做法是定义一个Loss function(损失函数),通过这个最小化loss的过程来提高模型的性能。然而我们学习模型的目的是为了解决实际问题(或者说是训练这个数据集领域中的一般化问题),单纯的将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的。这个训练数据集的loss与一般化的数据集的loss之间的差异就叫做generalization error=bias+variance。注...原创 2020-07-13 21:26:27 · 32554 阅读 · 4 评论 -
逻辑回归
代码实现如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdef loadDataSet(): #数据的读取,从txt文档中读入 dataMat = [] labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineA...原创 2020-07-11 21:53:21 · 307 阅读 · 0 评论 -
梯度下降法
前两天学习了最小二乘法在线性回归中可以用来求解最小代价函数(损失函数),今天学习的梯度下降法在线性回归中与最小二乘法具有类似的功能,也可以用来求解最小代价函数,只不过是采用迭代的方式,下面是我对梯度下降法的总结。一、梯度下降法概述官方定义:梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可...原创 2020-07-09 19:25:10 · 547 阅读 · 0 评论 -
K-近邻算法(kNN算法)
最近在学习机器学习实战这本书,学的第一个算法就是K-近邻算法,话不多说,直接步入正题。一、K-近邻算法概述简单地说,K-近邻算法采用测量不同特征值之间的距离方法分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。二、K-近邻算法的工作原理官方解释:存在一个样本数据集,也称作训练样本集,并且样本中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本..原创 2020-07-03 21:50:51 · 548 阅读 · 0 评论