带刺的厚崽-优快云博客

原创命名实体识别主要方法

命名实体识别主要方法命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、机构名、日期时间、专有名词等。通常包括两部分：实体的边界识别确定实体的类型（人名、地名、机构名或其他）NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要

2022-03-26 16:52:31 14997 1

原创 NLP学习

实体抽取实体关系抽取（Entity and Relation Extraction，ERE）命名实体识别（Named entity recognition， NER）ERE是级联任务，分为两个子任务：实体抽取和关系抽取，如何更好处理这种类似的级联任务是NLP的一个热点研究方向。实体与关系实体是指具有可描述意义的单词或短语，通常可以是人名、地名、组织机构名、产品名称，或者在某个领域内具有一定含义的内容，比如医学领域内疾病、药物、生物体名称，或者法律学涉及到的专有词汇等。实体是构建知识图谱的主要成员。

2022-03-23 15:04:05 3512

原创循环神经网络

循环神经网络xt−P(xt,xt−1,…,x1)x_t - P(x_t, x_{t-1}, \dots, x_1)xt−P(xt,xt−1,…,x1)自回归模型第一种策略，在现实情况下相当长的序列 xt−1,…,x1x_{t−1},…,x_1xt−1,…,x1可能是不必要的，因此我们只需要满足某个长度为ττ的时间跨度，即使用观测序列xt−1,…,xt−τx_{t−1},…,x_{t−τ}xt−1,…,xt−τ第二种策略，是保留一些对过去观测的总结hth_tht，并

2022-03-13 18:09:58 3810

原创深度网络计算与卷积神经网络

深度网络计算与卷积神经网络单个神经网路单个神经网络（1）接受一些输入；（2）生成相应的标量输出；（3）具有一组相关参数（parameters），更新这些参数可以优化某目标函数。多个输出的网络（1）接受一组输入（2）生成相应的输出（3）由一组可调整参数描述nn.sequential()实例化nn.Sequential来构建我们的模型，层的执行顺序是作为参数传递的。简而言之，nn.Sequential定义了一种特殊的Module，即在PyTorch中表示一个块的类，它维护了一个由M

2022-03-09 20:52:30 2076

原创多层感知机 pytorch学习

多层感知机 pytorch学习多层感知机MLP把许多全连接层堆叠在一起，每一层都输出到上面的层argmaxargmax返回的是最大数的索引.argmax有一个参数axis,默认是0,==对数据类型敏感，需要转换成相同类型class Accumulator: #@save """在n个变量上累加""" def __init__(self, n): self.data = [0.0] * n def add(self, *args): s

2022-03-08 20:08:26 1347 1

原创线性回归的实现学习

线性回归的实现学习d2l.stnthetic_data函数synthetic_data(w, b, num_example)生成x， y满足关系y=Xw+b+noisey = Xw+b+noisey=Xw+b+noisedata.TensorDataset()TensorDataset 可以用来对 tensor 进行打包，包装成dataset。就好像 python 中的 zip 功能。该类通过每一个 tensor 的第一个维度进行索引。因此，该类中的 tensor 第一维度必须相等. 另外：Ten

2022-03-08 09:58:57 3636

原创 seq 2 seq & Attention

seq 2 seq & Attention最流行的seq2seq的任务是序列翻译一个输入序列x1,…xnx_1, \dots x_nx1,…xn，输出序列y1,y2,…,yny_1, y_2, \dots, y_ny1,y2,…,yn。我们需要最大化概率的目标序列：p(y∣x):y∗=arg⁡max⁡yp(y∣x)p(y|x):y^*=\arg \max \limits_yp(y|x)p(y∣x):y∗=argymaxp(y∣x)机器学习中p(y∣x,θ)p(y|x,\theta

2022-03-07 14:19:15 436

原创 Language Model

Language ModelLanguage model估计不同语言的概率：符号、标记、标记序列具体来说，我们希望根据我们的语言模型，"更有可能"出现在语言中的句子具有更大的概率。可以根据链式法则进行计算句子的概率P(y1,y2,…,yn)=P(y1)⋅P(y2∣y1)⋅P(y3∣y1,y2)⋅⋅P(yn∣y1,…,yn−1)P(y_1,y_2,…,y_n)=P(y_1)⋅P(y_2|y_1)⋅P(y_3|y_1,y_2)⋅⋅P(y_n|y_1,…,y_{n−1})P(y1,y2,…,yn)

2022-03-06 21:24:54 244

原创 Text classification

Text classificationMulti-class: many labels, only one correctBinary-class: two labels, only one correctMuti-label classification: many labels, several can be correct我们假设我们有一个带有真实标签的文档集合。分类器的输入是带有标记 ((x1，…，xn))((x_1， \dots， x_n))((x1，…，xn)) 的文档 (x=(

2022-03-06 12:09:11 517

原创 Word embedding

Word embedding词嵌入模型机器学习模型"看到"数据的方式与我们（人类）的方式不同。我们的模型需要特征的向量。此类向量或词嵌入是可以馈送到模型中的单词的表示形式。离散表示：One-hot vectors对于词汇表中的第 i 个单词，向量在第 i 个维度上有 1，在其余维度上有 0。缺点：向量无法表示单词的特征，无法通过向量获取相似词的意义分布语义经常出现在类似上下文中的单词具有相似的含义因此，我们需要将有关单词上下文信息放入单词表示中基于计数的方法我们必须把有关的信息放入词向

2022-03-05 14:58:39 262

原创学习文档 python爬虫+发送邮件

requestRequest库的get（）方法：最通常的方法是通过r=request.get（url）构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。response对象常用的属性：r.status_code：响应的状态码。200表示成功，403表示4表示资源不可用。服务器理解客户的请求，但拒绝处理它r.text：url对应页面的内容email.mimeMIMEMu

2022-03-02 13:26:14 950

原创 NLP基础

NLP基础主要范畴文本朗读（text to speech）语音合成（speech synthesis）语音识别（speech recognition）中文自动分词（Chinese word segmentation）词性标注（part of speech tagging）句法分析（parsing）自然语言生成（natural language generation）研究难点单词的边界界定词义消歧不规范的输入句法的模糊性语言行为与计划NLP涉及知识词处理：分词词性

2022-02-23 14:18:03 2566

原创机器学习（下）

机器学习（下）PCA主成分分析目的：降维找这个特征分布差异比较大的作为主成分通过坐标系的变换，找到一个分布差异比较大的轴比如100个样本，4个特征。转换为2个特征。100 * 4的矩阵，再乘上一个4*2的矩阵，可以变成100 * 2的矩阵目标是找到4*2的矩阵协方差表示两个特征之间的相关程度两个特征之间的协方差σjk=1n−1∑i=1n(xij−xjˉ)(xik−xkˉ)\sigma_{jk}=\frac{1}{n-1}\sum\limits_{i=1}^n(x_{ij}-\bar{x

2022-02-16 22:36:34 749

原创机器学习（上）

机器学习（1）机器学习：模式识别计算机视觉数据挖掘语音识别统计学习自然语言处理训练样本特征抽取学习函数预测有监督问题：有label无监督问题：无label回归：输出具体的值分类：所分类的问题线性回归hθ(x)=θ0+θ1x1+θ2x2h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2hθ(x)=θ0+θ1x1+θ2x2hθ(x)=∑i=0nθixi=θTxh_\theta(x)=\sum\limit

2022-02-15 23:45:59 705

原创 pytorch 神经网络

pytorch深度学习RNN循环神经网络pytorchRNN后面的神经网络会基于前面神经网络的贡献可以接受更广泛的时间序列结构输入LSTM RNNlong short-term memory（长短期记忆）普通rnn会出现最初始的信息被忽略，在反向传播的时候减小最开始时候的信息。而造成梯度消失，也叫做梯度弥散也有可能造成一开始的梯度改变之后无穷大，称为梯度爆炸因此，普通rnn无法解决轴点记忆的问题lstm rnn中多了输入，输出，忘记控制器根据输入输出程度的重要性，加入循环神经网络中

2022-02-09 18:37:43 876

原创神经网络快速搭建

神经网络的快速搭建快速搭建法逐层加上激励函数直接构造# method 2# 快速搭建net2 = torch.nn.Sequential( torch.nn.Linear(1, 10), torch.nn.ReLU(), torch.nn.Linear(10, 1),)print(net2)outSequential( (0): Linear(in_features=1, out_features=10, bias=True) (1): ReLU()

2022-02-09 11:26:00 683

原创 pytorch搭建Regression

pytorch搭建Regression入门神经网络搭建import torchimport matplotlib.pyplot as pltfrom torch.autograd import Variableimport torch.nn.functional as Fx = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)y = x.pow(2) + 0.2 * torch.rand(x.size())X, Y = Variable

2022-02-08 19:09:47 164

原创 backward用法

backward用法pytorch中backward自动求导原理解释标量对矢量求导默认的时候是不采用梯度跟踪的，需要在创建的时候加入requires_grad=True若创建的时候无梯度跟踪，需要加入a.requires_grad_(True)标量对矢量求导的时候backward不需要加入参数ina = torch.randn(2,2)a = ((a * 3) / (a - 1))aouttensor([[ 8.4251, -1.6011], [-22.385

2022-02-07 11:12:38 1395

原创 Tensor

Tensor什么是TensorTensor（张量）是PyTorch最基本的操作对象，表示的是一个多维的矩阵，比如零维就是一个点，一维就向量，二维就是一般的矩阵，多维就相当于一个多维的数组，与python的numpy是对应的，而且PyTorch的Tensor可以和numpy的ndarray相互转换，唯一不同的是PyTorch可以再GPU上运行，而numpy的ndarray只能在CPU上运行。Tensor的基本数据类型32位浮点型 torch.FloatTensor（默认）64位浮点型 torch

2022-02-05 20:46:44 1459

原创 1.28 numpy和pandas学习

1.28 numpy与pandas学习numpynumpy是什么numerical python一个开源的科学计算库numpy优势代码更简洁（以数组，矩阵为粒度）性能更高效（存储效率和输入输出性能更好）numpy是python科学数据类库的基础库测试一个函数执行的时间%timeit 执行的函数Numpy中的核心arrayarray中的所有元素都是同一种类型的array本身的属性shape：返回一个元组，表示array的维度ndim：一个数字，表示array的

2022-01-29 11:50:00 628

原创 1.27 pytorch学习

1.27 pytorch学习数据预处理创建csv文件import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)data_file = os.path.join('..', 'data', 'txy.csv')pandas从创建的CSV文件中加载原始数据集import pandas as pddata = pd.read_csv(data_file)为了处理缺失的数据，典型的方法包括插值和删除插值插入平均值i

2022-01-27 22:16:38 1444

原创 1.26 pytorch学习

pytorch（introduction）[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ASZYRZZL-1643209337710)(image/1.png)]应用：图片分类物体检测与分割（检测具体像素点）样式迁移（背景变换）人脸合成文字生成图片文字生成无人驾驶（计算机视觉）安装pytorch首先进行anaconda的安装然后安装pytorch会比较卡，转化为清华镜像源然后莫名其妙的不行了有个.condarc的文件中加入如下代码：注意，是ht

2022-01-26 23:02:30 1589

转载 1.25 机器学习的建议与设计

第6周文章目录第6周@[toc]十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估一个假设10.3 模型选择和交叉验证集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Machine Learning System Design)11.1 首先要做什么11.2 误差分析11.3 类偏斜的误差度量11.4 查准率和查全率之间的权衡11.5 机器学

2022-01-25 18:30:44 486

原创 1.23 反向传播算法

1.23 反向传播算法文章目录1.23 反向传播算法@[toc]九、神经网络的学习(Neural Networks: Learning)9.1 代价函数9.2 反向传播算法9.3 反向传播算法的直观理解9.4 实现注意：展开参数9.5 梯度检验9.6 随机初始化9.7 综合起来9.8 自主驾驶九、神经网络的学习(Neural Networks: Learning)9.1 代价函数参考视频: 9 - 1 - Cost Function (7 min).mkv首先引入一些便于稍后讨论的新标记方法：

2022-01-23 22:30:29 154

原创 1.23 神经网络

1.23 神经网络文章目录1.23 神经网络@[toc]第八、神经网络：表述(Neural Networks: Representation)8.1 非线性假设8.2 神经元和大脑8.3 模型表示18.4 模型表示28.5 特征和直观理解1（可以改造成为and或者or门电路）8.6 样本和直观理解II（可以构造出更复杂的函数）8.7 多类分类第八、神经网络：表述(Neural Networks: Representation)8.1 非线性假设参考视频: 8 - 1 - Non-linear Hy

2022-01-22 19:58:54 176

转载 1.21 study 逻辑回归与正则化

逻辑回归与正则化文章目录逻辑回归与正则化@[toc]六、逻辑回归(Logistic Regression)6.1 分类问题6.2 假说表示6.3 判定边界（边界不仅仅局限于一条直线）6.4 代价函数6.5 简化的成本函数和梯度下降6.6 高级优化6.7 多类别分类：一对多七、正则化(Regularization)7.1 过拟合的问题7.2 代价函数7.3 正则化线性回归7.4 正则化的逻辑回归模型六、逻辑回归(Logistic Regression)6.1 分类问题参考文档: 6 - 1 - Cl

2022-01-22 17:39:51 139

转载 1.21 study 梯度下降与正规方程

1.20 多变量线性回归文章目录1.20 多变量线性回归@[toc]四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征4.2 多变量梯度下降4.3 梯度下降法实践1-特征缩放4.4 梯度下降法实践2-学习率4.5 特征和多项式回归4.6 正规方程4.7 正规方程及不可逆性（可选）四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征参考视频: 4 - 1 - Mu

2022-01-21 11:10:37 236

转载 1.20 study单变量线性回归

1.20 study文章目录1.20 study@[toc]一、引言(Introduction)1.1 欢迎1.2 机器学习是什么？1.3 监督学习1.4 无监督学习二、单变量线性回归(Linear Regression with One Variable)2.1 模型表示2.2 代价函数2.3 代价函数的直观理解I2.4 代价函数的直观理解II2.5 梯度下降2.6 梯度下降的直观理解2.7 梯度下降的线性回归2.8 接下来的内容三、线性代数回顾(Linear Algebra Review)3.1 矩

2022-01-20 12:02:27 2996 2

空空如也

空空如也