自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 收藏
  • 关注

原创 命名实体识别主要方法

命名实体识别主要方法命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括 人名、地名、机构名、日期时间、专有名词等。通常包括两部分:实体的边界识别确定实体的类型(人名、地名、机构名或其他)NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要

2022-03-26 16:52:31 14997 1

原创 NLP学习

实体抽取实体关系抽取(Entity and Relation Extraction,ERE)命名实体识别(Named entity recognition, NER)ERE是级联任务,分为两个子任务:实体抽取和关系抽取,如何更好处理这种类似的级联任务是NLP的一个热点研究方向。实体与关系实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容,比如医学领域内疾病、药物、生物体名称,或者法律学涉及到的专有词汇等。实体是构建知识图谱的主要成员。

2022-03-23 15:04:05 3512

原创 循环神经网络

循环神经网络xt−P(xt,xt−1,…,x1)x_t - P(x_t, x_{t-1}, \dots, x_1)xt​−P(xt​,xt−1​,…,x1​)自回归模型第一种策略,在现实情况下相当长的序列 xt−1,…,x1x_{t−1},…,x_1xt−1​,…,x1​​可能是不必要的, 因此我们只需要满足某个长度为ττ的时间跨度, 即使用观测序列xt−1,…,xt−τx_{t−1},…,x_{t−τ}xt−1​,…,xt−τ​第二种策略,是保留一些对过去观测的总结hth_tht​​, 并

2022-03-13 18:09:58 3810

原创 深度网络计算与卷积神经网络

深度网络计算与卷积神经网络单个神经网路单个神经网络(1)接受一些输入;(2)生成相应的标量输出;(3)具有一组相关参数(parameters),更新这些参数可以优化某目标函数。多个输出的网络(1)接受一组输入(2)生成相应的输出(3)由一组可调整参数描述nn.sequential()实例化nn.Sequential来构建我们的模型, 层的执行顺序是作为参数传递的。 简而言之,nn.Sequential定义了一种特殊的Module, 即在PyTorch中表示一个块的类, 它维护了一个由M

2022-03-09 20:52:30 2076

原创 多层感知机 pytorch学习

多层感知机 pytorch学习多层感知机MLP把许多全连接层堆叠在一起,每一层都输出到上面的层argmaxargmax返回的是最大数的索引.argmax有一个参数axis,默认是0,==对数据类型敏感,需要转换成相同类型class Accumulator: #@save """在n个变量上累加""" def __init__(self, n): self.data = [0.0] * n def add(self, *args): s

2022-03-08 20:08:26 1347 1

原创 线性回归的实现学习

线性回归的实现学习d2l.stnthetic_data函数synthetic_data(w, b, num_example)生成x, y满足关系y=Xw+b+noisey = Xw+b+noisey=Xw+b+noisedata.TensorDataset()TensorDataset 可以用来对 tensor 进行打包,包装成dataset。就好像 python 中的 zip 功能。该类通过每一个 tensor 的第一个维度进行索引。因此,该类中的 tensor 第一维度必须相等. 另外:Ten

2022-03-08 09:58:57 3636

原创 seq 2 seq & Attention

seq 2 seq & Attention最流行的seq2seq的任务是序列翻译一个输入序列x1,…xnx_1, \dots x_nx1​,…xn​,输出序列y1,y2,…,yny_1, y_2, \dots, y_ny1​,y2​,…,yn​。我们需要最大化概率的目标序列:p(y∣x):y∗=arg⁡max⁡yp(y∣x)p(y|x):y^*=\arg \max \limits_yp(y|x)p(y∣x):y∗=argymax​p(y∣x)机器学习中p(y∣x,θ)p(y|x,\theta

2022-03-07 14:19:15 436

原创 Language Model

Language ModelLanguage model估计不同语言的概率:符号、标记、 标记序列具体来说,我们希望根据我们的语言模型,"更有可能"出现在语言中的句子具有更大的概率。可以根据链式法则进行计算句子的概率P(y1,y2,…,yn)=P(y1)⋅P(y2∣y1)⋅P(y3∣y1,y2)⋅⋅P(yn∣y1,…,yn−1)P(y_1,y_2,…,y_n)=P(y_1)⋅P(y_2|y_1)⋅P(y_3|y_1,y_2)⋅⋅P(y_n|y_1,…,y_{n−1})P(y1​,y2​,…,yn​)

2022-03-06 21:24:54 244

原创 Text classification

Text classificationMulti-class: many labels, only one correctBinary-class: two labels, only one correctMuti-label classification: many labels, several can be correct我们假设我们有一个带有真实标签的文档集合。分类器的输入是带有标记 ((x1,…,xn))((x_1, \dots, x_n))((x1​,…,xn​)) 的文档 (x=(

2022-03-06 12:09:11 517

原创 Word embedding

Word embedding词嵌入模型机器学习模型"看到"数据的方式与我们(人类)的方式不同。我们的模型需要特征的向量。此类向量或词嵌入是可以馈送到模型中的单词的表示形式。离散表示:One-hot vectors对于词汇表中的第 i 个单词,向量在第 i 个维度上有 1,在其余维度上有 0。缺点:向量无法表示单词的特征,无法通过向量获取相似词的意义分布语义经常出现在类似上下文中的单词具有相似的含义因此,我们需要将有关单词上下文信息放入单词表示中基于计数的方法我们必须把有关的信息放入词向

2022-03-05 14:58:39 262

原创 学习文档 python爬虫+发送邮件

requestRequest库的get()方法:最通常的方法是通过r=request.get(url)构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候的r返回的是一个包含服务器资源的Response对象。包含从服务器返回的所有的相关资源。response对象常用的属性:r.status_code:响应的状态码。200表示成功,403表示4表示资源不可用。服务器理解客户的请求,但拒绝处理它r.text:url对应页面的内容email.mimeMIMEMu

2022-03-02 13:26:14 950

原创 NLP基础

NLP基础主要范畴文本朗读(text to speech)语音合成(speech synthesis)语音识别(speech recognition)中文自动分词(Chinese word segmentation)词性标注(part of speech tagging)句法分析(parsing)自然语言生成(natural language generation)研究难点单词的边界界定词义消歧不规范的输入句法的模糊性语言行为与计划NLP涉及知识词处理:分词词性

2022-02-23 14:18:03 2566

原创 机器学习(下)

机器学习(下)PCA主成分分析目的:降维找这个特征分布差异比较大的作为主成分通过坐标系的变换,找到一个分布差异比较大的轴比如100个样本,4个特征。转换为2个特征。100 * 4的矩阵,再乘上一个4*2的矩阵,可以变成100 * 2的矩阵目标是找到4*2的矩阵协方差表示两个特征之间的相关程度两个特征之间的协方差σjk=1n−1∑i=1n(xij−xjˉ)(xik−xkˉ)\sigma_{jk}=\frac{1}{n-1}\sum\limits_{i=1}^n(x_{ij}-\bar{x

2022-02-16 22:36:34 749

原创 机器学习(上)

机器学习(1)机器学习:模式识别计算机视觉数据挖掘语音识别统计学习自然语言处理训练样本特征抽取学习函数预测有监督问题:有label无监督问题:无label回归:输出具体的值分类:所分类的问题线性回归hθ(x)=θ0+θ1x1+θ2x2h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2hθ​(x)=θ0​+θ1​x1​+θ2​x2​hθ(x)=∑i=0nθixi=θTxh_\theta(x)=\sum\limit

2022-02-15 23:45:59 705

原创 pytorch 神经网络

pytorch深度学习RNN循环神经网络pytorchRNN后面的神经网络会基于前面神经网络的贡献可以接受更广泛的时间序列结构输入LSTM RNNlong short-term memory(长短期记忆)普通rnn会出现最初始的信息被忽略,在反向传播的时候减小最开始时候的信息。而造成梯度消失,也叫做梯度弥散也有可能造成一开始的梯度改变之后无穷大,称为梯度爆炸因此,普通rnn无法解决轴点记忆的问题lstm rnn中多了输入,输出,忘记控制器根据输入输出程度的重要性,加入循环神经网络中

2022-02-09 18:37:43 876

原创 神经网络快速搭建

神经网络的快速搭建快速搭建法逐层加上激励函数直接构造# method 2# 快速搭建net2 = torch.nn.Sequential( torch.nn.Linear(1, 10), torch.nn.ReLU(), torch.nn.Linear(10, 1),)print(net2)outSequential( (0): Linear(in_features=1, out_features=10, bias=True) (1): ReLU()

2022-02-09 11:26:00 683

原创 pytorch搭建Regression

pytorch搭建Regression入门神经网络搭建import torchimport matplotlib.pyplot as pltfrom torch.autograd import Variableimport torch.nn.functional as Fx = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)y = x.pow(2) + 0.2 * torch.rand(x.size())X, Y = Variable

2022-02-08 19:09:47 164

原创 backward用法

backward用法pytorch中backward自动求导原理解释标量对矢量求导默认的时候是不采用梯度跟踪的,需要在创建的时候加入requires_grad=True若创建的时候无梯度跟踪,需要加入a.requires_grad_(True)标量对矢量求导的时候backward不需要加入参数ina = torch.randn(2,2)a = ((a * 3) / (a - 1))aouttensor([[ 8.4251, -1.6011], [-22.385

2022-02-07 11:12:38 1395

原创 Tensor

Tensor什么是TensorTensor(张量)是PyTorch最基本的操作对象,表示的是一个多维的矩阵,比如零维就是一个点,一维就向量,二维就是一般的矩阵,多维就相当于一个多维的数组,与python的numpy是对应的,而且PyTorch的Tensor可以和numpy的ndarray相互转换,唯一不同的是PyTorch可以再GPU上运行,而numpy的ndarray只能在CPU上运行。Tensor的基本数据类型32位浮点型 torch.FloatTensor(默认)64位浮点型 torch

2022-02-05 20:46:44 1459

原创 1.28 numpy和pandas学习

1.28 numpy与pandas学习numpynumpy是什么numerical python一个开源的科学计算库numpy优势代码更简洁(以数组,矩阵为粒度)性能更高效(存储效率和输入输出性能更好)numpy是python科学数据类库的基础库测试一个函数执行的时间%timeit 执行的函数Numpy中的核心arrayarray中的所有元素都是同一种类型的array本身的属性shape:返回一个元组,表示array的维度ndim:一个数字,表示array的

2022-01-29 11:50:00 628

原创 1.27 pytorch学习

1.27 pytorch学习数据预处理创建csv文件import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)data_file = os.path.join('..', 'data', 'txy.csv')pandas从创建的CSV文件中加载原始数据集import pandas as pddata = pd.read_csv(data_file)为了处理缺失的数据,典型的方法包括 插值和删除插值插入平均值i

2022-01-27 22:16:38 1444

原创 1.26 pytorch学习

pytorch(introduction)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ASZYRZZL-1643209337710)(image/1.png)]应用:图片分类物体检测与分割(检测具体像素点)样式迁移(背景变换)人脸合成文字生成图片文字生成无人驾驶(计算机视觉)安装pytorch首先进行anaconda的安装然后安装pytorch会比较卡,转化为清华镜像源然后莫名其妙的不行了有个.condarc的文件中加入如下代码:注意,是ht

2022-01-26 23:02:30 1589

转载 1.25 机器学习的建议与设计

第6周文章目录第6周@[toc]十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估一个假设10.3 模型选择和交叉验证集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Machine Learning System Design)11.1 首先要做什么11.2 误差分析11.3 类偏斜的误差度量11.4 查准率和查全率之间的权衡11.5 机器学

2022-01-25 18:30:44 486

原创 1.23 反向传播算法

1.23 反向传播算法文章目录1.23 反向传播算法@[toc]九、神经网络的学习(Neural Networks: Learning)9.1 代价函数9.2 反向传播算法9.3 反向传播算法的直观理解9.4 实现注意:展开参数9.5 梯度检验9.6 随机初始化9.7 综合起来9.8 自主驾驶九、神经网络的学习(Neural Networks: Learning)9.1 代价函数参考视频: 9 - 1 - Cost Function (7 min).mkv首先引入一些便于稍后讨论的新标记方法:

2022-01-23 22:30:29 154

原创 1.23 神经网络

1.23 神经网络文章目录1.23 神经网络@[toc]第八、神经网络:表述(Neural Networks: Representation)8.1 非线性假设8.2 神经元和大脑8.3 模型表示18.4 模型表示28.5 特征和直观理解1(可以改造成为and或者or门电路)8.6 样本和直观理解II(可以构造出更复杂的函数)8.7 多类分类第八、神经网络:表述(Neural Networks: Representation)8.1 非线性假设参考视频: 8 - 1 - Non-linear Hy

2022-01-22 19:58:54 176

转载 1.21 study 逻辑回归与正则化

逻辑回归与正则化文章目录逻辑回归与正则化@[toc]六、逻辑回归(Logistic Regression)6.1 分类问题6.2 假说表示6.3 判定边界(边界不仅仅局限于一条直线)6.4 代价函数6.5 简化的成本函数和梯度下降6.6 高级优化6.7 多类别分类:一对多七、正则化(Regularization)7.1 过拟合的问题7.2 代价函数7.3 正则化线性回归7.4 正则化的逻辑回归模型六、逻辑回归(Logistic Regression)6.1 分类问题参考文档: 6 - 1 - Cl

2022-01-22 17:39:51 139

转载 1.21 study 梯度下降与正规方程

1.20 多变量线性回归文章目录1.20 多变量线性回归@[toc]四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征4.2 多变量梯度下降4.3 梯度下降法实践1-特征缩放4.4 梯度下降法实践2-学习率4.5 特征和多项式回归4.6 正规方程4.7 正规方程及不可逆性(可选)四、多变量线性回归(Linear Regression with Multiple Variables)4.1 多维特征参考视频: 4 - 1 - Mu

2022-01-21 11:10:37 236

转载 1.20 study单变量线性回归

1.20 study文章目录1.20 study@[toc]一、引言(Introduction)1.1 欢迎1.2 机器学习是什么?1.3 监督学习1.4 无监督学习二、单变量线性回归(Linear Regression with One Variable)2.1 模型表示2.2 代价函数2.3 代价函数的直观理解I2.4 代价函数的直观理解II2.5 梯度下降2.6 梯度下降的直观理解2.7 梯度下降的线性回归2.8 接下来的内容三、线性代数回顾(Linear Algebra Review)3.1 矩

2022-01-20 12:02:27 2996 2

翻译 1.Intro_Math(B站白板推导转载)

Introduction对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:XN×p=(x1,x2,⋯ ,xN)T,xi=(xi1,xi2,⋯ ,xip)TX_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}XN×p​=(x1​,x2​,⋯,xN​)T,xi​=(xi1​,xi2​,⋯,xip​)T这个记号表示有 NNN 个样本,每个样本都是 ppp

2022-01-20 10:13:27 150

原创 1.17 寒假学习之每天进步一点点(频率派与贝叶斯派)and最大似然估计

1.17 寒假学习之每天进步一点点机器学习基础频率派与贝叶斯派对于一个数据集X:data→X(x1,x2,…,xn)Tθ:parameterX:data \to X(x_1 , x_2 , \dots, x_n)^T \quad \theta:parameterX:data→X(x1​,x2​,…,xn​)Tθ:parameterx−p(x∣θ)x -p(x|\theta)x−p(x∣θ)频率派(统计机器学习)θ\thetaθ:未知的常量,x服从概率分布θmle=argmaxθlogP(x∣θ

2022-01-18 09:51:20 1211

原创 寒假每天进步一点点之 1. 16 python复习

python 复习基础语法标识符第一个字符必须是字母表中字母或下划线 _ 。标识符的其他的部分由字母、数字和下划线组成。标识符对大小写敏感。注释# 单行注释'''多行注释'''行与缩进同一个代码块在一个缩进中\实现多行语句[],{},()不需要使用反斜杠python数字类型int (整数), 如 1, 只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。bool (布尔), 如 True。float (浮点数), 如 1.23、3E-2

2022-01-16 21:48:45 373

原创 9. 代码生成

9. 代码生成代码生成的核心问题;指令选择寄存器分配指令调度指令选择为每条中间语言语句选择恰当的目标机指令或指令序列首先原则是保证语义的一致性直接为中间语言语句找到语义一致的指令序列模板:a=b+cMOV b, R0 // 将b装入R0ADD R0, c // 将c加到R0MOV R0, a // 存R0的内容到a其次要考虑所生成代码的效率一个丰富目标指令集的机器可以为一个给定的操作提供几种实现方法假设每条指令在操作数准备好后执行其操作的代价为1每访问一次内存则增加代价

2022-01-13 10:51:14 677

原创 8 代码优化

8 代码优化[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pje0kXbt-1642042188871)(…/picture/41.png)]代码优化是对被优化的程序进行的一种语义保持的变换语义保持:程序的可观察行为不能改变变换的目的是让程序能够比变换前(更小、快、节能等)很困难!!循环、支配性在入口节点为b0b_0b0​的流图中,当且仅当bib_ibi​位于从b0b_0b0​到bjb_jbj​的每条路径上时,结点bib_ibi​支配结点bjb_j

2022-01-13 10:50:41 332

原创 7. 中间代码生成

中间代码生成[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h2csTGf7-1642042154925)(…/picture/29.png)]IR (程序分析和代码优化),优化在特定的中间表示上才可以或容易进行图IR (将编译器的知识编码到图中) DAG(抽象语法树)线性IR (类似某些抽象机上的伪代码) 三地址码 (RISC)混合IR (结合了图IR和线性IR的要素)控制流图(CFG):更精细的三地址码,适合做程序分析、程序优化。  静态单赋值形式 (SSA

2022-01-13 10:49:40 621

原创 6. 语义分析

语义分析语义分析也称为类型检查,上下文相关分析负责检查程序(抽象语法树)的上下文相关的属性这是具体语言相关的,典型的情况包括变量在使用前先进行声明每个表达式都有合适的类型函数调用和函数的定义一致[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YX2SxtEw-1642042136401)(…/picture/12.png)]符号表用来存储程序中的符号(标识符)相关属性信息,是进行上下文语义合法性检查的依据。类型作用域访问控制信息

2022-01-13 10:49:07 2954

原创 3. 词法分析

3. 词法分析词法分析器的任务将字符流转换为记号流这些被返回的单词叫做记号:例如这个语句:if (x > 5)IF等:关键字,对应源程序的IFIDENT(x):表示是标识符的集合,把x等放到后面。IDENT即分类/词类,x可以叫做词素,即单词对应的实际文本。单词也叫做记号、token关键字、保留字、如if、while标识符,如变量名等常数,如23,4.5运算符,如+、*界符,逗号、分号输出用二元式表示:(单词种别(语法分析需要),单词自身的值)标识符符号表中有:标识

2022-01-11 22:24:33 656

原创 5. 语法制导翻译

语法制导翻译[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kJR2EhaU-1641910974690)(…/picture/1.png)]编译器在做语法分析的过程中,除了回答程序语法是否合法,还必须完成类型检查:语法正确但是语义不正确目标代码生成中间代码生成以上工作一般可以通过语法制导的翻译完成语法制导翻译是一种使用最广泛的上下文相关分析技术编译器需要进行更深入的分析(程序表示的值,这些值在哪里,值如何从一个名字流动到另一个名字,这需要用到上下文知识)

2022-01-11 22:23:20 1530

原创 4. 语法分析

4. 语法分析语法分析器的任务早期:检查输入的记号中包含的语法是否合法后期:生成的抽象语法树便于语义分析器或者代码生成器进一步的处理输入:记号流 输出:抽象语法树中间表示研究给定记号流输入是否合法:满足语言的语法规则(YES/NO)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PhsPjUPh-1641910962075)(…/picture/96.png)]语法分析:数学理论(上下文无关文法)(CFG)自顶向下分析递归下降分析算法(

2022-01-11 22:22:48 1129

原创 编译原理 2.文法

2.文法字母表字母表∑\sum∑是元素的非空有穷集合字母表中的元素(字母、数字、标点符号等)称为符号字符串由字母表中的符号组成的任何有穷序列称为符号串如果某符号串中有mmm个符号(不同于种),称为长度∣x∣=m|x|=m∣x∣=m ∣ε∣=0|\varepsilon|=0∣ε∣=0字符串集合如果集合AAA中的一切元素都是某字母表上的符号串,称AAA为该字母表上的符号串集合字母表运算乘积∑1∑2={ab∣a∈∑1b∈∑2}\sum_1\sum_2=\{ab|a \

2022-01-11 20:12:59 869

原创 编译原理1 绪论

0 绪论编译器:将高级语言程序翻译成可以在机器上运行的目标语言编译器是一个程序:核心功能是把源代码翻译成目标代码编译器设计的原则语义相同以某种可察觉的方式改进输入程序编译器结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ypl9LW0S-1641899844247)(…/picture/63.png)]前端:词法分析,语法分析,将输入的代码映射到IR后端:指令生成,指令优化,将IR映射到目标机的指令集和有限的资源上IR:中间表示,编译器使用一些数据结

2022-01-11 19:18:36 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除