
实践中的细节
文章平均质量分 55
实践中的细节
365JHWZGo
曾经曾经,有个人爱你很久
展开
-
CRF模型——条件随机场模型
文章目录CRF含义作用隐含假设使用过程维特比算法与HMM的差异CRF含义CRF(Conditional Random Fields), 中文称作条件随机场, 同HMM一样, 它一般也以文本序列数据为输入, 以该序列对应的隐含序列为输出.作用同HMM一样, 在NLP领域, CRF用来解决文本序列标注问题. 如分词, 词性标注, 命名实体识别.隐含假设隐含序列中每个单元的可能性只与上一个单元有关使用过程首先, CRF模型表示为: lambda = CRF(w1, w2, …, w原创 2021-12-08 12:46:24 · 2714 阅读 · 0 评论 -
拉普拉斯平滑Laplace Smoothing
文章目录什么是拉普拉斯平滑拉普拉斯平滑公式为什么要引入举例什么是拉普拉斯平滑在计数中加上一个平滑项1(也可以是一个给定的K值)拉普拉斯平滑公式Wi:第i个单词P(Wi):第i个单词出现的概率C(Wi):第i个单词在文本中出现的次数C(Wi-1 Wi):Wi和Wi-1在文本中同时出现的次数V:特征值的个数∑wC(w):所有数据集的个数为什么要引入在n-gram中计算词出现的概率时,有时会因为数据量不够而导致某些特征值没有出现,由于它们为0会对概率计算造成很大的影响,因此使得每一个原创 2021-12-04 21:03:29 · 5901 阅读 · 0 评论 -
Normalization代码实现【batch、layer】
文章目录题目题目我之前写的两者更为简单清楚的对比,有需要的可以看看。创造数据In [ ]:import torchimport torch.nn.functional as F# data is a batch and has three sequences,each of them has three words(word's dimension is three)data = torch.tensor( ( [ [[1,2,30],[0,原创 2022-04-02 14:32:40 · 1419 阅读 · 0 评论 -
比较Tensor.size()和Tensor.shape()中的区别和numpy中size和shape的区别
'''Author: 365JHWZGoDescription:比较Tensor.size()和Tensor.shape()中的区别Date: 2021/11/3 21:02FilePath: day1103-2.py'''#导包import torchimport numpy as npprint('numpy中size和shape的区别'.center(20,'-'))#创造numpy数据x = np.linspace(1,10,10).reshape(2,5)print(原创 2021-11-03 21:21:43 · 5483 阅读 · 0 评论 -
英文分词去除标点符号
文章目录题目代码实现运行结果前提安装题目'''Description: 英文分词去除标点符号Autor: 365JHWZGoDate: 2021-12-07 11:45:13LastEditors: 365JHWZGoLastEditTime: 2021-12-07 11:57:34'''代码实现import spacyimport string# 测试内容content = "Wall St. Bears Claw Back Into the Black (Reuters)原创 2021-12-07 12:31:29 · 1090 阅读 · 0 评论 -
3.5 多层感知机【斯坦福21秋季:实用机器学习中文版】代码实现
文章目录题目完整代码题目3.5 多层感知机【斯坦福21秋季:实用机器学习中文版】代码实现完整代码'''Description: 多层感知机的实现Autor: 365JHWZGoDate: 2022-03-21 16:02:55LastEditors: 365JHWZGoLastEditTime: 2022-03-21 16:59:52''''''main ideax->linear->relu->linear->sigmoid->linear->原创 2022-03-21 17:04:44 · 952 阅读 · 0 评论 -
3.4 随机梯度下降【斯坦福21秋季:实用机器学习中文版】代码实现
文章目录题目代码题目3.4 随机梯度下降【斯坦福21秋季:实用机器学习中文版】代码实现代码'''Description: SGD代码实现Autor: 365JHWZGoDate: 2022-03-20 12:10:30LastEditors: 365JHWZGoLastEditTime: 2022-03-20 17:46:25'''import randomimport torchimport matplotlib.pyplot as pltEPOCH = 40BATCH_SI原创 2022-03-20 17:53:11 · 2042 阅读 · 0 评论 -
HMM模型——隐含马尔科夫模型【详细分析+图】
文章目录HMM含义作用HMM含义HMM(Hidden Markov Model), 中文称作隐含马尔科夫模型, 因俄国数学家马尔可夫而得名. 它一般以文本序列数据为输入, 以该序列对应的隐含序列为输出.什么是隐含序列序列数据中每个单元包含的隐性信息, 这些隐性信息之间也存在一定关联EG:content = "他喜欢看动画片"# 对文本进行分词处理arr = ["他","喜欢","看","动画片"]# 每个词对应的隐含序列为hidden_sequence = ["n","v"原创 2021-12-07 20:35:10 · 5046 阅读 · 0 评论 -
attention注意力机制【对应图的代码讲解】
文章目录题目注意力机制三步式+分步代码讲解运行结果题目'''Description: attention注意力机制Autor: 365JHWZGoDate: 2021-12-14 17:06:11LastEditors: 365JHWZGoLastEditTime: 2021-12-14 22:23:54'''注意力机制三步式+分步代码讲解导入库import torch import torch.nn as nnimport torch.nn.functional as F原创 2021-12-14 23:54:13 · 2831 阅读 · 0 评论 -
Embedding之padding_idx学习
文章目录题目解释举例case1:padding_idx=Nonecase2:padding_idx=0case3:padding_idx=3case4:padding_idx=3,将单词顺序变化题目padding_idx学习解释Embedding类参数含义padding_idx (int, optional)If specified, the entries at :attr:padding_idx do not contribute to the gradient; th原创 2022-01-06 17:21:49 · 2881 阅读 · 0 评论 -
TensorData和Dataloader
'''Description: torch--TensorDataAutor: 365JHWZGoDate: 2021-11-15 21:42:12LastEditors: 365JHWZGoLastEditTime: 2021-11-15 21:53:45'''import torchimport torch.utils.data as Dataimport numpy as npBATCH_SIZE = 2#numpy#方法一x = np.linspace(1,10,10原创 2021-11-15 22:08:27 · 794 阅读 · 0 评论 -
深刻理解torch.stack()
'''Author: 365JHWZGoDescription: torch.stack()Date: 2021/11/4 15:48FilePath: day1104-2.py'''import torcha = [[1]]a = torch.Tensor(a)print(a)out = []for i in range(10): out.append(a)print('out ',out)b = torch.stack(out, dim=0)print('b',b原创 2021-11-04 17:19:56 · 428 阅读 · 0 评论 -
理解 a[:,time_step,:] 和 a[:time_step:]
'''Author: 365JHWZGoDescription: 理解 a[:,time_step,:] 和 a[:time_step:]Date: 2021/11/3 21:23FilePath: day1103-3.py'''#导包import torchimport numpy as np#创造数据a = np.linspace(1,9,9).reshape(3,3,1)#转化为tensor数据a = torch.from_numpy(a)#打印tensor apr原创 2021-11-03 22:25:30 · 218 阅读 · 0 评论 -
MLP多层感知机
文章目录题目含义题目'''Description: MLPAutor: 365JHWZGoDate: 2021-12-28 21:52:28LastEditors: 365JHWZGoLastEditTime: 2021-12-28 21:52:28'''含义mlp(Multilayer Perception)多层感知机,又叫做人工神经网络(ANN,Artificial Neural Network)。最简单的MLP,它主要由三层构成输入层隐藏层输出层假设输入有m维,输出原创 2021-12-28 22:14:10 · 651 阅读 · 0 评论 -
浅谈torch.gather()简单画图理解
文章目录题目参数dim=0dim=1题目浅谈torch.gather()'''Description: torch.gather()Autor: 365JHWZGoDate: 2022-03-28 15:47:07LastEditors: 365JHWZGoLastEditTime: 2022-03-28 16:01:34'''参数参数含义input输入tensordim在第几个维度上进行选取index选取该维度上的第几个下标dim=0i原创 2022-03-28 16:36:17 · 263 阅读 · 0 评论 -
Attention机制【思维导图】
原创 2021-12-14 21:52:26 · 358 阅读 · 0 评论 -
《实验细节》实现nucleus sampling中的函数解读
当对一个tensor同时进行操作时,需要克隆出一个新内存。对之前的torch.tensor进行累加。原创 2022-08-07 18:37:42 · 402 阅读 · 0 评论 -
MAC webdrive解决谷歌名称问题和没有对应版本号问题
文章目录题目步骤问题1 谷歌名称问题问题2 chromedriver没有对应版本号题目MAC webdrive解决谷歌名称问题和没有对应版本号问题步骤在anaconda3里安装step1:pip install seleniumstep2:安装谷歌对应的chromedriver然后把它放在/Users/你的用户/opt/anaconda3/bin/chromedriverstep3:测试from selenium import webdriverdriver = webdriver原创 2022-03-17 18:40:36 · 1883 阅读 · 0 评论 -
爬虫(汪峰歌词实战)
爬虫(汪峰歌词实战)下载相关包pip install lxmlpip install bs4创建实例from bs4 import BeautifulSoupurl = "a website which you want to get some datasets"html = urlopen(url,).read().decode('GB2312',errors="ignore")soup = BeautifulSoup(html,features='lxml')解决乱码html中解原创 2022-05-06 19:22:57 · 369 阅读 · 0 评论 -
parser用法
两者皆用char_dim使用。原创 2022-07-21 17:29:15 · 556 阅读 · 0 评论 -
《实现细节》字符索引向字词索引的转化代码
但是,这个answer_start往往不是我们需要的索引,所以需要将其转化为DenverBroncos在这个context中的单词索引位置。在阅读理解任务中,答案往往是给字符的起始位置的索引,如SQuAD1.1数据集中的一个示例如下。...原创 2022-07-18 21:23:33 · 121 阅读 · 0 评论 -
谷歌云端硬盘如何下载GB型文件
文章目录前言方法操作步骤谷歌云端硬盘如何下载GB型文件前言这几天一直被谷歌网速所困扰,在云端硬盘里训练好模型后,因为有1GB多一直无法下载,本来想在本地训练一下,后来发现这行不通,如果连vpn直接从谷歌下载,那么结果是凉凉~方法今天在搜索中无意发现一个宝藏知乎,给了我用一个希望如何快速下载google drive文件到本地?有其他需求的小伙伴可以看看操作步骤multCloud网址登陆上去,可以选择Google Chrome账户登陆自己注册MEGA,需要vpn,MEGA官网原创 2022-02-13 13:40:53 · 985 阅读 · 0 评论 -
使用huggingface中transformers的字典和tokenizer
文章目录题目步骤普通的编码函数增强的编码函数批量处理句子批量成对编码字典操作题目使用huggingface中transformers的字典和tokenizer步骤step1pip install transformersstep2加载分词器from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained( # 传递模型名称 pretrained_model_name_or_p原创 2022-02-10 12:44:41 · 3069 阅读 · 0 评论 -
使用Hugging Face快速实现Tokenizer
使用Hugging Face快速上手Tokenizer方法step1方法step1进入huggingface网站在搜索栏中搜索chinese【根据自己的需求来,如果数据集是中文这的搜索】打开第一个bert-base-chinese复制下面这段话到vscode里from transformers import AutoTokenizer, AutoModelForMaskedLMtokenizer = AutoTokenizer.from_pretrained("bert-base-ch原创 2022-01-21 13:06:58 · 2112 阅读 · 0 评论 -
QA问答机器人实战中的数据集获取
QA问答机器人实战中的数据集获取原始数据集获取原始数据处理原始数据集获取ModelWhale数据集从中找到你需要的数据集原始数据处理在今天处理原始数据中,我最常用用到的pandas函数是函数含义data=pd.read_csv(“path/xxx.csv”)从path中读取数据集df.to_csv(‘path/Result1.csv’,index=0)将数据集保存为.csv文件,不保存行索引df.to_csv(‘path/Result.csv’,header=原创 2022-01-14 16:04:25 · 966 阅读 · 0 评论