- 博客(16)
- 收藏
- 关注
原创 对话系统笔记
原文链接:https://www.jiqizhixin.com/articles/2020-01-31-7对话系统一般分为两种:任务型对话系统和闲聊型对话系统。本文主要讨论前者。任务型对话系统,也称目标导向型对话系统,多用于垂直领域业务助理系统,如微软小娜、百度度秘、阿里小蜜等。这类系统具有明确要完成的任务目标,如订餐、订票等。任务型对话的架构框架主要包含如下几个模块:ASR:输入为语音,输出为文字;TTS:输入为文字,输出为语音;自然语言理解模块(NLU):输入为文字,输出为语义帧(包含
2021-10-27 12:12:05
1696
原创 《C++ Primer Plus》学习笔记
C++ Primer Plus 第六版第一章 预备知识主要有三个点:C++在C的基础上添加了面向对象编程(OOP)和泛型编程,前者更倾向于数据,后者则是独立于类型,提供了执行常见任务的工具;C++源代码需要经过编译、链接两个步骤才得到最终的可执行代码。编译是将源代码转成机器能理解的目标代码(object code),该过程由编译器完成,Windows一般是Microsoft Visual C++ 2010,Linux一般是g++,MacOS一般是clang;链接是将目标代码同使用的函数的目标代码以
2021-10-19 23:34:40
264
原创 乐理学笔记
文章目录第一课 五线谱线与间七个基础的乐音谱号分组等音谱表第二课 音符单纯音符附加音符复附点音符符干的写法休止符第一课 五线谱线与间七个基础的乐音七个乐音的唱名分别为:do, re, mi, fa, sol, la, si谱号高音谱号:g谱号低音谱号:f谱号高音谱号和低音谱号的绘制起点,都在sol上,和中央C都间隔一个线。可以以此为参照点,快速确定位置。C谱号绘画成一个竖线加一个大写的B,中间的开口就是中央C的位置。分组等音升高半音,降低半音升1和降2互为
2021-10-15 21:45:26
668
原创 文本编解码tokenizer
import jsonimport refrom typing import Listclass CharacterTokenizer: """ Tokenizer的功能是实现文本的编解码。编码,即把字符转成数字,但是实际生活中的字符是无限的,我们总可以遇到新的字符, 而这些字符在训练集中并不能得到充分训练,于是我们暂时用<unk>来表示。 编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的
2021-10-09 17:52:36
755
原创 NLP文本分类[doing]
本文主要收录常见的文本分类算法,包括LR、XGBOOST、TextCNN、DPCNN、HAN、BERT。TextCNN1TextCNN是将CNN应用到文本分类任务上的经典模型。模型结构1. 词向量层词向量矩阵xn×kx_{n \times k}xn×k,nnn表示句子的长度,kkk表示词向量的维度,通道包含静态词向量和动态词向量。2. 卷积层沿着字符的方向进行一维卷积,每个filter的卷积结果都是一个feature map(和二维卷积得到的矩阵相比,一维卷积得到的feature map是
2021-10-08 14:52:21
215
原创 排序算法集锦
排序算法是入门就会学到的算法,但是它却不是那么简单。常见的排序算法有选择排序、插入排序(insert sort)、冒泡排序(bubble sort)、快速排序(quick sort)、归并排序(merge sort)、堆排序(heap sort)。插入排序插排一般看成是排序算法的baseline,它的时间复杂度是O(n2)O(n^2)O(n2)def InsertSort(arr): if not arr: return for i in range(1, len(a
2021-10-08 00:49:30
83
原创 解决序列长期依赖的法宝——注意力机制
注意力的种类有如下四种:加法注意力, Bahdanau Attention点乘注意力, Luong Attention自注意力, Self-Attention多头点乘注意力, Multi-Head Dot Product Attention(请转至Transformer模型)1. Bahdanau AttentionNeural Machine Translation by Jo...
2020-02-06 18:46:27
2036
原创 参数估计:从目标函数到最优模型参数
最小二乘法 Least Squares Method二乘是平方的意思,感觉最小二乘法就相当于均方误差(MSE)了,最小二乘法的思想是找到一组参数θ=(θ0,θ1,...,θn)\theta=(\theta_0, \theta_1, ..., \theta_n)θ=(θ0,θ1,...,θn)使得∑i=1n(hθ(xi)−yi)2\sum_{i=1}^n(h_\theta(x_i)-y_i)...
2020-01-21 15:17:03
1078
原创 关于统计机器学习的一些想法
机器学习分为频率学派和贝叶斯学派,频率学派认为模型的参数是固定的,不同的输入数据进来,就会得到不同的输出数据,只要这些数据满足确定的统计规律即可。基于训练数据来训练模型的过程,其实就是一个模型不断优化、参数不断更新的过程,直到参数收敛了,得到了最优参数,那么模型也就确定了。这样思路最终得出了统计学习方法,统计学习方法的前提就是认为数据存在统计规律。并且训练数据和测试数据的统计规律相似。接下里...
2019-12-29 13:42:21
190
原创 机器学习基础——逻辑回归
逻辑回归是一个判别分类模型。逻辑回归的在线性回归的基础上,加了一个sigmoid函数,即z=w⋅xf(z)=11+e−z\begin{aligned}z & = w \cdot x\\f(z) & = \frac{1}{1+e^{-z}}\end{aligned}zf(z)=w⋅x=1+e−z1于是得到f(x)的计算公式:f(x)=11+e−w⋅x=ew⋅x...
2019-12-29 11:15:48
153
原创 语言模型
语言模型为句子s=w1w2⋯wls = w_1w_2\cdots w_ls=w1w2⋯wl的概率分布:p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s) = p(w_1)p(w_2|w_1) \cdots p(w_l|w_1 \cdots w_{l-1})p(s)=p(w1)p(w2∣w1)⋯p(wl∣w1⋯wl−1)p(s)p(s)p(s)反映了字...
2019-12-29 01:16:43
147
原创 Bert源码(一)
微调代码文件 run_classifier.py开始部分通过tf.flags.FLAGS来设置参数,分为必选参数和可选参数。必选参数data_dir 数据集所在目录bert_config_file bert预训练模型的config文件,以json文件形式储存task_name 任务名称,默认带了’cola’, ‘mnli’, ‘mrpc’, 'xnli’四个任务vocab_file ...
2019-12-26 15:16:24
955
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人