
机器学习
大风起兮借天时
这个作者很懒,什么都没留下…
展开
-
词嵌入模型
词嵌入模型 为什么需要词嵌入模型 余弦相似度可以度量两个向量的相似程度,我们自然想到可以将单词或者文本用向量表示,来判断两者的相似程度,而词嵌入模型则是一种实现方式,将所有出现的单词作为一个词袋库,将onehot向量进行压缩表示成(50到300维)的向量,利用中间层的隐藏向量,讲单词变成向量表示,方便后续的模型输入(如bert等) 与他相似的工作 tf-idf:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,但忽视了词序关系 主题模型:是一种基于概率图的生成式模原创 2021-12-07 16:35:55 · 2900 阅读 · 0 评论 -
统计学方法笔记
输入变量和输出变量均为连续变量的预测问题称为回归问题 - 输出变量为有限个离散变量的预测问题称为分类问题 输入变量和输出变量均为变量序列的预测问题称为标注问题 假设空间 监督学习的人目的在于学习一个有输入到输出的映射,这一映射有模型来表示。学习的目的就是为了找到最好的这样的模型,模型属于从输入到输出的空间映射的集合,这个集合称为假设空间。假设空间意味着学习范围的确定。 结构风险最小化是指在经...原创 2019-07-08 16:22:01 · 295 阅读 · 0 评论 -
机器学习思考
分类任务为什么需要降维 测试样本需要在一定范围空间内找到找到训练样本,但这在高维空间却难以实现,所以需要降维。(pca,tsne)原创 2019-07-13 17:51:28 · 175 阅读 · 0 评论