- 博客(8)
- 收藏
- 关注
转载 生成式文本摘要1 - Seq2Seq + attention
Seq2Seq模型架构:利用Encoder-Decoder架构,结合attention,对文本摘要生成任务进行建模和训练。Encoder和Decoder中,分别使用GRU结构来抽取文本特征。
2022-09-07 20:47:26
719
1
转载 算法工程师是不是一个「越老越吃香」的岗位?
个人觉得,如果35岁了还处在第一阶段,也就是只能执行明确的算法模型,和刚毕业的年轻人比可以说完全没有竞争力,个人职业生涯的进一步发展会很受限。如果已经进入第二阶段,不可取代性还是很强的,毕竟这个阶段的合理算法技术选型和推动落地能力,是很多刚毕业和工作不久的年轻算法工程师难以做到的。如果已经到了第三阶段至少已经是业务方向的算法负责人了,都这种 title 了,考虑的是怎么往公司的中上层走了,根本不会担心年龄这种坎。
2022-09-07 11:46:18
2245
原创 NLP笔记之 语言模型的平滑技术
基于markov的语言模型,在遇到未登录词时,会将语法合理的句子概率计算为0.这是不合理的。Add-one Smoothing (laplace smoothing)分母上加一个V(词典大小)的一个理由,使概率之和为1.Add-K Smoothing以perplexity为优化目标,计算最优的值Interpolation平滑核心思想:计算Trigram概率时同...
2019-08-07 12:20:00
612
原创 NLP笔记之Markov assumption 和 language model
贝叶斯模型无法表示长句子,多个单词的条件下,某个词出现的概率极小,再经过链式法则连乘之后,概率更小。针对这个问题,有马尔科夫假设:马尔科夫假设:某个单词出现的概率只与它前面的一个或几个单词有关。一阶马尔科夫模型对应二元语法模型bigram二阶马尔科夫模型对应三元语法模型trigram一元语法模型无法表示语句中单词之间的关系。一元模型下,正常语句的概率和改句子打乱后的概率相...
2019-08-07 08:52:17
1181
原创 NLP 之 Word Represention
one hot represention:one hot,count,td-idf缺点:长度和词典长度相同,稀疏性,无法计算相似度one hot表示单词,一个和词典大小一样的向量,单词出现的位置为1,其余位置为0。向量中只有一个值为1.one hot表示句子,一个和词典大小一样的向量,句子中词出现的位置为1,其余位置为0。向量中1的个数小于等于句子中词的个数。count表示句子,一个...
2019-08-05 10:02:08
270
原创 [笔记]-李宏毅 DeepLearning P1
1、 A shallow Network can feet any function.2、How many neurons are needed to approximate f? L/e3、better way : deep neurons network, more effective.
2019-07-14 22:01:43
103
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人