Recap
参考https://www.jianshu.com/p/aed50c1b2930开始这个任务。
crf参考网址:https://www.cnblogs.com/createMoMo/p/7529885.html
知道了lstm的输出格式(即crf中会使用到的emission score,每个位置的单词对应各label的概率),虽然只利用lstm也可以进行预测(每个单词的label取使概率取最大值的即可),但这样的预测在很多时候明显是错的(如i标签出现,在前面未有b的情况下),而条件随机场很好地解决了这个问题(通过在预测时不光考虑emission,也考虑transition)。
crf的lost function表达。难点在于表达log(e^s1+…e sn)和利用训练好的模型预测未见过的句子的label这两个dp算法。
吃完饭回来继续dp+code,之后开始gcn的学习(关系提取)。
lost function
如果可以表达出来lost function,就可以进行优化,从而update模型参数。
所有路径的log(e^si)之和
假设这样一个toy example:三个words(w0,w1,w2&#x