生产中实体关系抽取一般采用什么方法?
实体关系抽取有很多种方法,如基于特征向量的方法,基于核函数的方法,基于Bootstrapping的方法,基于深度学习的方法等等。看了很多这些方面的论文,各自评价不同,都有优缺点,在实际生产环境中,那种方法使用的更多,或者是一种综合使用的关系么?
负责任地告诉你,在实际公司项目(尤其是中小企业),都不是用什么learning-based methods, 而是规则!没错,规则,尤其是特定的领域的任务。
当然了,大厂除外,大厂玩得起。
为什么?你想啊,第一,哪来的大量标注语料?标注数据工作是极其labor-intensive。第二,在under ground的应用上,专家知识制定的规则才是让抽取工作既正确又高效的做法,还简单。第三,即便是用learning models, 拿到一套语料,如果很烂、很不规整,抽取效果拿不出手,实际的项目效果没你实验跑出来的那么好,recall 非常低。
至于你说的state of the art, 在读论文做实验自己跑跑open datasets就好了。
实体关系抽取在实际生产中,尤其是中小企业,更倾向于使用规则方法,而非复杂的机器学习模型。由于缺乏大量标注数据和对效率的要求,专家制定的规则成为首选。尽管深度学习等先进技术在研究中有优秀表现,但在资源有限的环境下,它们的实际应用并不广泛。
244

被折叠的 条评论
为什么被折叠?



