本文按照自然语言处理的基本逻辑分类组织一批笔试面试常见问题,并给出最本质的核心回答。希望你能用keyword 抓住面试官的心。
本篇 主要包含的内容有:
- 文本预处理
- 文本的表示技术
- 序列标注
文本预处理
- 文本预处理步骤主要包含哪些?
答∶格式统一、去噪、去停用词、大小写转换、去特殊符号、词形还原、分词、词性标注、句法分析、文本纠错、关键词提取等,根据具体任务有机选取。
- 中英文本的预处理过程有何不同?
答∶中文的词语中间不存在空格,因此需要分词算法将词语进行区分;英文是形态变化语,因此存在词形还原、大小写转换、词干提取等预处理步骤。
参考:https://season.blog.youkuaiyun.com/article/details/88981766
- 你知道哪些关键词提取的方法?
答∶基于规则、基于主题模型、基于图模型。
参考:https://season.blog.youkuaiyun.com/article/details/107994300<