Rasa课程、Rasa培训、Rasa面试系列之: Rasa NLU意图和实体-特征提取器
特征提取器为机器学习模型生成数字特征。下图显示了单词“Hi”的编码方式。

有两种类型的特征:
- 稀疏特征:通常由计数向量器生成,这些计数也可能表示子词。还有一个词汇语法增强器生成对实体识别有用的基于窗口的特征。当与spaCy相结合时,LecticalSyntacticFeaturizer 可以配置包括词性特征
- 密集特征:由许多预先训练的嵌入词向量组成。通常来自SpacyFeatureizers或来自 huggingface及LanguageModelFeaturizers,应在管道中包含适当的标记器。

除了标记的特征,我们还为整个句子生成特征。有时也称为CLS标记。
句子特征:
这里的稀疏特征CLS标记是句子标记中所有稀疏特征的总和,密集的特征是单词向量的和或者平均值(使用spaCy的情况下),或者是整个文本的上下文化表示(使用huggingface 模型)。可以使用定制的特征提取工具添加自己的组件。例如,有一个由社区维护的项目叫做rasa nlu示例(https://rasahq.github.io/rasa-nlu-examples/),这有许多非英语语言的实验特性,可以帮助很多用户,因为它有超过275种语言。
Rasa官网链接: https://rasa.com/docs/rasa/
Gavin大咖课程信息分享:
NLP 高手之路101课(模型、算法、论文、源码、案例 + 1年答疑)
Rasa 3.x 源码高手之路:系统架构、内核算法、源码实现详解
Gavin大咖简介
星空智能对话机器人创始人、AI通用双线思考法作者,现工作于硅谷顶级的AI实验室。专精于Conversational AI. 在美国曾先后工作于硅谷最顶级的机器学习和人工智能实验室
Gavin大咖微信:NLP_Matrix_Space
联系电话:+1 650-603-1290
联系邮箱:hiheartfirst@gmail.com
助教老师微信:Spark_AI_NLP

博客链接:https://blog.youkuaiyun.com/duan_zhihua
作者参与Gavin大咖主编出版Spark系列图书5本,清华大学出版社最新出版2本新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版、《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》,累计原创博客1475篇,涵盖大数据、人工智能、智能对话机器人等内容,博客阅读量达217万次。
Gavin大咖课程信息分享
课程名称:Rasa 3.x 源码高手之路:系统架构、内核算法、源码实现详解
课程介绍:
Rasa是Conversational AI在智能业务对话领域工程落地全球最为成功对话机器人系统,是基于Transformer架构的全球使用最广泛的智能业务对话机器人框架,是NLP技术的集大成者。在当今全球范围各项对比指标综合成绩中,Rasa均处于领先地位:

本课程致力于彻底解密Rasa 3.x系统架构、内核算法、知识图谱及源码实现:

具体来说,该系统课程是以下五大课程的合集:
- 业务对话机器人Rasa 3.x Internals内幕详解及Rasa框架定制实战
- 业务对话机器人Rasa核心算法DIET及TED论文详解及源码实现
- Rasa 3.x 语言理解内核Classifiers架构、算法及源码实现
- 基于Transformer的对话机器人Rasa Policies架构设计与源码全解
- Rasa业务对话机器人Microservices微服务架构内幕与源码全解
课程通过这五大阶段内容,按照循序渐进的学习方式,帮助学员彻底精通Rasa新一代内核架构

本文深入探讨Rasa NLU中特征提取的重要性,包括稀疏特征如计数向量和词汇语法增强,以及密集特征如预训练嵌入词向量。文章还介绍了如何自定义特征提取工具,如rasa nlu-examples项目,该项目支持多种非英语语言。此外,文章提到了Rasa的系统架构、内核算法和源码实现的高级课程,旨在帮助开发者精通Rasa对话机器人框架。
最低0.47元/天 解锁文章
1092

被折叠的 条评论
为什么被折叠?



