spaCy meets Transformers
团队介绍
Matthew Honnibal 联合创始人
2009年获得计算机科学博士学位,在自然语言理解系统领域拥有10年前沿研究经验,2014年离开学术界开发spaCy
Ines Montani 联合创始人
拥有媒体科学与语言学学位的程序员和前端开发人员,自首次发布以来一直致力于spaCy开发,是Prodigy的主力开发人员
项目成就
- 全球用户超过10万
- GitHub获15k星标
- 400名贡献者
- 60多个扩展包
Transformer模型演进
ELMo → ULMFiT → BERT
技术实现
核心功能
- 分词对齐技术
- 模型微调功能
- spaCy的NLP处理流水线
架构设计
处理流水线特点:
- 支持共享表示的处理流水线
- 无共享表示的处理流水线
模块化架构原则:
- 功能应小巧且自包含
- 避免状态和副作用
- 用较少部件构建多个系统
速度与精度平衡:
- 小功能会导致重复工作
- 无状态模型会丢失信息
- 机器学习模型并非真正可互换
Transformer模型应用
优势
- 网络设计简单
- 准确度高
- 需要少量标注示例
劣势
- 速度慢/成本高
- 需要大批次处理
- 处于技术前沿
技术集成
github.com/某机构/spacy-transformers
功能特性
- 通过pip安装spacy-transformers
- 支持文本分类、对齐分词、自定义模型
- 即将推出:命名实体识别、标记、依赖解析
- 即将推出:Transformer组件的RPC支持
- 即将推出:Prodigy中的Transformers支持
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1022

被折叠的 条评论
为什么被折叠?



