开源公告|多模态内容理解算法框架Lichee开源

02e6021a87100e3d56da6dbba7db98ca.gif

导语

Lichee是一个多模态内容理解算法框架项目,其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。由腾讯看点内容算法研发中心研发。并于2021年在腾讯看点、腾讯视频、内容管线、QQ等业务场景均有落地,并平均减少标注样本量40%+。经过多次实践迭代,可以大幅缩短信息流内容理解需求的研发周期提升人效。此外,为QQ浏览器2021AI算法大赛-多模态视频相似度赛道提供baseline模型及代码。现将Lichee对外开源,为微服务开源社区贡献力量。

2882e9b9e2a58c5af6e82978ee453e43.png

主要设计目标

1. 缩短信息流内容理解需求的研发周期

2. 集成AI领域的成熟解决方案

f4a1f9cccabca6bbfd4172b32fabc486.png

Lichee功能介绍以及适用场景

Lichee主框架采用分层的思想组织模型训练,通过配置文件组合 DATA、Parser、MODEL、Optimizer、Scheduler 等组件,构建具体的训练流程。此外,Lichee还提供了数据清理、推理加速等能力。

411fffa4a601ca0f68a98f5f55747543.png

3802de5ee095d3af65c9401b6f5a402d.png

Lichee技术特点:

1. 性能优越的预训练引擎

提供了自研中文预训练模型,如LICHEE-NLG-ENGINE、LICHEE-RESNET-ENGINE等,免除训练中文预训练模型必须的大量资源和高质量语料库的限制。LICHEE/ShenZhou预训练模型先后于2021年1月8号和2021年9月19号登顶中文NLP权威榜单CLUE。相关技术创新在NLP顶会ACL 2021发表文章(https://arxiv.org/pdf/2108.00801.pdf)。

2. 基于配置化的模型训练

满足90%+业务场景仅通过配置即可完成模型训练任务。

3. 提供二次开发能力

提供了基于插件的二次开发能力,来满足更复杂的特殊业务场景。

4. 数据增强

为了进一步降低任务样本的数量,提供了数据增强插件,解决脏数据清洗和数据生成等方面的工作。

5. 能力插件

提供了更多的结构化能力插件,如词法分析工具LICHEE-LAC、句子相似度工具LICHEE-SIM、人脸识别工具等。

6. 推理加速

集成推理加速的能力,能够降低业务模型的实际部署成本。

0055a284887136d114ad045f68519e4d.png

Lichee项目规划

1. 扩充各领域的预训练模型

2. 扩充训练加速、推理加速能力

3. 兼容hugging face项目

4. 提升项目的易用性、开放性及效率

5fc016377ac774fec09133d84932f072.png

Lichee开源地址

https://github.com/Tencent/Lichee

请给项目 一个 Star !

欢迎提出你的 issue 和 PR!

 国内镜像地址:

https://git.code.tencent.com/Tencent_Open_Source

(登录后才能访问公开项目)

腾讯工蜂源码系统为开源开发者提供完整、最新的腾讯开源项目国内镜像

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

1370c2a273b1912383bcd8cb74a81d76.png

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值