继ChatGPT掀起了AI新的革命后,人们开始相信:无论是对于自然语言,还是机器视觉,只要有足够多的数据,足够大的算力能支撑算法去训练和学习,必然可以得到一个“神通广大”的大模型。热血过后,AI相关的从业人员开始反思,一边觉得振奋人心,工作或者研究的重心要换了;一边又因感受到职业危机而多了几丝焦虑。这不过了没多久,自然语言的、多模态的开源大模型应运而生。
AI算法模型开发流程上的颠覆
对于一家将AI算法落地的企业,按照以往传统的AI算法开发流程,首先需要根据产品智能化的需求提炼出算法模型需求,比如要给产品中加入一个检测人是否戴口罩的功能,算法开发人员去提出数据及标注要求,数据处理人员去按要求采集、标注数据,算法人员再去拿这些数据作为训练集、测试集去训练、测试、优化模型。而现在如果有一个大模型,或者多模态的大模型,已经具备了这个我们提炼出的算法模型功能,那么对于AI算法开发人员,还有必要从0开始开发吗?是不是只要在这个大模型基础上去增加些对应的数据,在满足要求的算力上去训练优化模型呢。
最近偶尔会听到AI算法开发同事闲聊:
A:“刚下载了个开源的大模型,输入“烟雾”一下就检测出来了,还比我们的模型准,这还要我们干什么呀。。。”
B(恐慌中夹杂着兴奋): “真的嘛,我瞧瞧”
这种环境下,大家开始投入精力研究开源的大模型了,以及如何为我司产品所用。
基于语言和图像的预训练模型:
GitHub - microsoft/GLIP: Grounded Language-Image Pre-training
大家测下来的效果有几点:
1、功能比较多,但未必每个目标的检测或识别都很准确;
2、大模型显存占用非常大,想要训练起来要求很强的算力;
以后是不是可以开发出一个满足公司所有智能产品需求的大模型,这样就可以大大减少算法开发的人力了呢?但毕竟大模型对显存要求是很高的,又该如何平衡和实现呢?嗯,大方向是有了,但探索实践的路途仍比较长。
数据标注方面的颠覆
对于我司数据标注人员来说,同样的,兴奋中夹杂着恐慌。既然大模型这么强大了,会不会有一天根本不需要标注了,这是恐慌的原因;另外,是不是可以先用大模型预标注下,再去人工标注呢,这样大大减少了工作量。
既然通过大模型对数据进行预标注,一定程度上肯定会提高标注效率,那么对于用开源的大模型实现预标注的工具可以预研和开发起来了。
我们主要涉及下面两个,罗列出来,也许你用得到:
一个是检测识别类的:
一个是像素级标注的:
最后
ChatGPT的惊人效果让我们不得不重新审视人工智能。对于AI我们需要客观看待,不可过渡夸大,觉得马上机器就可以具备人的情绪和一切思考力,对人类带来威胁之类的;但也不可轻视,要以开放的心态去拥抱新技术,去实现新的可能。