国外AI技术发展迅猛,国内同样表现不俗,各大企业纷纷聚焦不同领域,打造独具特色的亮点,呈现出百花齐放、精彩纷呈的繁荣景象。其中,我比较喜欢的就是智谱全模态、免费的全家桶。继 GLM-4-Flash 免费后,这两天又上线备受期待的第一款免费的多模态模型:GLM-4V-Flash,这款模型给了我很多惊喜,下面跟大家重点介绍一下这个新模型到底有多牛逼?
1
GLM-4V-Flash 简介
继 8 月免费开放语言模型 GLM-4-Flash 后,智谱秉持技术领先、普惠大众的理念,又在智谱开放平台(bigmodel.cn)上线首款免费多模态模型——GLM-4V-Flash。该模型继承 4V 系列优势,并在图像处理精度上取得突破,将进一步降低开发者挖掘大模型应用的门槛,开启新篇章。
多模态功能:该模型集成了图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高端功能,满足了多样化的图像处理需求。并且支持多达26种语言,包括中文、英语、日语、韩语和德语等,进一步拓宽了其应用范围。
为什么这么好用的多模态模型要免费呢?免费的主要原因是智谱开放平台底层的推理技术进一步提升,同时智谱也在继续践行普惠。不多说了,既然是免费的,那无论怎样,对用户来说都是非常香的,可以白嫖了!
2
GLM-4V-Flash 详解
1、GLM-4V-Flash如何使用 ?
GLM-4V-Flash 现已在BigModel开放平台上开放API调用。
首先,我们先登录BigModel开放平台:
https://zhipuaishengchan.datasink.sensorsdata.cn/t/AFhttps://bigmodel.cn/?utm_source=itbianchengquan&utm_campaign=4vflash&_channel_track_key=YzsUsRCh
注册登录后,我们点击模型广场,可以看到很多个AI模型,我只截图了部分,往下拉还有很多 。
我们来实际测试一下吧,看看拥有多模态的GLM-4V-Flash表现究竟咋样~点击体验中心进去,选择模型是GLM-4V-Flash,就可以开始提问了。
下面我上传了一张图片,我让GLM-4V-Flash模型根据图片直接生成一份菜谱。可以发现它可以很快正确的识别到我上传的图片,并且根据图片的信息帮我们直接生成好一份非常详细的做菜步骤,因为GLM-4V-Flash已经具备一定的推理和多模态能力,能够理解和回应复杂的问题 。
2、如何使用模型API?
我们以Python代码为例,需要先导包,输入命令
pip install zhipuai
然后在BigModel平台中获取API密钥,这个密钥千万不要告诉给其他人,不然可能会被其他人盗刷tokens,如下图所示:
将获取到的API密钥填入代码中即可调用 。
介绍了这么多,很多人不知道GLM-4V-Flash模型有哪些应用场景?接下来小猿会用一个实际案例带领大家更好的掌握这个模型 。
案例:我先用这个模型来制作一个上传任意图片识别系统。现在很多平台都需要涉及到用户上传图片,不过在上传完图片之前,平台一般需要先对用户上传的图片做个简单筛查,避免用户的图片是涉黄、暴力血腥等乱七八糟的图片,所以今天打算做一个简单的图片识别系统 。
好了,根据上面案例的分析,我们直接用Python代码来实现 。
我们先把用户要上传的图片,先存在一个url,然后上传给GLM-4V-Flash模型,代码如下:
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") //填入key
response = client.chat.completions.create(
model="glm-4v-flash",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "你是一名专业的图片审核专家,根据我上传的图片内容,分析一下图片的内容是什么?判断图片是否有涉黄、暴力血腥等不亮图片,如果正常,显示图片正常,否则显示异常 。"
},
{
"type": "image_url",
"image_url": {
"url" : "https://img1.baidu.com/it/u=1369931113,3388870256&fm=253&app=138&size=w931&n=0&f=JPEG&fmt=auto?sec=1703696400&t=f3028c7a1dca43a080aeb8239f09cc2f"
}
}
]
}
]
)
print(response.choices[0].message)
运行程序后,我们可以看到模型能正确理解和识别到我们所上传的图片,并且可以显示图片是否正常,不会涉及到涉黄。
上传图片:
输出结果:
图片正常,这是一张展示蓝天白云和海洋的海景照片。在远处可以看到陆地和大海相接的地方,天空中有几朵散布的云彩,整体给人一种宁静和谐的感觉
通过上面案例介绍,我们发现GLM-4V-Flash这个模型虽然是免费使用的,但是确实非常牛逼 。在图片识别领域,它不仅能够帮平台审核非法图片,也可以帮用户正确理解图片上的信息。在其他方面,拥有多模态能力的GLM-4V-Flash模型,表现能力都非常强悍,推荐大家去体验一波!
GLM-4V-Flash接口文档:
https://www.bigmodel.cn/dev/api/normal-model/glm-4v
GLM-4V-Flash体验中心:
https://bigmodel.cn/?utm_source=itbianchengquan&utm_campaign=4vflash&_channel_track_key=YzsUsRCh
↓↓↓ 戳 “阅读原文” 跳转智谱BigModel开放平台