
多模态大模型
文章平均质量分 94
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
ChatTTS: 将您的文本转换为语音
ChatTTS,声生成工具,是人工智能的一次重大飞跃,使得无缝对话成为可能。随着语音生成的需求与文本生成和大型语言模型(LLMs)一起增加,ChatTTS使音频对话变得更加方便和全面。与这个工具进行对话非常简单,通过全面的数据挖掘和预训练,这一概念的效率得到了进一步的提升。ChatTTS 是许多应用程序中最好的开源文本到语音生成模型之一。这个工具在英语和中文方面都表现出色。凭借超过 100,000 小时的训练数据,该模型可以提供两种语言的对话,听起来很自然。原创 2024-09-06 22:20:35 · 1316 阅读 · 0 评论 -
探索Civitai:模型、LoRA与创意可能性
Civitai 是一个创意平台,用户可以轻松微调 AI 模型,以生成独特、惊艳的图像。Civitai 借助提供共享和发现自定义 AI 模型的协作空间,赋能创作者。该平台提供多样化的AI生成模型,使用户能够轻松创作独特的数字内容。Civitai 支持 LoRA 模型,允许高效地对大型 AI 模型进行微调,以适应特定的任务和风格。Civitai 是一个创新的中心,为 AI 爱好者简化了生成引人注目的 AI 驱动媒体的过程。原创 2024-09-06 22:19:42 · 1268 阅读 · 0 评论 -
Vidu:一个新的中国AI视频生成器挑战Sora和Kling
Vidu AI 模型基于一种专有的视觉转化模型架构,称为通用视觉变换器(U-ViT)。这整合了两个文本到视频的 AI 模型:扩散模型和变换器。这种架构能够创建高质量的视频,具有动态的相机运动、复杂的面部表情,以及真实的光影效果。这就是的仪表盘界面:Vidu 网站。图片由提供注册时,用户每月获得 80 个免费积分,并且生成高质量的输出,尽管免费版本的分辨率略低。每次会话限制生成 4 秒(付费版本允许生成 8 秒)。原创 2024-09-04 20:42:59 · 1322 阅读 · 0 评论 -
Qwen2-VL: 阿里巴巴在视觉-语言人工智能领域的游戏规则改变者
在不断发展的人工智能领域,阿里巴巴再次展示了其实力,推出了,这是Qwen系列中最新和最先进的视觉语言模型。此次发布标志着人工智能在理解和与我们周围世界互动方面的重要进步,为视觉和文本理解设定了新的标准。原创 2024-09-03 07:45:37 · 464 阅读 · 0 评论 -
如何打造爆款AI虚拟主播——完整的逐步指南
第一步是生成你的AI影响者的摄影写真实的肖像。你可以使用任何图像生成器,但如果你追求一流的真实感,我推荐Midjourney或Flux。这里有一个用Midjourney生成的示例图像:提示:一幅电影摄影,中景,迷人的Instagram拉丁女人。她有着棕色的头发,带有紫色高光。迷人的女人。她有一张漂亮的脸,她坐在咖啡吧里。一位网红,面带微笑,手势仿佛在解释某事。这是一个使用Freepik生成的图像,使用了相同的提示。图片由提供这是我最喜欢的:图片由提供。原创 2024-09-03 07:40:51 · 1377 阅读 · 0 评论 -
如何打造爆款AI虚拟主播——完整的逐步指南
第一步是生成你的AI影响者的摄影写真实的肖像。你可以使用任何图像生成器,但如果你追求一流的真实感,我推荐Midjourney或Flux。这里有一个用Midjourney生成的示例图像:提示:一幅电影摄影,中景,迷人的Instagram拉丁女人。她有着棕色的头发,带有紫色高光。迷人的女人。她有一张漂亮的脸,她坐在咖啡吧里。一位网红,面带微笑,手势仿佛在解释某事。这是一个使用Freepik生成的图像,使用了相同的提示。图片由提供这是我最喜欢的:图片由提供。原创 2024-08-31 02:44:00 · 1317 阅读 · 0 评论