人工智能
文章平均质量分 75
AI 研习所
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2.4K star的GOT-OCR2.0:端到端OCR 模型
GOT-OCR2.0作为AI 2.0时代的重要产品,通过端到端设计、一体化架构和对多场景复杂内容的识别能力,为用户提供了精准、高效的OCR解决方案。无论是在文档数字化、场景文本识别还是复杂数据处理方面,它都展现出卓越的性能,是开发者和研究人员不可或缺的工具。GOT-OCR2.0是一款新一代的光学字符识别(OCR)技术,标志着人工智能在文本识别领域的重大进步。作为一款开源模型,GOT-OCR2.0不仅支持传统的文本和文档识别,还能够处理乐谱、图表以及复杂的数学公式,为用户提供了更加全面和高效的解决方案。原创 2024-09-23 10:35:46 · 1395 阅读 · 0 评论 -
变天了,Reflection 70B出世-打败 Claude 3.5/GPT4o
一个新模型横空出世,值得注意!世界顶级开源模型 Reflection 70B,在诸多指标上打败了 Claude 3.5/GPT4o.特别是推理能力超强.重模型使用 Reflection-Tuning 进行训练,使 LLM 能够修复自己的错误。这个模型的技术有可能和GPT5相似。而 405B 版本将于下周上市——它有望成为世界上最好的型号。原创 2024-09-09 13:42:51 · 629 阅读 · 0 评论 -
OpenAI开发ChatGPT“反作弊神器”,99.9%超高命中率,还没上线
检查内容是否用了ChatGPT,准确率高达99.9%!OpenAI又左右互搏上了,给AI生成的文本打水印,高达99.9%准确率抓「AI枪手」作弊代写。其能够精准识别出论文或研究报告是否由ChatGPT撰写,甚至能追溯其使用的具体时间点。它能专门用来检测是否用ChatGPT水了论文/作业。早在2022年11月(ChatGPT发布同月)就已经提出想法了。但是!这么好用的东西,却被内部雪藏了2年,现在都还没对外公开。原创 2024-08-08 16:24:00 · 864 阅读 · 0 评论 -
智谱 AI 开源视频生成模型CogVideoX:单张 4090 显卡即可推理
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。就在近日,智谱AI秉承“以先进技术,服务全球开发者”的理念,宣布将与“清影”同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。原创 2024-08-06 18:07:11 · 1939 阅读 · 0 评论 -
阿里发布“神笔马良版Sora”:寥寥数笔,动画自成
基于OpenSora框架,创新两种运动处理模块如下图所示,Tora包括一个Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,时空去噪扩散变换器)、一个Trajectory Extractor(TE,轨迹提取器)和一个Motion-guidance Fuser(MGF,运动引导融合器)。原创 2024-08-06 17:57:10 · 949 阅读 · 0 评论 -
AI视频生成器,堪称自媒体人的神器
Vozo Rewrite & Redub 是一款创新的视频编辑工具,可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。原创 2024-07-25 18:43:00 · 923 阅读 · 0 评论 -
Mem0:个性化的AI记忆层,一款开源的大语言记忆增强工具
Mem0是一款开源的大语言模型记忆增强工具,能够让AI拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断进化的响应。Mem0的关键特性包括多层次记忆保留、自适应个性化、开发者友好的API以及跨平台一致性。还提供集中式记忆管理,简化了开发过程,开发者能够轻松构建具有高级个性化功能的AI应用。Mem0可以显著提升个性化AI的能力。通过记住用户的偏好等用户画像信息,AI产品就可以提供更加个性化服务,有较好的想象空间。原创 2024-07-24 11:26:38 · 1783 阅读 · 0 评论 -
Mistral联合英伟达开源12B小模型:碾压Llama 3,单张4090可跑
这将如何影响更广泛的 AI 生态系统还有待观察,但可以肯定的是:将 AI 能力更接近最终用户的竞赛正在升温,Nvidia 和 Mistral AI 已经在这一方向上迈出了大胆的一步。与动辄上千亿参数的大模型相比,小模型的优势是显而易见的:它们不仅计算成本更低,训练和部署也更为便捷,可以满足计算资源受限、数据安全级别较高的各类场景。Mistral NeMo瞄准企业用户的使用,采用属于NVIDIA AI Enterprise一部分的企业级软件,具有专用功能分支、严格的验证流程以及企业级安全性的支持。原创 2024-07-22 15:24:49 · 1272 阅读 · 0 评论 -
北大发布PAS:数据高效的即插即用提示增强系统
近年来,大型语言模型(LLM)的诞生刺激了对即插即用人工智能系统的需求不断增长,而在各种人工智能技术中,Prompt工程,即通过不断调整给予大模型的指令以优化大模型生成结果显得尤为重要。然而,由于陡峭的学习曲线和大量的时间投入,用户在编写提示时经常面临挑战,就连目前最熟练的“提示工程师”也很难保证调试出最优化的提示,而这限制了大模型实际落地的效果。同时,现有的自动提示工程(APE)模型可能难以使用。原创 2024-07-19 14:34:30 · 590 阅读 · 0 评论 -
大模型模仿人类记忆,迎来无限上下文时代
而现有的大型语言模型(LLMs),虽然已经展现出了非凡的能力,但在处理广泛的上下文时仍然存在困难,这限制了它们在处理长序列时保持连贯性和准确性的能力。此外,分析显示,EM-LLM的事件分割与人类感知的事件有很强的相关性,表明了这个人工系统和其生物对应物之间的桥梁。在这项工作中,介绍了EM-LLM,这是一种新颖的方法,它将人类事件记忆和事件认知的关键方面整合到LLMs中,使它们能够有效处理几乎无限的上下文长度,同时保持计算效率。原文指路:https://arxiv.org/abs/2407.09450。原创 2024-07-18 16:32:07 · 737 阅读 · 0 评论 -
快手开源LivePortrait:将照片变为生动视频,实现表情姿态迁移
此外,还使用了大规模4K分辨率的人像视频,包含不同的表情和姿态,200余小时的说话人像视频,一个私有的数据集LightStage[6],以及一些风格化的视频和图片。接着,驱动关键点 (xd) 分别被眼部和嘴部对应的变形变化量更新,对应的驱动输出为 (Ip,eyes) 和 (Ip,lip)。最后,眼部和嘴部重定向模块的目标函数分别为 (Leyes) 和 (Llip),分别计算眼部和嘴部区域的像素一致性损失,眼部和嘴部变化量的正则损失,以及随机驱动系数与驱动输出的张开条件系数之间的损失。原创 2024-07-18 15:59:19 · 1024 阅读 · 0 评论 -
“欧洲OpenAI”开源新模型,实现更快、更长的代码生成
Mistral 测试了该模型,测试结果显示该模型可以在 Mistral 的 l a Plateforme API上免费使用,可处理多达 256,000 个令牌的输入——是 OpenAI 的 GPT-4o 的两倍。Mistral 表示,该模型的表现优于所有为数学推理设计的模型。而就在今天,MistralAI在其不断壮大的大语言模型(LLM)家族中增添了两名新成员:一位是名为Mathstral的基于数学的模型,另一位是基于其他研究人员去年年底开发的名为Mamba的新架构,供程序员和开发人员提供的代码生成模型。原创 2024-07-17 16:33:18 · 1066 阅读 · 0 评论 -
RTX 4090:AI时代的性能首选
在这个日新月异的数字时代,每一次技术的飞跃都是对极限的挑战与超越。而作为当下性能最为出色的芯片,RTX4090无疑是许多人对于算力、GPU性能追求的首选,其惊人的CUDA核心数量,配合高速GDDR6X显存,无论是深度学习、高帧率4K/8K专业图形渲染,还是进行AI大模型推理,都能轻松驾驭,游刃有余。高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?上图中,我们可以看出相比于同样在性能方著称的芯片A100,4090在各方面性能上仍旧是强大了不少。原创 2024-07-16 18:26:07 · 9240 阅读 · 0 评论 -
可灵之后,快手又一最新明星产品:告别鬼画符,一键生成理想图像
例如,我们输入提示词:复古摄影写真,80年代的MTV风格,多巴胺的色彩装饰,背景是室内复古电视,电视中写着中文“AI研究”,一把绑着粉色蝴蝶结的叉子,一个草莓蛋糕,电视广告,80年代流行文化,柔光。例如,我们输入提示词:毛毡艺术,高清,毛毡材质,高级滤镜,可爱,卡通,羊毛毡娃娃,名画,梵高的自画像。提示词:可爱的柴犬,穿着西装,一只手托着酒杯,另一只手拿着玫瑰花。提示词:摄影人像,写真,东方面孔的羊毛卷长发美女,穿着复古的服装,鲜花点缀在头发上面,高级滤镜,复古,蓝色背景。近期,快手平台又又又成为了焦点。原创 2024-07-16 15:31:35 · 1225 阅读 · 0 评论 -
大模型时代的小红书+马蜂窝:华人团队开发 的AI旅行app
一周前,由红杉投资的硅谷初创公司UTA AI推出了其核心产品Wanderboat AI,这是一个基于GPT-4技术的智能旅行规划工具。该平台允许用户通过对话交互来明确旅行的偏好和需求,并提供包括目的地、活动和实用建议在内的定制化旅行建议。Wanderboat AI整合了视频、图片、地图和评价等多种媒体资源,以增强用户体验。它还具备智能互动特性,用户可以随时查询并得到立即答复。原创 2024-07-15 17:03:19 · 1297 阅读 · 0 评论 -
阿里通义音频生成大模型 FunAudioLLM 开源
近年来,人工智能(AI)技术的进步极大地改变了人类与机器的互动方式,特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM包含两个核心模型:SenseVoice和CosyVoice,分别负责语音理解和语音生成。原创 2024-07-12 17:14:51 · 2068 阅读 · 0 评论 -
蚂蚁百灵大模型:多模态能力让大模型像人一样理解感知
蚂蚁集团有着丰富的应用场景,百灵大模型的多模态能力,也已被应用在生活服务、搜索推荐、互动娱乐等场景。7月5日,在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布其自研百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。“从单一的文本语义理解,到多模态能力,是人工智能技术的关键迭代,而多模态技术催生的‘看听说写画’的应用场景,将让AI的表现更真实,更接近人类,从而也能更好地服务人类。原创 2024-07-09 17:28:19 · 3201 阅读 · 0 评论 -
MindsDB:一个利用企业数据构建 AI 的平台
MindsDB 的核心理念是使数据库不仅能够存储和检索数据,还能基于这些数据进行智能预测。它是一个透明的层,可以嵌入到任何SQL数据库(如MySQL, PostgreSQL等)之上,使得即使没有深度学习背景的开发人员也能利用其强大的预测功能。MindsDB可直接在数据库中进行建模,省去了数据处理、搭建机器学习模型等头疼的步骤,可以说是一步到位。原创 2024-07-08 16:26:07 · 1813 阅读 · 0 评论 -
Fish Speech: 开源文本转语音技术(TTS)的新里程碑
Fish Speech代表了开源TTS技术的一个重要里程碑。它不仅展示了深度学习在语音合成领域的巨大潜力,还为开发者和研究人员提供了一个强大的工具来推动语音技术的进一步发展。随着持续的改进和社区贡献,Fish Speech有望在未来塑造更多创新的语音应用,为用户带来更自然、更个性化的语音交互体验。原创 2024-07-05 11:43:19 · 3959 阅读 · 0 评论 -
全网最全的TTS模型汇总,电商人、自媒体人狂喜
以上就是小编给大家整理汇总的主流的TTS模型以及对应传送门,如果大家有云部署的需求,可以点击下方链接,查看GPU特惠活动:https://www.ucloud.cn/site/active/gpu.html?支持多种语言包括英语、中文,能够进行同语言生成和跨语言生成,能处理各种文本,叙述性文本、情感表达、描述性文本等,能根据不同的情感和语境生成相应的语音。原生支持英语、西班牙语、法语、中文、日语和韩语,具有灵活的语音风格控制和零样本跨语言语音克隆能力。可以控制音调、速度、性别、噪音水平、情绪特征等等。转载 2024-07-03 18:40:11 · 1349 阅读 · 0 评论 -
百度发布文心大模型4.0 Turbo;用户规模突破3亿人
王海峰表示,文心一言 4.0 Turbo 的上下文输入长度从 4.0 版的 2K tokens 升级到了 128K tokens,能够同时阅读 100 个文件或网址,AI 生图分辨率也从 512*512 提升至 1024*1024逻辑能力:文心大模型4.0 Turbo在逻辑推理方面表现出色,能够处理复杂的逻辑关系,为AI应用提供强大的逻辑支持。根据百度首席技术官王海峰的介绍,文心大模型4.0的逻辑能力是文心一言3.5的3倍,这种增强的推理能力使得文心大模型4.0 Turbo能够更好地理解和执行复杂的指令。原创 2024-07-01 13:55:36 · 1763 阅读 · 0 评论 -
MaxKB-无需代码,30分钟创建基于大语言模型的本地知识库问答系统
模型类型选择 大语言模型基础模型不能随意填写,只能使用ollma模型库中已有的模型类型:https://ollama.com/library,这里我们用的是qwen:1.8b。大模型和知识库创建成功后,就可以创建应用了。点击“应用->创建应用”,填入应用名称和应用描述,注意这里AI模型和关联知识库要选择前面两步创建的AI模型和知识库。除了上面截图中的环境要求外,建议docker的版本不低于20.10.8,否则可能无法启动Ollama服务。API域名填写前面ollama起服务的机器ip和端口(11434)原创 2024-06-18 19:07:36 · 2381 阅读 · 0 评论 -
Backseat Al:最强英雄联盟免费语音辅助已上线,你还有理由连跪吗
项目简介Backseat A是一个免费的、Riot批准的英雄联盟AI伴侣,在比基过程中,通过语音为玩家提供实时的游戏评论和建议,包括购买建议、对线策略等。它通过语音覆盖和游戏内评论提供现场教练、职业构建、统计数据、符文和对策。该AI旨在帮助玩家提高性能,同时不影响游戏性能。用户可以请求提示、接收赛前建议和赛后分析。通过实时评论,玩家可以更好地了解自己的表现,并根据建议进行调整,提升游戏技能。原创 2024-06-05 18:58:47 · 1728 阅读 · 0 评论 -
chatTTS打破人机对话的壁垒 短视频、小说配音营销场景大杀器
前面我们有提到过韵律特征:停顿和笑声,实际上模型有许许多多种韵律的调整,不仅限于文本里常见的附加[uv_break]和[laugh](实际上笑声也有三种,[laugh_0]、[laugh_1]、[laugh_2]),还有[music]、[pure]、[oral_0]、[speed_3]、[Stts]、[Ptts]等,标记处上下文都会受到程度不一的影响,这样可以很好地做到控制情绪的表达而不显突兀。生成效果上,不论是语调还是语气的变化,都比较细腻,非常接近真人的说话方式,不会停留在单一的音调上显得生硬。原创 2024-06-04 13:21:18 · 1155 阅读 · 0 评论 -
六一儿童节与AIGC:科技与童趣的奇妙融
AIGC技术为儿童的学习、游戏和绘画带来了无限的可能性。在这个六一儿童节,让我们鼓励孩子们利用这些工具和平台,发挥他们的想象力和创造力,享受学习的乐趣,探索未知的世界。通过这些AIGC技术驱动的网站,孩子们不仅能够获得知识和技能,还能够在创造和探索中找到快乐。祝所有孩子们六一儿童节快乐,愿他们在这个特别的日子里,通过AIGC技术体验到学习和创造的无限乐趣。原创 2024-05-31 17:02:51 · 824 阅读 · 0 评论 -
先有混子,后有宝子——混元大模型篇
腾讯今天发布了元宝大模型,又称宝子,一下子把腾讯的大模型又拉入了大家的视野,虽然并不在最早的大模型班车上,但是仍旧以卓越的性能和创新的应用场景,占据了一席之地。它不仅能够处理和学习多种类型的数据,包括文本、图像、声音等,还能够在不同的应用场景中自我调整,以适应不同的需求。混元大模型的应用场景丰富多样,从文档创作、会议场景、广告场景到营销场景,它都能提供相应的智能化服务,提高工作效率和质量。在内容创作方面,混元大模型支持文学创作、文本摘要、角色扮演等多种能力,能够生成流畅、规范、中立、客观的文本内容。原创 2024-05-30 21:40:58 · 646 阅读 · 0 评论 -
Khoj:开源个人AI助手能连接你的在线和本地文档充当你的第二大脑
Khoj是一个开源的、个人化的AI助手,旨在充当你的第二大脑。它能够帮助你回答任何问题,不论这些问题是在线上的还是在你自己的笔记中。如果你有很多保存的笔记、PDF文件、Markdown文档、GitHub仓库或Notion文件,Khoj可以从这些本地存储的资料中找到相关信息,回答你的问题。高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?如果你有一个问题需要从互联网获取最新的信息,Khoj可以进行在线搜索,找到相关答案。原创 2024-05-29 19:00:49 · 1572 阅读 · 0 评论 -
私教般的AI 教育助手,提供一对一教学辅导
它不仅会指出错误,还会引导学生找到解决方案,从而增强学生的自主学习能力。LearnLM-Tutor 能够根据学生的学习目标和进度,制定个性化的学习计划和策略,帮助学生有条不紊地进行学习,并根据学生的反馈和表现动态调整学习计划。例如,在编程学习过程中,学生可以与 LearnLM-Tutor 进行多次互动,逐步完成复杂的项目,而模型则会记住之前的对话,提供持续的指导。例如,在解决数学问题时,如果学生计算出错,LearnLM-Tutor 会指出具体的错误步骤,并通过提问引导学生找到正确的解题方法。原创 2024-05-23 18:56:29 · 972 阅读 · 0 评论 -
百川智能发布 Baichuan 4模型及首款AI智能助手“百小应”可联网搜索
Baichuan 4在各项能力上较之前版本有显著提升,通用能力提升超过10%,数学和代码能力分别提升14%和9%。"百小应“是一个整合了搜索技术和大模型能力的AI助手,能够理解和回答用户的问题,快速阅读文件、整理资料并辅助创作。百川智能发布新一代基座大模型 Baichuan 4,并推出首款 AI 助手「百小应」,具备搜索技术与多模态能力。此外官方还称,Baichuan4还具备多模态能力,在各大评测基准上表现优异,领先 GeminiPro、Claude3-sonnet 等多模态模型。原创 2024-05-22 18:37:56 · 1017 阅读 · 0 评论 -
谷歌发布Veo:文生超1分钟、1080P视频媲美Sora
Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解能够准确捕捉和执行各种电影制作术语和效果,如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致,而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制作更加普及无论是专业电影制作人、新兴创作者还是教育工作者,都能够利用这一工具来探索新的叙事和教学方式。原创 2024-05-20 18:50:18 · 1109 阅读 · 0 评论 -
Hello GPT-4o
这款模型支持多种输入(文本、音频、图像)和输出(文本、音频、图像)模式,其响应音频的速度极快,最快可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应速度相当。无论是处理英语文本还是代码,GPT-4o 的表现堪比 GPT-4 Turbo,而在处理非英语文本方面则有了显著提升,同时运行速度更快,API 成本也减少了 50%。根据传统的基准测试,GPT-4o 在文本处理、逻辑推理和编程能力方面与 GPT-4 Turbo 相当,而在多语言处理、音频和视觉技术方面则设立了新的最高标准。原创 2024-05-20 18:45:27 · 1585 阅读 · 1 评论 -
能自动化视频剪辑的开源工具来了 剪辑师、自媒体作者狂喜
高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?你可以根据识别结果选择文本片段或说话人进行视频裁剪。Funclip不仅支持中文,未来还将支持英文视频剪辑,是视频内容创作者和编辑者的理想选择。它能够自动识别视频中的中文语音并允许用户根据语音内容来裁剪视频。该工具使用了阿里巴巴语音识别模型FunASR Paraformer-Large确保了剪辑的精准性。Funclip 是阿里巴巴通义实验室开源的一款视频剪辑工具,专门用于精准、便捷的视频切片。原创 2024-05-15 19:01:01 · 2309 阅读 · 0 评论 -
实时“秒回”,像真人一样语音聊天,GPT-4o模型强到恐怖
从多模型到单一模型:与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。多模态输入与输出:GPT-4o是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。根据传统的基准测试,GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能方面也创下了新高。今天凌晨OpenAl发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。原创 2024-05-14 18:46:28 · 791 阅读 · 0 评论 -
Llama3中文聊天项目全能资源库
Llama3 中文聊天项目综合资源库,集合了与Lama3 模型相关的各种中文资料,包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。11.agent工具能力增强版ModelScope Chinese Agent版V1(中文,可根据要求帮你选择工具)https://modelscope.cn/models/swift/Llama3-Chinese-8B-nstruct-Agent-v1/summary基于EmoLLM心理数据微调的Llama3-8B-Instruct 模型。原创 2024-05-13 21:52:23 · 1107 阅读 · 0 评论 -
通义千问2.5中文能力地表最强
在OpenCompass基准测试中,通义千问2.5的表现与GPT-4 Turbo并驾齐驱,显示出其卓越的性能,阿里的1100亿参数开源模型Qwen1.5-110B在性能上超越了Meta公司的Llama-3-70B模型,进一步证明了其技术实力。通义千问2.5在AI问答领域取得了显著的进展,其在理解力、逻辑推理、指令执行和编程技能方面分别实现了9%、16%、19%和10%的性能提升。通义千问2.5具备自我学习和优化的能力,通过不断的交互学习,系统能够逐渐提升其回答的质量和准确性。原创 2024-05-10 18:25:33 · 1099 阅读 · 0 评论 -
DataLab-数据分析的Ai辅助工具
添加图片注释,不超过 140 字(可选)DataLab是一个由DataCamp提供的强大在线数据分析平台,它通过AI技术简化了数据处理流程,使得用户无需编程或数据分析的高级技能即可快速获取数据洞察。它支持多种数据源,包括CSV文件、Google Sheets、Snowflake和BigQuery等,同时提供企业级的安全保障,包括数据加密和单点登录等。DataLab的主要优点在于它的易用性、AI辅助分析、以及对数据安全性的重视。原创 2024-05-10 18:15:02 · 922 阅读 · 0 评论 -
英伟达推出视觉语言模型:VILA
1.情境学习与泛化能力:VILA通过预训练不仅提升了情境学习能力,即模型对新情境的适应性和学习能力,而且还优化了其泛化能力,使模型能在不同的视觉语言任务上展现出色的性能。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。3.融合层:融合层是VILA模型的核心,它负责整合来自视觉处理单元和语言处理单元的信息,生成统一的、多模态的表示,这对于执行跨模态任务至关重要4.优化策略:包括技术如弹性权重共享和梯度截断,这些策略帮助模型在训练过程中保持稳定,并优化跨模态信息的流动。原创 2024-05-06 18:42:55 · 1140 阅读 · 0 评论 -
ollama-python-Python快速部署Llama 3等大型语言模型最简单方法
ollama介绍在本地启动并运行大型语言模型。运行Llama 3、Phi 3、Mistral、Gemma和其他型号。原创 2024-04-30 17:35:48 · 5498 阅读 · 0 评论 -
变革 Perplexica:AI驱动的问答搜索引擎
如果您将Ollama安装在端口11434上,请使用http://host.docker.internal:11434。如果您希望使用Ollama的模型而不是OpenAI的模型,则需要填写此项。受Perplexity AI启发,它是一个开源选择,不仅可以搜索网络,还能理解您的问题。它使用先进的机器学习算法,如相似性搜索和嵌入式技术,以精细化结果,并提供附有来源的清晰答案。CHAT_MODEL:要使用的LLM的名称。注意:您可以在运行Perplexica后更改这些内容,并且还可以从设置页面中使用不同的模型。原创 2024-04-29 18:36:24 · 2826 阅读 · 0 评论 -
看完这个视频,发誓再也不当榜一大哥了
该视频使用的软件为DeepFacelive,一个可以在直播过程和视频通话时进行实时换脸的本地工具。DeepFaceLive 建立在 DeepFaceLab 的基础上,后者为当前领先的面部交换框架,能够产生接近电影质量的面部合成效果,提供高保真的视觉体验。原创 2024-04-26 22:50:43 · 744 阅读 · 0 评论
分享