AIGC
文章平均质量分 74
AI 研习所
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
OpenAI开发ChatGPT“反作弊神器”,99.9%超高命中率,还没上线
检查内容是否用了ChatGPT,准确率高达99.9%!OpenAI又左右互搏上了,给AI生成的文本打水印,高达99.9%准确率抓「AI枪手」作弊代写。其能够精准识别出论文或研究报告是否由ChatGPT撰写,甚至能追溯其使用的具体时间点。它能专门用来检测是否用ChatGPT水了论文/作业。早在2022年11月(ChatGPT发布同月)就已经提出想法了。但是!这么好用的东西,却被内部雪藏了2年,现在都还没对外公开。原创 2024-08-08 16:24:00 · 864 阅读 · 0 评论 -
智谱 AI 开源视频生成模型CogVideoX:单张 4090 显卡即可推理
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。而近几个月,国产的AI视频生成模型也是层出不穷,像是快手可灵、字节即梦、智谱清影、Vidu、PixVerse V2 等。就在近日,智谱AI秉承“以先进技术,服务全球开发者”的理念,宣布将与“清影”同源的视频生成模型——CogVideoX开源,以期让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。原创 2024-08-06 18:07:11 · 1939 阅读 · 0 评论 -
OpenAI突然上线两件“杀手锏”:势在维持大模型霸主地位
在最近的大模型战争中,OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计,但Claude3.5出现后,只是看网友们的反响,就能感觉到OpenAI订阅用户的流失:既然Claude3.5比GPT-4o好用,为什么我们不去订阅Claude呢?而这长达数月的批评声中,OpenAI似乎尽显颓势,除了GPT-4o mini这个小模型以外,似乎再也没有什么创新点。甚至就在前几日,GPT-4o还被开源的大模型打败了……上周,外媒The Information还预估OpenAI今年会面临50亿美元的资金缺口。原创 2024-08-01 15:50:34 · 600 阅读 · 0 评论 -
英伟达开始引领下一波浪潮:物理AI
通过基于 OpenUSD 的全新生成式 AI,以及在 Omniverse 平台构建的英伟达加速的开发框架,越来越多的行业现在能够开发出用于可视化工业设计和工程项目的应用,以及用于构建新一代物理 AI 和机器人的环境仿真的应用。训练人形机器人的基础模型需要大量的数据。这套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务,以及支持 AI 和仿真的远程操作工作流,该工作流允许开发者使用少量人类演示数据来训练机器人。原创 2024-07-31 15:09:44 · 503 阅读 · 0 评论 -
Meta强势发布开源大模型Llama 3.1:打响硅谷AI保卫战
在很长一段时间内,占据大模型评测榜单最前列的大多是一些闭源模型,直到Meta再次发布了最新的开源模型。就在近日,Meta和OpenAI打响了硅谷 AI 大模型保卫战。美国当地时间7月23日,Meta正式发布Llama 3.1。其包含8B、70B 和405B三个规模,最大上下文提升到了128k。Llama是目前开源领域中用户最多、性能最强的大型模型系列之一。原创 2024-07-29 16:21:47 · 620 阅读 · 0 评论 -
MaxKB-无需代码,30分钟创建基于大语言模型的本地知识库问答系统
模型类型选择 大语言模型基础模型不能随意填写,只能使用ollma模型库中已有的模型类型:https://ollama.com/library,这里我们用的是qwen:1.8b。大模型和知识库创建成功后,就可以创建应用了。点击“应用->创建应用”,填入应用名称和应用描述,注意这里AI模型和关联知识库要选择前面两步创建的AI模型和知识库。除了上面截图中的环境要求外,建议docker的版本不低于20.10.8,否则可能无法启动Ollama服务。API域名填写前面ollama起服务的机器ip和端口(11434)原创 2024-06-18 19:07:36 · 2381 阅读 · 0 评论 -
DataLab-数据分析的Ai辅助工具
添加图片注释,不超过 140 字(可选)DataLab是一个由DataCamp提供的强大在线数据分析平台,它通过AI技术简化了数据处理流程,使得用户无需编程或数据分析的高级技能即可快速获取数据洞察。它支持多种数据源,包括CSV文件、Google Sheets、Snowflake和BigQuery等,同时提供企业级的安全保障,包括数据加密和单点登录等。DataLab的主要优点在于它的易用性、AI辅助分析、以及对数据安全性的重视。原创 2024-05-10 18:15:02 · 922 阅读 · 0 评论 -
英伟达推出视觉语言模型:VILA
1.情境学习与泛化能力:VILA通过预训练不仅提升了情境学习能力,即模型对新情境的适应性和学习能力,而且还优化了其泛化能力,使模型能在不同的视觉语言任务上展现出色的性能。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。3.融合层:融合层是VILA模型的核心,它负责整合来自视觉处理单元和语言处理单元的信息,生成统一的、多模态的表示,这对于执行跨模态任务至关重要4.优化策略:包括技术如弹性权重共享和梯度截断,这些策略帮助模型在训练过程中保持稳定,并优化跨模态信息的流动。原创 2024-05-06 18:42:55 · 1140 阅读 · 0 评论 -
ollama-python-Python快速部署Llama 3等大型语言模型最简单方法
ollama介绍在本地启动并运行大型语言模型。运行Llama 3、Phi 3、Mistral、Gemma和其他型号。原创 2024-04-30 17:35:48 · 5498 阅读 · 0 评论 -
变革 Perplexica:AI驱动的问答搜索引擎
如果您将Ollama安装在端口11434上,请使用http://host.docker.internal:11434。如果您希望使用Ollama的模型而不是OpenAI的模型,则需要填写此项。受Perplexity AI启发,它是一个开源选择,不仅可以搜索网络,还能理解您的问题。它使用先进的机器学习算法,如相似性搜索和嵌入式技术,以精细化结果,并提供附有来源的清晰答案。CHAT_MODEL:要使用的LLM的名称。注意:您可以在运行Perplexica后更改这些内容,并且还可以从设置页面中使用不同的模型。原创 2024-04-29 18:36:24 · 2826 阅读 · 0 评论 -
看完这个视频,发誓再也不当榜一大哥了
该视频使用的软件为DeepFacelive,一个可以在直播过程和视频通话时进行实时换脸的本地工具。DeepFaceLive 建立在 DeepFaceLab 的基础上,后者为当前领先的面部交换框架,能够产生接近电影质量的面部合成效果,提供高保真的视觉体验。原创 2024-04-26 22:50:43 · 744 阅读 · 0 评论 -
只占 1.8G 内存,iPhone上就可以部署的模型,水平相当于GPT-3.5
微软还初步展示了在训练达4.8万亿 Token 的情况下,使用7B和14B参数的模型(名为 phi-3-small 和 phi-3-medium)所取得的成效,这两个模型的性能均显著优于 phi-3-mini(例如,在 MMLU 测试中分别达到75%和78%,在 MT-bench 测试中分别得分为8.7和8.9)。微软的phi-3-mini 模型太强了。模型下载:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct-onnx。原创 2024-04-24 18:51:45 · 535 阅读 · 0 评论 -
Llama3-8中文微调完成更好地帮助中文写作、编程和数学
让C表示鸡的数量,R表示兔的数量。所以,我们可以写出以下方程:C+R=10..(1)2C+4R=28..(2)现在,我们可以解出C和R的方程。与原始的 Meta-Llama-3-8B-Instruct 模型相比,此模型显著减少了“中文问题英文回答"和混合中英文回答的问题。因此,二班和三班的剩余梨数量可以通过从总数中减去一个班的数量来计算: 40-20=20个梨 现在,这些剩余的20个梨需要被平均分给二班和三班。要找到二班的份额,可以将剩余数量除以2,因为有两个班:20/2=10个梨,因此,二班有10个梨。原创 2024-04-23 19:16:37 · 1567 阅读 · 0 评论 -
AI检索增强生成引擎-RAGFlow-深度理解知识文档,提取真知灼见
RAGFlow是一款基于深度文档理解构建的开源RAG(Retrieval-Augmented Generation)引擎。RAGFlow个人可以为各种规模的企业及提供一套专业的RAG工作流程,结合针对用户群体的大语言模型(LLM)不同的复杂格式数据提供可靠的问答以及有理有据的引用。原创 2024-04-22 21:42:56 · 4003 阅读 · 1 评论 -
Llama 3 王者归来,第一个达到GPT-4级别的开源模型
训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对即将到来的多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。Llama 3,包括预训练和指令调优的8B和70B两种参数的模型。详细介绍:https://ai.meta.com/blog/meta-llama-3/模型下载:https://llama.meta.com/llama3/原创 2024-04-19 16:40:12 · 296 阅读 · 0 评论 -
波士顿动力发布全新人形机器人:Atlas
这款机器人的动作灵活,可以执行复杂的任务,如从地面自行站立等特别是在复杂和狭窄的空间中,提高了机器人在实际工作环境中的适用性。4、先进的软件和AI工具:配备了最新的AI和机器学习工具,如强化学习和计算机视觉,确保机器人能够适应并高效处理复杂的实际情况。2、增强的力量和灵活性:电动Atlas具有比以往任何一代更强大的力量和更广泛的运动范围,使其能够执行更复杂的操作和任务。3、实用的工业应用设计:设计目标是应用于真实世界的工业场景,如汽车制造和其他高要求的工业环境,支持复杂的工业操作。原创 2024-04-18 19:07:29 · 769 阅读 · 0 评论 -
The O-one:开源语言模型计算机的革命
最引人注目的是,The O-one是一个开源项目。它的出现,不仅为用户提供了一种全新的与计算机交流的方式,也为人工智能的发展和应用提供了新的可能性。在人工智能的浪潮中,The O-one作为一个创新的开源项目,正以其独特的功能和开放性吸引着全球开发者和科技爱好者的目光。这种持续学习和自我提升的能力,使得The O-one能够不断适应用户的需求,提供更加个性化和智能化的服务。它能够访问用户的邮件,进行邮件管理,甚至可以自动发送包含指定文件的邮件给特定联系人,减轻了用户在邮件沟通和文件分享方面的负担。原创 2024-04-17 19:06:00 · 1285 阅读 · 0 评论 -
强大的开源知识库问答系统MaxKB:支持快速嵌入到第三方业务系统
密码: MaxKB@123..你也可以通过 1Panel 应用商店 快速部署 MaxKB + Ollama + Llama 2,30 分钟内即可上线基于本地大模型的知识库问答系统,并嵌入到第三方业务系统中。你也可以在线体验:DataEase 小助手,它是基于 MaxKB 搭建的智能问答系统,已经嵌入到 DataEase 产品及在线文档中。MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。基于 LLM 大语言模型的知识库问答系统。开箱即用,支持快速嵌入到第三方业务系统,1Panel 官方出品。原创 2024-04-16 17:45:33 · 5330 阅读 · 0 评论 -
新晋网红AI工具Notion正在挑战GPT市值超100亿美元
他得出的结论是,这些都是无用的。增加更多自动化—加上 1 月推出的日历服务和可能由于 2 月的一次收购而来的电子邮件客户端—赵的野心变得更加明显:要将 Notion 建设成一个办公室的全能应用,将来可能挑战 Microsoft 和 Google 的统治,这两家公司共控制了价值 520 亿美元 (2022 年销售额) 的生产力套件市场的 99%,根据 Gartner 的数据。现在,这家盈利的创业公司的 CEO 看到了一个突破机会,他计划抓住 AI 的先机并大胆进攻,挑战微软和谷歌在职场的主导地位。原创 2024-04-15 18:35:06 · 1218 阅读 · 0 评论 -
重磅,新GPT-4-Turbo重新夺回大模型第一名
上下文长度128k 输出速度更快。GPT-4 Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。GPT-4 Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。GPT-4 Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。对于开发者来说,GPT-4 Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。原创 2024-04-12 16:00:50 · 1299 阅读 · 1 评论 -
谷歌大模型震撼发布,长音频理解能力脱颖而出
性能方面,开发者现在可以通过Gemini API访问到下一代文本嵌入模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409),该模型在MTEB基准测试中展现了卓越的检索性能,超越了所有具有可比维度的现有模型。这使得模型不仅能够理解视频的视觉内容,还能够分析视频中的音频元素,如对话和背景音乐,从而实现对视频内容的全面理解。综合理解视频图像和音频的能力,也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕和配音。原创 2024-04-11 19:12:50 · 576 阅读 · 0 评论 -
可在手机上运行的2B LLMs ,看看斯坦福大学的这个项目
在此基础上,通过引入特殊的功能性标记(functional tokens)和进行细致的微调,Octopus v2能够理解和执行软件应用中的函数调用,从而实现了在设备上运行时更高的准确性和更低的延迟。在预训练模型的基础上,通过对模型进行细致的微调来适应具体的函数调用任务这一步骤涉及将功能性标记及其对应的函数描述加入训练数据中,训练模型以理解和映射这些标记到相应的软件操作上。2.优化的延迟:相比传统的基于RAG的功能调用方法,Octopus v2大幅减少了延迟,提高了推理速度,适合实时应用。原创 2024-04-10 17:53:49 · 667 阅读 · 0 评论 -
Docker仅需3步搭建免费私有化的AI搜索引擎-FreeAskInternet
FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。用户可以提出问题,系统会进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。需要你的服务器有docker环境。我们可以看到,除了根据搜索内容配合AI总结返回内容外,还可以同时搜索图片,和视频,体验是非常不错的。原创 2024-04-09 18:27:30 · 1170 阅读 · 0 评论 -
OpenAI又更新,自定义AI模型上线
他们的团队修改了模型训练过程的每一个步骤,从领域特定的中间训练到定制后训练过程,并结合专家律师的反馈。今天,他们推出了新功能,以便开发者更好地控制API中的微调,并介绍更多与他们的AI专家团队和研究人员合作构建自定义模型的方法。成功使用完全定制训练模型的组织通常拥有大量专有数据,即数百万个示例或数十亿个令牌,他们希望使用这些数据来教模型新的知识或复杂、独特的行为,以满足高度具体的用例需求。自那时以来,他们与数十个客户会面,评估他们的定制模型需求,并将他们的计划进化到进一步最大化性能的程度。原创 2024-04-08 19:07:57 · 936 阅读 · 0 评论 -
微软Azure AI语音服务升级,9种AI语音真实到无法分辨
2.高度自然的语音输出:与早期的TTS模型相比,Zero-shotTTS模型生成的语音更加自然、流畅,并且能更好地捕捉到人类语音的细微差别,如语调、节奏和情感表达,使合成语音更加生动、接近真人。6.负责任的AI使用:鉴于合成语音技术可能被误用的风险,微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,确保技术的负责任部署和使用,保护个人和社会的权利。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。1.语音助手:创建个性化的语音助手体验。原创 2024-04-07 18:21:25 · 1024 阅读 · 0 评论 -
法律行业案例法模型出现,OPenAI公布与法律AI公司Harvey合作案例
Harvey的愿景是成为团队的支持成员,随着法律工作量的增长,助理们在复杂但常规的任务上花费了无数小时,我们拥有的机会不仅仅是法律,而是所有专业服务,即处理常规任务,以便专业人士可以将时间集中在客户互动上。结果显示,在97%的情况下,律师们更倾向于选择定制案例法模型的输出。定制模型的输出不仅仅是回答问题,而是提供了长篇、完整的解答,深入到问题的各个细节,并广泛涵盖相关的案例法,这对法律专业人士来说极具价值。,这是因为它提供了更长、更完整的答案,更深入地探讨了问题的细节,并涵盖了更多相关的案例法。原创 2024-04-03 18:28:44 · 698 阅读 · 0 评论 -
《吴恩达:AI 智能体工作流引领人工智能新趋势》
你只需要告诉 LLM,你现在是 CEO,你现在是软件工程师,然后它们就会开始协作,进行深入的对话。一方面人类会慢慢适应和智能体协作解决任务的新模式,很多任务不再像搜索引擎那样,你输入问题马上得到结果,而是异步的,你给 AI 提供一个任务,然后 AI 会去完成,完成后再通知你,类似于老板和员工的关系。规划是指让 AI 自己去规划解决问题的路径,去对复杂的任务进行拆解成简单的问题,比如说像以前很火的 AutoGPT,就是针对用户的任务,去规划,去调用外部工具完成任务。原创 2024-04-02 14:22:38 · 766 阅读 · 0 评论 -
苹果推出Swift开发教程 无需编码知识小白也能学
4、布局和样式: 为 iOS 应用构建两个引导屏幕,学习将视图放置在屏幕上所需的工具,并检查它们的大小。2、探索Xcode: 通过创建一个消息应用原型来了解 Xcode 和 SwiftUI,学习 Swift 语法以及如何使用源代码编辑器和预览。6、列表和文本字段: 创建一个动态界面,将一组项目存储在数组中,并使用列表显示它们。5、按钮和状态: 探索在应用中添加按钮,了解 Swift 闭包及其与按钮的关系。3、视图、结构和属性: 学习如何构建自定义视图以创建多日天气预报,并使用属性自定义每天的显示。原创 2024-04-01 18:20:55 · 756 阅读 · 0 评论 -
科普:从神经网络到 Hugging Face——神经网络和深度学习简史
活中没有什么可怕的东西,只有需要理解的东西。—— 居里夫人深度信念网络2006年,加拿大多伦多大学教授杰弗里·辛顿在研究如何训练多层神经网络,他已经在神经网络领域默默耕耘了三十多年,尽管在这个领域他算得上是泰斗级的人物,但由于神经网络在人工智能行业一直不被看好,所以他的研究成果一直不为业界所重视。辛顿出生于英国伦敦,他的家族出过不少知名学者,创立布尔代数的逻辑学家乔治·布尔便是他的曾曾祖父。他的祖父是位科普作家,父亲是昆虫学家。辛顿比周围的人都要聪明,但他的求学之路却颇为曲折,先是在大学攻读建筑学,转而又选原创 2024-03-29 16:27:12 · 1416 阅读 · 0 评论 -
Sora那么牛,他的模型的成本会有多少呢?
初期的Sora成本将非常高,肯定是不适合普通人来使用,所以目前OpenAI都是先找一些艺术和电影工作室或者公司合作。推理成本:一个Nvidia H100 GPU大约每小时能生成5分钟的视频。原创 2024-03-27 18:41:24 · 644 阅读 · 0 评论 -
影视作品一键转成动漫,自媒体作者用DomoAI赢麻了
前言众所周知,在自媒体爆火的那段时间,影视号是最容易起量的,借助高质量的影视,进行剪辑,解说,等二次创作,最终制作成高质量的作品,但是随着自媒体的发展,影视号越来越多,作品数量越来越多,制作成本也就日益增多。那么如何快速制作出来优质的有趣的影视自媒体作品,就成了一个难题。但是随着AI的发展,或许这个问题慢慢有了解决的思路。新玩法。原创 2024-03-26 19:19:53 · 691 阅读 · 0 评论 -
牛,The O-one ——通过语音交互控制电脑的开源语言模型
The O-one :一个创新的开源语言模型计算机 可以让你通过语音交互来和你的计算机进行对话,完成询问、指令下达等任务。4、学习新技能:通过用户指导,O1可以学会新的操作技能,如发送Slack消息等。最牛皮的是,O-one是开源的,他们公布了代码、CAD图纸、以及其他信息,你完全可以自己做一个。2、日程和活动管理:可以远程访问你的电脑设备查询天气、查看日程、添加活动至日历,并自动发送活动相关信息。3、邮件与文件处理:能够访问你的邮件,管理邮件,例如自动发送包含指定文件的邮件给特定联系人。原创 2024-03-22 18:42:50 · 1288 阅读 · 0 评论 -
国产之光?Kimichat大模型200万字超长上下文突破
在今年2月初,又获得了一笔10亿美元的A轮融资,融资方有大家熟知的阿里巴巴、红杉中国、小红书、美团等资本,现今估值超25亿美元。:支持对多种文件格式的解读,包括PDF、Word文档、Excel电子表格、PPT幻灯片、文本文件和图片等,最多支持50个文件,每个文件大小可达100MB。:Kimi Chat可以作为一个智能搜索引擎,帮助用户快速找到所需的信息,并提供相关文章的简要概括。:用户可以提供网页链接,Kimi Chat能够解析链接中的内容,并根据用户的问题提供详细的解读。原创 2024-03-22 18:33:28 · 1025 阅读 · 0 评论 -
效果炸裂 StreamMultiDiffusion:使用区域文本提示实时生成图像
操作示例:用户首先上传需要修复的旧照片,然后在破损的区域输入“修复”作为提示,在希望添加花朵的区域输入“五彩缤纷的花朵”。- 操作示例:设计师在海报模板的相应区域内输入文本提示:“夜空中的烟花”、“音乐符号”和“跳舞的人群”。引入了一种新的绘画范式,用户不仅可以绘制颜色,还可以绘制具有特定语义的内容,例如“蓝天”、“绿草”等,从而在创作过程中加入更丰富的意义层次。用户可以实时与系统交互,根据自定义的文本提示在特定区域生成图像,这个过程是动态且即时的,为用户提供了高度互动的体验。原创 2024-03-21 15:34:20 · 548 阅读 · 0 评论 -
吐血总结 2024 年排名前 7 位的生成式 AI 服务和供应商
训练生成式人工智能模型是一个具有挑战性的过程,需要专业技能,因为它涉及:·理解复杂的算法·优化神经网络架构·处理大型数据集·微调模型以生成高质量的输出,同时避免过度拟合或模式崩溃等陷阱。在这里,我们探讨了 7 种类型的生成式人工智能服务,这些服务有助于增强企业对生成式人工智能技术的使用,从而获得竞争优势。人工智能基础模型是任何生成式人工智能系统的支柱。亚马逊的 SageMaker 是一项完全托管的服务,为开发人员和数据科学家提供构建、训练和部署机器学习模型(包括生成式 AI 模型)的能力。原创 2024-03-20 23:14:05 · 1111 阅读 · 0 评论 -
Sora没体验资格?开源项目:Open-Sora,复现类Sora视频生成方案
项目简介Open-Sora项目是一项高效制作高质量视频的工作,明确所有权使用其模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅实现了先进的视频生成技术的普及,还提供了一个专业且用户界面的方案,简化了视频制作的复杂性。通过 Open-Sora,我们希望更多的开发者一起探索内容创作领域的创新、创造和遏制。项目展示。原创 2024-03-19 18:27:35 · 1461 阅读 · 0 评论 -
MindGraph:文字生成知识图
进一步的集成,包括add_multiple_conditional、conditional_entity_addition和conditional_relationship_addition,协同工作,以确保应用程序数据模型的完整性和增强。模式确保由AI生成的知识图不仅与应用程序的数据模型一致,而且丰富详细,捕捉输入文本中描述的实体之间的微妙关系。欢迎来到MindGraph,这是一个概念验证、开源的、以API为先的基于图形的项目,旨在通过自然语言的交互(输入和输出)来构建和定制CRM解决方案。原创 2024-03-18 22:06:50 · 1925 阅读 · 0 评论 -
GPT-4.5 Turbo:意外曝光且可能在六月份推出
这与OpenAI以往发布新模型后立即提供使用的做法不同,这可能是为了与近期推出的竞争对手模型,如Anthropic的Claude 3竞争,后者在多个领域的表现已经达到或超过了GPT-4。GPT-4.5 Turbo:更大的处理范围和最新信息预览文本中提到的“上下文窗口”指的是模型能够一次性处理的数据量,GPT-4.5 Turbo能处理高达256,000个Token,是之前GPT-4 Turbo 128K处理能力的两倍,大约相当于200,000个词。不过,这次泄露的信息中并没有提及到这方面的能力。原创 2024-03-14 00:01:51 · 824 阅读 · 0 评论 -
点一下即可任意调整静态图片:这个开源AI图片项目你需要了解一下
合成满足用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的控制。现有的方法通过手动注释的训练数据或先前的3D模型来获得生成对抗网络(GAN)的可控性,这通常缺乏灵活性、精确性和通用性。在这项工作中,我们研究了一种强大但较少探索的控制GAN的方法,即以用户交互的方式“拖动”图像的任何点以精确地到达目标点,如图所示。基于特征的运动监督,它驱动控制柄点向目标位置移动;新的点跟踪方法,它利用判别GAN特征来保持控制柄点的位置。原创 2024-03-12 18:50:55 · 964 阅读 · 0 评论 -
DUSt3R-从任意图像集合中重建3D场景的框架
DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视点位置的信息。官方项目主页:https://dust3r.europe.naverlabs.com/c。GitHub代码库:https://github.com/naver/dust3re。DUSt3R的官网入口。原创 2024-03-08 17:49:48 · 2457 阅读 · 0 评论
分享