- 博客(341)
- 收藏
- 关注
原创 NVIDIA G-Assist 项目:您的游戏和应用程序AI助手
它能够接收玩家的语音或文本输入,结合游戏窗口的截图,通过AI视觉模型进行处理,并利用大型语言模型(LLM)连接到游戏知识数据库,如Wiki,从而给出基于当前游戏情境的个性化答案。开发者可以自定义G-Assist的AI模型,使其更适合特定的游戏或应用,这些模型可以在云端运行,或者由配备RTX显卡的设备本地加速运行。在游戏《方舟:生存飞升》的演示中,G-Assist 能够推荐游戏初期的首选武器,并详细说明在哪里可以找到打造该武器所需的材料。此外,它还能根据玩家的游戏进程提供个性化建议,如技能点分配和装备选择。
2024-09-30 17:49:47
663
原创 runwayML启动500万美元基金资助AI生成影视
runwayML创意总监Jamie Umpherson强调,基金的目的是支持新兴的电影制作人,并为他们提供展示创意的平台。基金的评选过程将考虑到每个项目的特定需求,以确保资金的公平分配。该公司已设立一个基金,投入500万美元的现金以及额外的服务积分,支持多达100部使用其人工智能视频生成器的原创电影。为了确保项目的质量和创意,runwayML邀请了包括翠贝卡电影节联合创始人Jane Rosenthal和音乐家will.i.am在内的多位顾问参与评选过程,他们将为获奖者提供指导和可能的额外支持。
2024-09-27 15:00:49
292
原创 《阿凡达》导演卡梅隆加盟AI前沿:Stability AI开启电影制作新纪元
同时,好莱坞对AI技术的态度也颇为复杂。虽然电影公司与AI公司的合作日益增多,但也引发了行业变革的担忧,去年的好莱坞演员和编剧罢工就是一个例子。卡梅隆的加入似乎表明他对AI技术在电影制作中的潜力持乐观态度,尽管他曾对AI技术可能带来的一些负面影响表示担忧。卡梅隆的加入可能会为Stability AI带来新的视角和创新动力,推动整个电影行业对AI技术的接受和应用。尽管存在法律和伦理挑战,但AI在电影制作中的潜力仍然巨大,卡梅隆的参与可能会加速这一进程,为电影制作带来革命性的变化。
2024-09-25 16:18:48
267
原创 ai绘画工具Playground v3:重新定义AI图像生成
Playground AI是一款免费的在线AI绘画工具,它使用深度学习技术帮助用户将文字和图片转换成高质量的图像,非常适合创作艺术作品、社交媒体内容、演示文稿、海报、视频和logo等。它的应用场景非常广泛,包括创意设计、营销材料、广告、出版、建筑、产品设计、娱乐、教育、游戏开发、艺术创作、本地化内容创作、科学可视化和城市规划等。Playground v3版本在图像生成方面迈出了一大步,特别是在处理RGB颜色规范上,用户可以精确指定颜色值,这对于品牌一致性和设计匹配非常重要。
2024-09-23 17:30:08
457
原创 DrawingSpinUp:单个平面2D角色绘图的3D动画转换
【AI论文与新生技术】DrawingSpinUp:单个平面2D角色绘图的3D动画转换DrawingSpinUp能够将简单的人物画变成三维动画。这个系统特别适合处理业余爱好者绘制的人物画,因为这些画作通常比较简化,而且风格多样。DrawingSpinUp通过一系列步骤,包括去除画作中的轮廓线、重建三维模型、细化几何结构,以及恢复原始画作的风格,最终生成栩栩如生的三维动画。DrawingSpinUp技术原理。
2024-09-20 15:27:18
683
原创 可灵AI推出了1.5模型和“运动笔刷”功能
此外,1.0模型新增了“运动笔刷”功能,用户可以为图片元素指定运动轨迹,创作出长达5秒的动态视频。可灵AI在9月19日推出了1.5模型的重大升级,新1.5模型不仅提升了视频清晰度至1080p,还优化了画面美感、动作流畅度和文本响应度,而价格依然亲民。通过简单的文本描述,用户现在可以轻松生成如中国女孩在城市夜景中、小男孩吃饭等生动场景,新模型的动态质量提升,让动作更加自然流畅。
2024-09-19 16:47:46
309
原创 谷歌概述了帮助大家区分真假图像的计划
谷歌的信任与安全副总裁Laurie Richardson承认,建立和表明内容来源是一项复杂的挑战,需要根据不同产品或服务进行多方面的考虑。在未来几个月内,谷歌的搜索结果将更新“关于此图像”的功能,让用户了解图像是否使用了人工智能工具进行创建或编辑。谷歌参与的C2PA联盟是一个致力于解决人工智能生成图像问题的组织,旨在建立一种技术标准,提供有关图像来源的信息,并创建跨硬件和软件的数字轨迹。谷歌还帮助开发了最新的C2PA技术标准(版本2.1),并计划与即将推出的C2PA信任列表一起使用,以确认内容的来源。
2024-09-18 16:18:30
428
原创 这是一款很棒的AI录音机——Plaud NotePin,但是它注定失败
Plaud NotePin是一款设计精巧的AI录音设备,它以药丸形状的机身和169美元的售价吸引了市场的注意。它的录音和转录功能建立在成熟的技术之上,从微型麦克风到语音转文本的转录,再到自然语言处理和智能摘要,每一步都展现了其高效和准确。随着技术的不断发展,我们可以期待未来会有更加智能和便捷的解决方案出现,使得AI录音设备不仅仅是一个单一功能的工具,而是能够更好地融入并增强用户的日常生活。此外,NotePin的转录结果虽然准确,但在将信息整合到用户的数字生活中方面还有待提高。
2024-09-16 17:43:43
421
原创 Adobe Firefly 视频模型测试版即将推出,具备文本、图像或视频添加元素的多种功能
Firefly Video 模型具备多种功能,包括从文本生成视频、图像生成视频或视频添加元素的能力。此外,用户可以通过简单的描述来调整视频的颜色、情绪和设置,以达到特定的视觉效果。这一新功能的推出标志着 Adobe 正式进入AI视频生成领域,进一步巩固其在设计和技术领域的领导地位。另外,它还支持文本到视频和照片到视频的生成。Adobe Firefly Video 是一款由 Adobe 推出的新型人工智能视频生成模型,旨在为视频专业人士提供强大的创意工具,该模型计划在年底前推出。
2024-09-12 16:45:22
489
原创 Reflection 70B如何革新语言模型的准确性与推理能力
在开源人工智能模型领域,HyperWrite 公司开发的 Reflection 70B 模型以其创新的“反射”机制成为新的重量级竞争者。Reflection 70B 通过在提供最终响应之前评估和纠正自己的输出,显著提高了语言模型的推理能力和准确性。高性能基准测试:在多个基准测试中,如 MMLU、HumanEval 和 GSM8k,Reflection 70B 展现了卓越的性能,特别是在 GSM8k 基准测试中达到了 99.2% 的准确率。商业智能:在商业分析和决策支持系统中使用,提供准确的数据解读和预测。
2024-09-11 16:17:15
458
原创 揭秘苹果秋季发布会iPhone 16:苹果如何用AI重塑智能手机体验
iPhone 16的亮点之一是其先进的相机系统,它可以通过AI技术自动识别照片中的信息,如将宣传单上的活动信息添加到日历,或识别照片中的物体,比如犬种。苹果的视觉智能技术也在iPhone 16中得到了应用,它可以分析图像内容并执行相关任务,如识别图像中的文本和物体。这项技术与谷歌的Google Lens相似,但苹果的视觉智能更加深入地与iPhone的相机应用集成,提供更丰富的信息和更详细的响应。最后,Siri的新时代到来,它不仅外观焕然一新,还增加了更多对话语言功能,成为苹果智能技术的“面孔”。
2024-09-10 16:38:56
471
原创 埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型
然而,马斯克否认了这一说法,他在社交媒体平台上表示,尽管特斯拉确实与xAI的工程师进行了讨论,并且这些讨论有助于加速实现无监督的全自动驾驶技术,但特斯拉并不需要从xAI获得任何许可。他还指出,xAI的模型非常庞大,包含了大量人类知识,这些模型不可能在特斯拉的车辆推理计算机上运行,特斯拉也没有意图让它们运行。特斯拉的一些股东对马斯克创办xAI的决定表示不满,他们认为马斯克将人才和资源从特斯拉转移到了本质上是竞争对手的公司,这可能会损害特斯拉的利益。
2024-09-09 16:31:49
340
原创 Claude Enterprise:Anthropic 推出企业级AI助手挑战OpenAI
Anthropic公司推出了Claude Enterprise,这是一项新的企业级AI服务,旨在提供更安全、更可控的AI聊天机器人体验。通过这个服务,企业可以将内部知识库与Claude机器人连接,使其能够访问和分析公司数据,从而回答员工的查询、创建内容或作为定制化的AI助手。在安全性方面,企业可以设置权限,确保AI助手的使用符合公司的安全和合规要求。尽管价格未公开,但Claude Enterprise提供了比标准服务更高级的功能,包括更大的上下文处理能力和更高的请求速率限制。
2024-09-05 16:18:17
395
原创 Apple “Glowtime”活动:iPhone 16、Apple Intelligence亮相
其中,Pro型号将配备更小的边框,从而实现更大的显示屏尺寸,同时保持设备的整体尺寸不变。此次活动不仅是发布新iPhone的场合,也预示着苹果公司将推出一系列新的硬件产品,包括Apple Intelligence、Apple Watch Series 10/Ultra 3、AirPods 4以及可能的新款苹果电脑。AirPods 4系列预计将推出两个版本,一个更便宜的型号将取代现有的AirPods 2,而更高端的型号将提供主动降噪和“查找我的”功能,使其与AirPods Pro的功能更加接近。
2024-09-04 14:24:30
975
1
原创 Anthropic Claude Artifacts,克劳德聊天机器人如何简化代码编程
用户可以切换到代码视图,高亮要修改的文本,然后选择“改进”或“解释”。Claude Artifacts 是今年人工智能领域的突破,它通过更新增强了功能,使用户能轻松修改AI生成的代码。这就像图像编辑中的修复工具,用户可以直接在代码上做修改。用户生成的工件可以发布和共享,发布后的Artifact可以独立运行,甚至用于其他项目。以前,用户对代码有疑问时,需要回复整个对话或复制代码,这既麻烦又易出错。现在,用户可以直接在代码上操作,无论是创建网页还是处理复杂应用,都能直观展示代码的外观和功能。
2024-09-03 17:47:53
293
原创 “1X”家用人形机器人:NEO Beta人形机器人,专为家庭使用而设计
NEO Beta采用了OpenAI的技术支持,融合了GPT系列模型,显著提升了机器人的拟人化能力,使其能够完成许多传统机器人难以完成的动作。1X家用人形机器人公司成立于2014年,致力于机器人技术的研发,并在2024年推出了NEO Beta,标志着其从概念开发到将人形机器人带入消费家庭的重要里程碑。此外,1X家用人形机器人公司还与OpenAI合作,引入了语言和具身学习模型,使得机器人能够理解用户用自然语言提出的要求并执行任务。
2024-09-02 16:13:24
546
原创 AI编码公司Magic获得近5亿美元巨额投资
该公司通过创建模型来生成代码并自动执行软件开发任务,成功吸引了包括前谷歌CEO埃里克·施密特在内的一系列知名投资者的关注,并完成了一轮3.2亿美元的融资。这轮融资由Schmidt、Alphabet旗下的CapitalG、Atlassian、Elad Gil、Jane Street、Nat Friedman、Daniel Gross以及红杉资本等公司共同出资,使得Magic的融资总额达到了近5亿美元。此外,Magic还宣布与谷歌云合作,计划在该平台上构建两台超级计算机,以支持其AI模型的训练和服务。
2024-08-30 16:06:46
329
原创 OpenAI 将于今年秋天推出新的先进“Strawberry草莓”生成式人工智能产品
除了辅助其他生成式人工智能模型的训练,“草莓”还被设计来处理一系列高端任务,比如制定市场策略、解决《纽约时报》的“Connections”等填字游戏,以及对复杂主题进行深入研究。据悉,这款名为“草莓”的AI程序将带来一系列创新突破,它将大幅提升人工智能处理复杂数学题、执行战略任务以及深入探索各种主题的能力,而这一切无需依赖于特定的训练数据。凭借其卓越的问题解决能力和增强的推理引擎,“草莓”有望在多个领域释放出巨大的潜力,将生成式人工智能更紧密地融入我们的日常生活。
2024-08-29 17:01:03
358
原创 沃尔玛停止在 3 个城市使用无人机送货,将重点转移到达拉斯
未来,DroneUp将专注于开发一个可扩展的"最后一英里"交付平台,该平台的核心是目的地盒(DBX),一种安全且气候控制的储物柜,用于包裹的取件和投件。DroneUp还推出了一款新型无人机,具备每小时60英里的速度和30英里的飞行距离,能在防风雨的机身中运载货物。然而,经过一段时间的试点运营后,沃尔玛和DroneUp决定结束在凤凰城、盐湖城和坦帕三个市场的无人机送货服务。沃尔玛表示,这项服务已经为该地区75%的人口提供了便利,自启动以来,已经完成了超过50,000次无人机送货。
2024-08-28 16:14:46
774
原创 DEEP Robotics X30人工智能机器人“紧急避险”实验演示,识别危险后自动导航避开以防止碰撞
该公司专注于四足机器人在工业应用中的开发,其产品包括绝影系列机器人,如绝影、绝影X20、绝影Lite2和绝影Mini。在2023年10月30日的GITEX Global 2023展会上,DEEP Robotics展示了X30机器人,并强调了其在电力检查、火灾检测和紧急响应等领域的应用潜力。视频中的X30机器人采用了DEEP Robotics独特的融合感知技术,使其能够快速穿越障碍物,并在开放楼梯的工业环境中导航。此外,X30还具备强大的适应性和灵活性,能够应对各种随机地形,显著提高人机协作的效率。
2024-08-27 17:24:17
454
原创 马思克聊天机器人Grok-2图像生成审查过滤机制引发巨大的争议
Grok-2 允许用户生成图像,但缺乏有效的内容审查和过滤机制,导致用户能够创造出深度伪造图像,包括对政治人物和公众人物的不当描绘。专家们指出,Grok-2 在内容审查方面的缺失可能使得这些生成的图像被归类为错误信息、性骚扰或版权侵犯,这将对 xAI 和其平台 X(前称 Twitter)造成巨大的法律风险。同时,与 Grok-2 形成对比的是竞争对手的工具,比如谷歌的 Gemini,由于过度过滤,甚至将历史上的白人形象描绘成有色人种,造成了另一种形式的争议。而如果放任不管,则会引发争议和愤怒。
2024-08-23 16:46:22
664
原创 D-ID 推出人工智能视频翻译工具,拥有语音克隆和口型同步等功能
D-ID的这项技术源于其早期的工作,当时用户能够将旧家庭照片制作成能够说话的动画,这一创新曾引起病毒式的传播趋势。目前,这项AI视频翻译技术对D-ID的订阅者是免费的,订阅服务从每年56美元起,提供不同层次的AI功能积分。D-ID公司以其创新的人工智能技术在视频创作领域取得了突破性进展。随着技术的进步,D-ID的AI视频翻译技术正在改变视频内容的创作和分发方式。D-ID的创新不仅展示了人工智能在视频创作中的潜力,也为全球创作者提供了一个更广阔的平台,使他们能够以更低的成本和更高的效率触及更广泛的受众。
2024-08-22 17:31:38
337
原创 AMD推出全新AI工具:Amuse 2.0,可通过Stable Diffusion XL生成图像
Amuse 2.0基于Stable Diffusion XL技术,由Stability AI开发,能够快速生成用户所需的图像。AMD最近推出了Amuse 2.0,一款创新的AI图像生成工具,旨在简化PC用户创建高质量自定义图像的过程。Amuse 2.0的核心优势在于其用户友好的界面和根据文本描述或现有图像生成新图像的能力。用户还可以从草图开始创建图像,或应用个性化的AI滤镜来改变图像的外观。Amuse 2.0是图像创作者探索创意的有力工具,随着技术的不断进步,其潜力巨大。
2024-08-21 17:30:40
351
原创 Luma Dream Machine 更新推出1.5版本
此外,该工具提供了免费 API 使用,迅速获得市场的关注和用户的好评。高度可扩展性和效率:Dream Machine 是一个基于 Transformer 模型的高度可扩展且高效的工具,专门针对视频进行训练,使其能够生成物理上精确、连贯并且具有故事性的镜头。Luma Dream Machine 是由 Luma AI 开发的一款先进的 AI 视频生成模型,旨在通过文本和图#像快速生成高质量、逼真的视频内容。物理准确性和一致性:该模型能够理解人物、动物与物理世界的互动,确保视频角色的一致性和物理准确性。
2024-08-20 17:14:25
525
原创 AI革新体育:IBM携手USTA升级美国公开赛观赛体验
IBM和USTA基金会还通过IBM SkillsBuild项目,为青少年提供免费职业培训,支持教育参与,符合IBM到2030年培训3000万人的目标。IBM和美国网球协会(USTA)合作,在2024年美国网球公开赛中引入了创新的AI技术,为观众和选手带来全新的体验。8月19日赛事开幕,IBM的watsonx平台将推出多项新功能,增强三周赛事的互动性。这些报告涵盖球员表现、统计和亮点,且经过编辑审核,确保内容的准确性和深度。通过AI技术,USTA能够全面报道所有254场正赛单打比赛,这是前所未有的。
2024-08-19 16:28:03
268
原创 AI搜索引擎新贵Perplexity:用户量和收入激增,月答2.5亿问题
Perplexity,一个新兴的AI搜索引擎,正在市场上迅速崛起,单月处理了2.5亿个问题,是去年总量的一半,显示出其热度和增长速度。尽管面对谷歌和OpenAI等巨头的竞争,Perplexity的用户量和收入却逆势增长,预计收入增长了7倍。为了进一步增加收入,Perplexity计划引入广告,并与新闻出版商分享收入,同时提供API访问权限,创建定制的“答案引擎”。Perplexity的核心竞争力在于其专注和速度,旨在改变人们在互联网上寻找答案的方式,而不是简单地成为另一个谷歌。
2024-08-16 16:22:53
442
原创 流媒体音乐新篇章:Melodio AI平台,随时随地创造你的音乐
Melodio支持多种风格,如中国风、Rap、DJ等,是首个稳定生成特定风格歌曲的AI音乐平台。昆仑万维推出全球首个AI音乐平台Melodio,以及商用创作平台Mureka。只需输入场景或心情,Melodio即刻生成个性化音乐。用户可随时调整音乐风格,实时查看歌词,还能保存和分享喜爱片段。两款产品均采用昆仑万维自研的Skymusic 2.0大模型,现已登陆苹果App Store。
2024-08-15 16:46:53
288
原创 世界上最强大的人工智能软件工程师——Genie
根据 SWE-Bench 的数据,Genie 是世界上最强大的软件工程人工智能,他们的得分为 30.07%,这是评估人工智能模型中软件工程技能的行业标准。作为最新版本的一部分,他们观察到 Genie 增强的推理和规划能力可以很好地推广到软件工程领域之外,并致力于严格而仔细的红队工作。他们的专有技术生成的数据代表完美的信息谱系、增量知识发现和逐步决策。根据 SWE-Bench 的数据,Genie 是世界上最强大的软件工程模型,是 Cosine 在人工智能驱动开发方面的最新创新。
2024-08-14 16:55:27
457
原创 导演你的想象:Clapper AI故事画面可视化视频生成工具
用户可以通过使用高级抽象概念,如角色、地点、天气、时间段和风格等,来迭代和完善自己的故事,而AI助手在此过程中提供帮助,使得故事构建更加高效和精准。与传统视频剪辑软件不同,Clapper集成了AI技术,能够一键生成图像、视频、语音和音乐等视频制作所需的素材,极大地简化了视频制作的流程。Clapper的应用场景广泛,适用于个人创作、教育领域、商业宣传、社交媒体和电影电视制作。无论是视频博客、教学视频、产品介绍、广告营销,还是电影和电视行业的创意开发和场景规划,Clapper都能提供强大的支持。
2024-08-13 16:37:16
761
原创 Upscayl:免费开源的AI图片无损放大软件工具
在放大能力上,Upscayl支持将图片放大2到4倍,通过Double Upscayl技术,理论上甚至能够达到16倍的放大效果。Upscayl的核心功能在于其智能算法,它能够推测图像细节并实现无损放大,修复图像质量,并提升分辨率。这款软件不仅支持Windows、MacOS和Linux等多种操作系统,还允许用户在本地运行AI模型,无需将图片上传至云端,从而确保了用户隐私的安全。用户只需访问官网,下载对应操作系统的安装包,安装后打开软件,选择要放大的图片,选择放大模型和导出文件夹,然后点击放大按钮即可开始操作。
2024-08-12 17:34:07
682
原创 OpenAI 安全评估表示其最新的 GPT-4o 模型风险为“中等”
这些发现引发了对人工智能模型潜在风险的讨论,特别是在模型可能被滥用或产生不当内容的情况下。OpenAI的透明度和对模型行为的自我评估受到了一些批评,但公司表示正在积极采取措施以提高模型的安全性和可靠性。OpenAI最近对其最新的人工智能模型GPT-4o进行了安全评估,并发现该模型存在一些意外的行为。在一份详细的安全评估报告中,该公司透露,GPT-4o在某些情况下可能会模仿用户的声音,尤其是在高背景噪声环境中。尽管模型通常会拒绝生成这类声音效果的请求,但OpenAI承认在特定情况下,这些请求仍然可以通过。
2024-08-09 11:33:35
349
原创 Comfyui的GLSL节点现在有一个好用的代码编辑器和小插件
具体来说,comfyui_glslnodes通过引入一系列节点来支持GLSL着色器的工作流程,这些节点包括glslEditor、glslViewer以及基本的数据类型如int、float、vec2、vec3和vec4等。Comfyui的GLSL节点现在有一个好用的代码编辑器 + 小部件,还支持纹理(图像)、texturesArrays(视频)、掩模(它为您计算 SDF)和光流。Comfyui的GLSL节点是一个用于在ComfyUI环境中编写和应用GLSL着色器的工具。
2024-08-08 11:56:46
327
原创 选择 websim网站:一个用自然语言快速构建生成功能齐全的网站
Websim AI 的主要优势之一是其用户友好的界面,让用户可以专注于创意和内容,而无需深入了解复杂的编程知识。通过简单的文本提示,Websim AI 可以生成功能齐全的网页,并且可以在几秒钟内实现用户的创意。先进的语言模型:利用Claude Sonnet 3.5和GPT-4o等先进的语言模型,提高生成过程的效率和准确性。快速实现创意:通过简单的文本提示,Websim AI 可以迅速将用户的想法转化为功能齐全的网页。生成二维码:创建二维码生成器,用户可以快速生成所需的二维码。
2024-08-05 15:37:34
472
原创 Stability AI推出Stable Fast 3D:从单个图像快速生成 3D 模型资产
Stable Fast 3D的应用场景多样,包括预生产期间的快速原型制作、游戏中的静态资源、电子商务的3D模型以及AR/VR模型的快速创建。它的工作原理是用户上传对象的单张图像,系统迅速生成包含UV展开网格、材料参数和降低光照烘焙的反照率颜色的完整3D资产,可选的重新网格化过程仅增加100-200毫秒的处理时间。Stable Fast 3D是Stability AI公司推出的一款革命性的3D资产生成技术,它能够在0.5秒内将单张输入图像转化为详尽的3D模型,为3D重建领域带来了速度和质量上的显著提升。
2024-08-02 15:50:17
679
原创 MidjourneyV6.1版本现已隆重上线
MidjourneyV6.1版本现已隆重上线。这个版本代表了Midjourney在图像质量、连贯性以及文本准确性方面的重大飞跃,为用户带来了前所未有的视觉体验。V6.1不仅更智能、更快、更清晰,还更加美观,承诺将用户的创意构想转化为令人惊叹的图像。V6.1版本引入了一系列新功能,包括更连贯的图像生成,无论是人体的手臂、腿、手,还是植物、动物等,都表现得更加自然和谐。图像质量得到了显著提升,减少了像素伪影,增强了纹理和皮肤的细节,甚至在8位复古风格上也有所精进。
2024-08-01 15:58:43
524
原创 Vidu视频生成工具全球上线,注册即刻体验
它不仅支持现实风格的视频生成,还新增了动漫风格的选项,保持了动漫风格的一致性,同时提高了画面稳定性,避免了画面跳变和风格突变的问题。Vidu的核心技术U-ViT架构,是全球首个将Diffusion与Transformer融合的架构,完全由团队自主研发,标志着中国在全球AI视频技术领域的领先地位。这一功能极大地简化了视频制作流程,节省了设计和调整角色形象的时间,同时为用户提供了更大的创作自由度。Vidu能够提供4秒和8秒时长的视频生成选项,支持高达1080P的分辨率,且仅需30秒即可生成一段4秒的视频片段。
2024-07-31 15:48:39
783
原创 Meta SAM 2:用于视频和图像的下一代 Segment Anything 模型
SAM 2通过其统一的模型,能够分割任何视频或图像中的任何对象,即便是以前从未见过的对象和视觉域,也无需进行自定义调整。Meta公司最近推出了一项革命性的技术——Meta Segment Anything Model 2(简称SAM 2),这是其前身SAM的升级版,专为视频和图像中的对象分割而设计。SAM 2的应用前景广阔。总的来说,Meta SAM 2和SA-V的推出,不仅展示了Meta在人工智能领域的创新能力,也为全球AI社区提供了一个强大的工具和资源,推动了计算机视觉技术的发展和应用。
2024-07-30 14:56:34
411
原创 谷歌团队新技术Alchemist:使用扩散模型对材料属性进行参数控制
通过输入标量值和指令,Alchemist能够改变图像中的低级材料属性,同时保留图像中的高级语义和其他信息。在DTU MVS的精选场景中,研究团队对NeRF进行了材质编辑,通过调整训练图像的反照率或镜面反射,训练出了一个普通的NeRF配置。为了克服缺乏具有受控材料属性的数据集的挑战,研究团队生成了一个以对象为中心的合成数据集。经过微调的模型能够对真实世界图像中的材料属性进行编辑,实现仅具有所需材料属性的平滑编辑内容,同时保持图像中的其他属性不变。
2024-07-29 16:19:34
272
原创 Adobe 发布Firefly Vector AI 模型,能够理解用户的文本提示生成矢量图
这一过程不仅快速,而且生成的矢量图形是可编辑和可缩放的,确保了与现有艺术作品的风格和颜色一致性。Firefly Vector AI模型不仅为Illustrator和Photoshop带来了新的工具和功能,还通过其生成式AI技术,极大地提高了创意工作者的工作效率。此外,Firefly Vector AI模型还改进了Illustrator中的“文本到图案”功能,使得用户能够创建可扩展的自定义矢量图案,如壁纸等。同时,样式参考功能能够根据现有样式生成匹配的输出,进一步提高了设计的一致性和效率。
2024-07-26 15:37:06
489
原创 AI音乐生成工具Udio更新Udio V1.5模型
此外,1.5版的音频效果更加接近于扬声器的自然声音,仿佛混音是在麦克风旁边完成的,提供了更加沉浸式的听觉体验。在音频质量方面,1.5版现在能够生成48kHz的立体声轨道,这不仅提升了音乐的清晰度和连贯性,还增强了乐器的分离度和瞬态表现。用户反馈显示,新版本中的人声表现更加温暖和真实,与1.0版本相比,音质有了明显的提升。最后,1.5版还增强了对全球语言的支持,包括普通话在内的多种新语言的加入,虽然具体增加了多少种语言尚未明确说明,但这无疑将使Udio AI音乐创作器能够服务于更广泛的用户群体。
2024-07-25 16:30:20
395
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人