自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

haleycat的博客

关注机器学习,人工智能

  • 博客(896)
  • 资源 (9)
  • 收藏
  • 关注

原创 Gemini 2.0刚发布多模态模式马上开源;自动生成模仿X上用户的AI对话机器人;独立艺术生成设备PaperPiAI

该项目是使用Pipecat Web SDK和Gemini Multimodal Live API构建的聊天应用程序入门套件,支持多种聊天模式。Gemini Multimodal Live API结合Pipecat Web SDK,提供了一种构建实时聊天应用的完整解决方案。此工具包支持多种聊天模式,包括临时的WebSocket语音模式、文本和图像的HTTP聊天模式,以及基于WebRTC的语音、摄像头和屏幕共享聊天模式。此外,它还支持将对话记录存储在SQLite数据库中,以便持久化使用。

2024-12-13 09:23:25 1085

原创 多语言高质量预训练数据集FineWeb2;谷歌推出量子计算免费课程;meta发布连续与离散流匹配算法

它允许用户上传和分析本地的PDF文件,提取精确的信息,并基于文档中的高保真引用使用生成式AI生成答案,同时还可以查询外部知识数据库,如OpenAlex的2.5亿多文档。该应用程序的核心是pleias-Pico(350M),这是Pleias自有AI基础模型系列的成员,专为RAG任务优化,符合欧洲AI法案,并且完全开源(包括权重、语料和代码)。该库的详细信息和代码示例可以在其。该应用程序特别设计为在没有GPU的情况下本地高效运行,适用于普通的笔记本电脑或台式机,使用的是性能卓越、轻量化的模型。

2024-12-11 09:24:01 926

原创 OpenAI Canvas功能正式向所有ChatGPT用户开放

OpenAI于12月11日宣布,Canvas功能现已向所有ChatGPT用户开放,旨在提升写作和编码项目的效率。用户可以在网页版以及Windows 10和11版本中使用该功能,未来还将推出Mac和移动平台版本。Canvas允许用户处理编辑和修改工作,提供丰富快捷键、Python代码执行及错误修复建议,同时支持定制GPT和评论功能,增强人机协作。首席执行官山姆·阿尔特曼表示,Canvas将使作品更具风格。

2024-12-11 08:50:29 1143

原创 视频代理框架Director动处理复杂的视频任务;使用 PyAutoGUI 库高效精确地执行用户系统操作;Day 3 OpenAI 布了 Sora

该课程涵盖了推荐系统的四个阶段架构、双塔模型的实现与训练、可扩展的机器学习系统设计原则、MLOps最佳实践、实时模型部署和基于大语言模型(LLM)的推荐增强等内容。是一个用于构建视频代理的框架,旨在处理复杂的视频任务,如搜索、编辑、编译和生成等,并能够即时流式传输结果。通过简单的命令,可以实现复杂的视频操作,大幅提升视频处理的效率和创意表达能力。:该服务通过 Plus 订阅提供基本功能,用户还可以选择 Pro 订阅,享受高达 10 倍的使用量和更高的分辨率,满足专业用户的需求。

2024-12-10 09:19:48 668

原创 Meta发布Llama 3.3 AI大模型

Meta于12月6日发布了其最新的AI大模型Llama 3.3,该模型拥有700亿参数,但在性能上可媲美4050亿参数的Llama 3.1,具有更高的效率和更低的成本。Llama 3.3优化了多语言支持,支持8种语言,采用自回归模型架构,结合监督式微调和基于人类反馈的强化学习。模型具备128K的上下文长度和多个工具集成支持,并加强了安全防护措施,降低滥用风险。

2024-12-09 08:45:44 1291

原创 OpenAI发布完整版o1模型及ChatGPT Pro订阅

OpenAI于12月6日启动为期12天的新品发布周期,首次推出完整版o1模型,并推出月费200美元的ChatGPT Pro订阅。该服务允许无限使用o1、GPT-4o及Advanced Voice等功能,同时提供独家o1 Pro版本,旨在为复杂问题提供更优解答。常规的20美元Plus套餐仍然可用,包含新功能抢先体验和更强大的模型访问。

2024-12-06 09:12:51 1205

原创 亚马逊推出的新一代基础模型Nova;AIMedia帮助用户自动抓取热点新闻、生成新闻内容,并自动发布到各大平台

TinyFusion是一种可学习的深度剪枝方法,旨在优化扩散变换器(Diffusion Transformers)的结构,以提高模型的效率和性能。该方法通过结合多种优化策略,确保模型在剪枝后能够保留有效的信息,并在后续的调优过程中表现出较好的效果。此外,对于无图的纯文本内容,AIMedia 还可以使用 AI 生成相应的图片,以提高内容的原创性和阅读体验。由于内存使用受到分辨率和帧数的影响,即使是在24GB内存上也不能处理很高分辨率的视频,但好消息是即使在低分辨率下,模型也可以生成功能性的视频。

2024-12-05 09:44:38 817

原创 OpenAI CEO宣布12场直播发布新产品

OpenAI CEO阿尔特曼宣布将于每个工作日进行一场直播,共计12场,内容将涉及新产品发布和演示。其中,新款文本转视频工具Sora备受期待,有望在2024年底前发布。Sora曾在测试阶段引发争议,部分艺术家因抗议“无偿劳动”泄露该模型。OpenAI在数据来源方面饱受批评,尚未确认Sora是否使用公共YouTube视频进行训练。目前,谷歌也推出了文本转视频模型Veo,正进行私人预览。

2024-12-05 09:14:46 699

原创 腾讯混元大模型上线,开源文生视频能力

腾讯于12月3日宣布混元大模型正式上线,并开源其文生视频生成能力,支持中英文输入,参数量达130亿。该模型可生成超写实的高质量视频,拥有良好的光影反射效果。腾讯采用DiT架构,提升语义理解,支持更细致的描绘。目前,开发者可通过“腾讯元宝 App”申请试用,开源内容包含模型权重和推理代码,便于开发生态插件。

2024-12-04 08:45:00 485

原创 ChatGPT两周年:变革与挑战并存;马斯克指控OpenAI及微软反竞争行为

ChatGPT自推出以来,已吸引2.5亿活跃用户,并助推全球科技公司总市值增长8万亿美元。OpenAI在两周年之际,正寻求新一轮融资,以支持每年高达50亿美元的支出。与此同时,马斯克对OpenAI提起诉讼,指控其不当竞争和转变盈利性质,要求法院颁发禁令。OpenAI计划在2025年推出新智能体,目标是10亿用户,但面临激烈市场竞争和成本上升等挑战。

2024-12-02 08:45:38 951

原创 阿里发布QwQ-32B-Preview模型,推理能力强劲;月之暗面Kimi与清华大学发布Mooncake开源项目

摘要:AI模型企业Anthropic近日为其Claude聊天机器人推出“自定义样式”功能,用户可以根据具体场景调整文本生成风格。Claude现在提供“正式”、“简洁”和“解释性说明”三种预设样式,并允许用户上传自己的写作示例以进一步定制。GitLab极狐的AI技术产品主管表示,这一功能使得团队在多种场合下都能有效使用Claude,提升了文档撰写和项目管理的效率。

2024-11-29 08:51:06 962

原创 是宣传还是事故OpenAI Sora泄露API;完全开放语言模型OLMo 2;anthropic开放MCP旨在连接万物

随着人工智能助手的广泛应用,行业对模型能力的投资不断增加,尽管取得了快速的推理和质量进步,但最复杂的模型仍然受限于与数据的隔离。OLMo 2 的开发聚焦于提高模型训练的稳定性和效率,通过引入阶段性训练、改进的后训练方法,以及明确的评价框架,来推动模型性能的提升。此外,OLMo 2 的预训练过程经历了两个阶段,第一阶段使用广泛的多样化数据集,第二阶段结合高质量领域特定的数据集,以确保模型在各种任务上的广泛适应性。OLMo 2是迄今为止最优秀的完全开放语言模型,推动了开放语言模型的发展。

2024-11-28 09:33:59 692

原创 微软准备开源LazyGraphRAG大大提升信息检索与生成的效果;浏览和管理 Cursor 编辑器的 AI 聊天记录,支持搜索和导出

它主要用于简化和增强模型的生成能力,通过最小的设计实现了广泛的控制功能,支持基于主体和空间的控制(例如边缘引导和图像填充生成)。是一个智能且低延迟的语音到语音对话模型。地址:https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/LazyGraphRAG代表了一种新的思路,通过有效地利用图结构和灵活的数据加载机制,提升了信息检索与生成的效果。

2024-11-27 09:12:44 1463

原创 Anthropic发布AI模型统一协议

Claude AI开发商Anthropic于11月25日推出开源协议Model Context Protocol,旨在为各类AI工具与模型数据库提供标准化对接接口。该协议允许AI工具通过单一协议访问多种数据源,提升模型响应速度与生成质量。Anthropic指出,现有数据隔离问题限制了模型性能,每新增数据源往往需定制集成方案。该协议包括规范、SDK及开源代码库,已被Block、Apollo等公司应用,方便开发者快速对接。

2024-11-27 08:46:34 698

原创 模仿OpenAI o1使用思维链开源项目Marco-o1;本地AI邮件自动化系统;蚂蚁集团开源一款先进的人类动画生成模型

LAMBDA(Local Auto MailBox Draft Assistant)是一个本地化的 AI 邮件自动化系统,旨在从用户的邮件风格中学习,并为 Gmail 收件箱中的每一封未读邮件生成草稿回复。EchoMimicV2 是由蚂蚁集团的终端技术部门开发的一款先进的人类动画生成模型,旨在实现生动、简化的半身人类动画。该模型受到 OpenAI 的 o1 模型的启发,旨在突破标准化知识领域的限制,探索其在缺乏明确标准和难以量化奖励的更广泛领域中的通用性。由十个自主AI代理共同创作的小说。

2024-11-25 09:44:06 1120

原创 TikTok推出免费生成式AI视频制作平台

TikTok近日发布了“Symphony Creative Studio”,一款面向广告主和内容创作者的免费生成式AI视频制作平台。该平台允许用户上传品牌素材并自动生成短视频,具备视频编辑、字幕添加、翻译及语音合成等功能。支持30多种语言的翻译,并可调节发音与人物口型以实现同步。此外,平台未来将增加微调短视频及品牌专用广告台词等功能,以提高广告主的创作效率。

2024-11-25 08:55:05 977

原创 谷歌Gemini推出个性化记忆功能;DeepSeek推出全新推理模型R1-Lite

谷歌近日为Gemini Advanced用户推出“记忆”功能,使AI能够记住用户的生活细节和个人偏好。这一功能类似于ChatGPT,能够根据用户的喜好提供个性化服务。例如,若用户曾提到喜欢某种菜系,Gemini会在推荐餐馆时据此调整建议。目前,该功能仅在网页版上线,需订阅Google One AI Premium,iOS和安卓用户尚未体验。用户可以随时管理和删除记忆信息,谷歌承诺不将这些信息用于模型训练。

2024-11-21 08:45:16 675

原创 阿里巴巴开源OmniSearch实时规划每个检索动作;智能交互的图像编辑系统MagicQuill;清华大学开源人与代理协作的新型平台iAgents

每位用户都有一个个人代理,能够代表他们与其他代理协作。该平台利用大语言模型驱动的多代理系统,并提供了一个即时消息 Web 界面,用户可以像使用普通聊天应用一样,与代理进行互动。该项目利用 GPT-4 模型,能够以 100% 的准确率识别复杂的验证码图像,支持自动化操作,减轻人工处理的负担。该系统具有用户友好的界面,结合人工智能的建议,能够进行精准的局部编辑。OmniSearch通过其自适应特性和动态检索能力,为多模态信息检索和问题回答提供了强有力的支持,能广泛应用于需要实时获取和处理信息的各种场景。

2024-11-20 09:20:01 1415

原创 微软在Ignite 2024发布Copilot+新功能

微软在Ignite 2024大会上宣布,Microsoft 365 Copilot将利用Copilot+ PC中的NPU本地运行AI模型,减少网络依赖。此功能将提升用户在Outlook和Word中的AI写作辅助体验。同时,Windows Recall功能因安全问题推迟,微软承诺改进其安全性。新发布的Windows Copilot Runtime为开发者提供了图像处理API,计划在2025年推出,预计将吸引更多应用程序使用这一技术。

2024-11-20 08:45:57 1056

原创 AI实验室发展遇阻,领导人对未来持乐观态度

近期有传言称OpenAI、谷歌和Anthropic等AI实验室在开发先进模型时遇到困难,原因是训练数据不足。对此,OpenAI CEO Sam Altman和Anthropic CEO Dario Amodei表示不同意见,认为仍有不少方法可克服障碍。前谷歌CEO埃里克・施密特预测未来五年内大型语言模型将快速迭代,性能持续增长,但同时也警告潜在风险增加,包括新型攻击和生物病毒的威胁。

2024-11-19 09:22:26 346

原创 支持3大系统的桌面客户端Chatbox;AI旅行代理人;过语言模型实现3D网格生成

该模型通过将三维网格的数据(如顶点坐标和面定义)以纯文本的形式表示,使得LLM能够直接处理三维网格的生成与理解。AI旅行助手是一个智能旅行助手项目,基于LangGraph技术,利用多种语言模型(LLMs)来处理旅行相关任务,如查找航班、预订酒店和发送个性化电子邮件。X-Portrait Nodes提供了一种创新的方式,将静态图像与动态视效结合,拓展了各种创作和表达的可能性。地址:https://github.com/akatz-ai/ComfyUI-X-Portrait-Nodes。

2024-11-19 09:19:21 1365

原创 微软GraphRAG更新动态社区选择优化全球搜索;利用谷歌的 Gemini AI 自动审查拉取请求;模拟人类的认知结构AI内存存储和检索机制

该方法基于图网络的结构,通过在搜索过程中根据用户需求和查询特征灵活调整所选择的社区,从而提高结果的相关性和准确性。总的来说,GraphRAG通过创新的社区选择方法,推动了图网络在搜索领域的应用,提升了全球搜索的效果。是一个基于 Python 的库,旨在管理和检索上下文相关的记忆交互,支持短期记忆和长期记忆的存储。中生成图像的一致性,尤其是在处理相同物体或角色的情况下。Memoripy 提供了一种灵活和高效的方式,用于管理 AI 应用中的记忆交互,具有广泛的应用潜力,适合各类需要上下文记忆的智能系统。

2024-11-18 09:35:15 917

原创 马斯克诉OpenAI新进展:加入微软等被告

埃隆·马斯克再次升级对OpenAI的诉讼,新增微软等被告,诉状揭示了他与OpenAI早期的矛盾,包括未能成为CEO。邮件中,OpenAI首席科学家伊利亚·苏斯克沃表达了对马斯克可能掌控AGI的担忧,认为这种结构可能导致独裁。苏斯克沃对OpenAI现CEO萨姆·阿尔特曼的动机也表示怀疑,显示出内部矛盾加剧。

2024-11-18 08:57:51 782

原创 OpenAI计划2025年推出自主AI智能体“Operator”

OpenAI公司宣布将在2025年1月推出名为“Operator”的自动化AI智能体,能够独立控制计算机并执行多种任务。此举标志着自主AI的发展潜力,竞争对手Anthropic和谷歌也在推出各自的AI产品。OpenAI首席执行官山姆・阿尔特曼在Reddit论坛上表示,未来将有更强大的模型出现,认为“智能体”将成为下一个技术突破,预计2025年将是智能体系统进入主流市场的关键年份。

2024-11-14 09:01:05 639

原创 格雷格・布罗克曼正式重返OpenAI

OpenAI联合创始人兼前总裁格雷格・布罗克曼在X平台宣布重返OpenAI。布罗克曼曾在Sam Altman离职后也选择辞职,董事会对此没有解释。据报道,他与Altman保持合作并将担任一个新职位,专注于重大技术挑战。此前,OpenAI的多位高层离职,包括前首席技术官Mira Murati和联合创始人Ilya Sutskever,他们已创办自己的AI初创公司。

2024-11-13 08:47:12 725

原创 OpenAI新模型Orion进步幅度放缓

根据《The Information》报道,OpenAI的下一代旗舰模型Orion在内部测试中虽表现超越现有模型,但与GPT-3到GPT-4的进步幅度相比显得较小,某些领域甚至不如前代模型。为应对这一挑战,OpenAI成立了团队研究如何在训练数据减少的情况下提升模型性能,计划包含使用AI生成合成数据及更多后期优化。目前,OpenAI尚未对此报道做出回应。

2024-11-12 08:44:43 329

原创 Next.js AI开源模板ai-chatbot;代码大型语言模型OpenCoder;轻量级、快速且功能丰富的文本分块库

OpenCoder 是一个开放且可复现的代码大型语言模型(LLM)家族,包含1.5B和8B规模的基础和对话模型,支持英语和中文。OpenCoder 不仅提供模型权重和推理代码,还包括可复现的训练数据、完整的数据处理管道、实验消融结果和详细的训练协议,为研究人员的代码 AI 创新提供了坚实基础。它可以接受用户输入的文本,并基于预训练的模型生成相应的回复,常用于提供信息、支持用户查询和完成特定任务。通过AI聊天机器人,企业和开发者可以提升客户满意度、提高工作效率,同时也为用户提供了更加便捷和智能的交互体验。

2024-11-11 09:31:07 858

原创 阿尔特曼:AGI 和 ASI 将在未来几千天内到来

OpenAI CEO 阿尔特曼在访谈中预言AGI将在2025年到来,并预测ASI将在几千天内降临。他强调,利用10,000个GPU的个人能够创办价值数十亿美元的公司,并指出如今是创办科技公司的最佳时机。阿尔特曼认为,快速发展的技术将带来巨大的创新机会,同时他也分享了对AGI发展的看法,描述了不同层级的智能体,并强调创业者应专注于与AI相关的项目,迅速行动。

2024-11-11 08:51:07 667

原创 OpenAI收购chat.com域名;OpenAI推出“预测输出”功能,大幅提升响应速度

OpenAI CEO萨姆・阿尔特曼在X平台上宣布收购域名chat.com,现已自动跳转至ChatGPT官网。该域名此前由HubSpot创始人Dharmesh Shah以1000万美元购入,并于2023年3月以1550万美元转手。Shah认为基于聊天的用户体验将是软件领域的重要趋势,得益于生成式人工智能的发展。OpenAI的确认标志着其在用户交互领域的进一步扩展。

2024-11-07 08:50:38 335

原创 腾讯开源首个文图生3D大模型Hunyuan3D-1.0

腾讯混元于11月5日开源了Hunyuan3D-1.0,这是首个同时支持文本生成和图像生成的3D开源大模型。该模型采用两阶段生成方法,可以在10秒内生成3D资产。第一阶段使用多视角扩散模型生成多视角图像,第二阶段利用前馈重建模型快速重建3D资产,具有强大的泛化能力和可控性,适用于多种尺度的物体。

2024-11-06 08:49:48 687

原创 英伟达与马斯克洽谈对xAI投资

据报道,芯片巨头英伟达正在与埃隆·马斯克就其人工智能公司xAI的潜在投资进行谈判。xAI推出的大语言模型Grok发展迅速,已在社交媒体平台X上部署。英伟达首席执行官黄仁勋对xAI持支持态度,称其团队用19天建立了超级计算机集群,显著超出常规时间需求。同时,xAI正与投资者商谈筹集数十亿美元的资金,估值在400亿到450亿美元之间。

2024-11-05 08:50:01 623

原创 AI创新头脑风暴工具;BrowseGPT允许用户在网上搜索并获取问题答案;模型下载和管理的聊天应用ActuosusAI

Grounded-VideoLLM通过引入额外的时间流以编码帧之间的关系、特定时间知识的离散时间令牌,并采用多阶段训练方式(从简单的视频字幕任务逐步过渡到复杂的时间定位任务),有效提升了模型的时间推理能力。ActuosusAI是一个为用户提供机器学习模型管理与对话交互的平台,旨在让用户更方便地使用和探索AI模型。与直接使用ChatGPT的方式不同,这款应用提供了一系列经过优化的、灵感来源于真实世界的有效头脑风暴技术,使用户能够以结构化的方式探索想法,从而最大化使用大型语言模型(LLM)进行头脑风暴的效益。

2024-11-04 09:45:06 1144

原创 OpenAI推迟新模型发布,聚焦现有技术

OpenAI首席执行官萨姆·奥特曼表示,下一个大型人工智能模型可能不会在今年发布,因公司优先开发当前专注于推理与难题解决的技术。他透露将推出一些出色的新版本,但不会称为GPT-5。此外,OpenAI推出了新搜索功能ChatGPT Search,与竞争对手展开竞争,同时回应了关于图像生成模型DALL-E和视频生成模型Sora的疑问,强调对模型安全性和计算能力的完善。

2024-11-04 08:46:54 436

原创 Wonder Animation视频转化为3D动画场景,助力动画创作;将任何图像或 PDF 文件转换为高准确度的 Markdown 文本;生成诺贝尔奖图像

ComfyUI-Detail-Daemon 是 muerrilla 的 sd-webui-Detail-Daemon 的一个移植版本,作为 ComfyUI 的一个节点,旨在调整 sigma 值,以增强图像细节,同时可能去除不必要的散景或背景模糊。地址:https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/该项目不仅是一种生成诺贝尔图像的流程,还可作为。

2024-10-31 09:22:36 1084

原创 微软推出 GitHub Spark;中国科学院开源图像修复技术;手势视频重现技术TANGO

Promptwright 的灵感来源于 redotvideo/pluto 项目,最初作为其分支开发,但最终进行了相当大的重写,以支持针对本地 LLM 模型的数据集生成,相较于 OpenAI 提供的服务,显得更为经济实惠。GitHub Spark 是一个由 GitHub 开发的创新工具,旨在利用人工智能,帮助用户轻松创建和分享个性化的微型应用程序(称为“sparks”),并能够直接在桌面和移动设备上使用,且无需编写或部署代码。DreamClear是一项高性能的图像修复技术,专注于隐私安全的数据集管理。

2024-10-30 09:20:36 775

原创 雷军回应AI克隆声音恶搞事件;小米发布澎湃OS 2 AI新特性

国庆期间,网友利用AI技术克隆雷军的声音,恶搞吐槽不文明行为,引起广泛关注。雷军对此表示困扰和不适,希望大家停止这种行为,但认为AI技术本身是实用的。恶搞内容包括对大学生的劝导、捐款、撞人等情节,相关短视频平台已逐步下架部分内容。

2024-10-30 08:51:57 796

原创 Apple Intelligence计划2025年支持中文

苹果公司宣布将扩展Apple Intelligence,预计在2025年4月支持中文等多种语言。首批功能将在iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1中推出,用户需将设备语言设置为美式英语。12月起将增加对澳大利亚、加拿大、英国等地英语的支持,明年将陆续添加中文、法语、德语等多种语言。需要注意的是,目前尚未明确国内用户能否使用Apple Intelligence的各项功能。

2024-10-29 08:45:09 524

原创 字节跳动在欧洲设立AI研发中心

字节跳动计划在欧洲设立AI研发中心,正在积极招聘LLM和AI领域的人才。此外,字节跳动近期在董事会中加入了法国富商泽维尔·尼尔,显示其拓展欧洲市场的决心。此前,该公司已宣布将在马来西亚投资约100亿林吉特建立AI中心,并额外投资15亿林吉特扩建数据中心设施,显示其全球布局战略。

2024-10-28 08:47:34 632

原创 Genmo团队开发的前沿AI视频生成模型;Fragments支持安全执行 AI 生成的代码;Meta开源从视频中学习仿生

POC Python Realtime API o1助手是一个概念验证项目,旨在利用OpenAI的实时API,实现工具链的调用、o1-preview和o1-mini的集成、结构化输出的响应处理,从而展望未来的智能助手工程。Mochi 1的高效性和灵活性使其在多种行业中都有很大的潜力,虽然当前在480p分辨率下生成视频,且对动画内容表现不佳,但随着社区的持续改进和优化,未来可能会扩展更多功能和应用场景。Agent-to-Sim项目通过学习日常视频中的互动行为,推动了4D重建和动作生成技术的发展。

2024-10-25 09:07:13 1233

原创 两个开源AI应用让Claude 3.5 直接操作你的电脑;构建和部署多智能体系统课程;简化PDF文档管理并提供智能聊天功能

该项目旨在提供一种轻量级的解决方案,与其默认提供的庞大项目相比,用户能够更方便地体验Claude的新功能。CoI-Agent(Chain-of-Ideas Agent)是一个旨在支持创新研究和新创意开发的工具,利用大语言模型(LLM)技术,专注于促进思想的生成和组织。地址:https://www.deeplearning.ai/short-courses/practical-multi-ai-agents-and-advanced-use-cases-with-crewai/

2024-10-24 09:23:23 1880

Android中使用FCM进行消息推送

Android中使用FCM进行消息推送完整的过程,包括在控制板中配置项目,安卓应用构建,在服务端中发送fcm消息。

2023-03-24

驱动开发的相关工具DebugView

包含DebugView,DriverMonitor,IRPTrace,WinObj,DeviceTree,DiskView,DriverManager,EzDriverInstaller

2022-06-13

PngButton.zip

MFC中把png资源加载到自定义按钮,可以了解到mfc中如何控制按钮的编写。

2019-08-08

WebRTC零基础开发者教程(中文).pdf

本文中提供下载的《WebRTC 零基础开发者教程》将以一个初学者的角度,从0开始逐步引导你掌握WebRTC开发的方方面面(当然,教程中更多的是操作性的内容,具体到技术原理和实现,显然不是本教程的讨论范畴)。

2019-06-14

webrtc.zip

WebRTC is a free, open project that provides browsers and mobile applications with Real-Time Communications (RTC) capabilities via simple APIs. The WebRTC components have been optimized to best serve this purpose. Our mission: To enable rich, high-quality RTC applications to be developed for the browser, mobile platforms, and IoT devices, and allow them all to communicate via a common set of protocols. The WebRTC initiative is a project supported by Google, Mozilla and Opera, amongst others. This page is maintained by the Google Chrome team.

2019-06-12

Getting-Started-with-Webrtc-2013-Rob-Manson.pdf

WebRTC(Web Real-Time Communication)项目的最终目的主要是让Web开发者能够基于浏览器(Chrome\FireFox\...)轻易快捷开发出丰富的实时多媒体应用,而无需下载安装任何插件,Web开发者也无需关注多媒体的数字信号处理过程,只需编写简单的Javascript程序即可实现,W3C等组织正在制定Javascript 标准API,目前是WebRTC 1.0版本,Draft状态;另外WebRTC还希望能够建立一个多互联网浏览器间健壮的实时通信的平台,形成开发者与浏览器厂商良好的生态环境。同时,Google也希望和致力于让WebRTC的技术成为HTML5标准之一,可见Google布局之深远。

2019-06-11

Android开发艺术探索

《Android开发艺术探索》是一本Android进阶类书籍,采用理论、源码和实践相结合的方式来阐述高水准的Android应用开发要点。《Android开发艺术探索》从三个方面来组织内容。第一,介绍Android开发者不容易掌握的一些知识点;第二,结合Android源代码和应用层开发过程,融会贯通,介绍一些比较深入的知识点;第三,介绍一些核心技术和Android的性能优化思想。

2019-02-27

21个项目玩转深度学习:基于TensorFlow的实践详解

我们正处在一个日新月异、飞速变革的时代,层出不穷的新技术每天都在冲击和改变我们的生活。人工智能无疑是其中最受关注、也是影响最深远的技术领域。它为计算机插上了翅膀,演变出许多从前根本无法想象的新技术、新应用。AlphaGo Zero——一台没有任何先验知识的人工智能机器,可以在几天内通过自我博弈成长为世界第一的围棋大师,超越人类几千年积累的经验;风格迁移应用能够自动将用户的照片转变为著名的绘画艺术风格;机器可以在零点几秒内完成翻译,把一种语言译成另一种语言。此外,有关人脸识别、自动驾驶等新技术的应用也都纷纷开始落地。在过去的几年内,人工智能技术不仅在学术上取得了巨大的突破,也开始走向寻常百姓家,真正为人们的生活提供便利。

2018-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除