- 博客(115)
- 资源 (1)
- 收藏
- 关注
原创 探索OpenAI O1:AI领域的新突破
OpenAI O1模型是继GPT-4o之后的新一代AI模型,专为处理复杂任务而设计,如科学、数学和编程中的难题。O1模型在推理和纠错功能上相较于前代有了显著增强。
2024-12-24 22:31:01
449
原创 Chonkie:轻量级RAG文本分块库,让文本处理更高效
Chonkie以其轻量级、高效和易用性,成为了NLP领域中文本分块的优选工具。无论是在RAG应用、对话系统、文本摘要还是机器翻译等场景,Chonkie都能提供强大的支持。如果你正在寻找一个简单而强大的文本分块解决方案,Chonkie绝对值得一试。
2024-11-14 23:31:05
902
2
原创 ebook2audiobookXTTS:电子书转有声书的新利器
ebook2audiobookXTTS是一个开源工具,它利用Calibre和Coqui XTTS技术,将电子书转换成包含章节和元数据的有声读物。该工具支持多种语言,并允许用户选择使用自己的语音文件进行语音克隆,以获得更加个性化的听书体验。如果你有自定义的XTTS模型,也可以在无头模式下使用:bashebook2audiobookXTTS是一个强大的工具,它不仅可以帮助用户将电子书转换为有声书,还提供了多种语言支持和语音克隆功能,使得听书体验更加丰富和个性化。
2024-11-14 23:17:38
1490
原创 Obsidian Web Clipper:强大且便捷的网页剪贴工具
Obsidian Web Clipper是Obsidian官方推出的网页剪贴工具扩展,它允许用户直接从浏览器中保存网页内容到Obsidian。用户可以高亮网页上的重要信息,并将其以Markdown格式保存,以便在Obsidian中进一步编辑和整理。
2024-11-12 20:40:56
2562
原创 Real-IAD数据集:工业异常检测的新挑战
Real-IAD数据集包含了30种不同的工业对象,每个对象都有对应的图像和标注信息。数据集的目录结构清晰,包含了不同分辨率的图像和多种噪声水平下的标注文件。这为研究人员提供了一个全面的平台,用于开发和测试异常检测算法。
2024-11-12 20:39:01
656
原创 AI入门指南:开启你的AI/LLM大模型学习之旅
在人工智能技术日益成熟的今天,越来越多的人希望能够入门AI,掌握大型语言模型(LLM)的使用和开发。由Hoper-J维护的GitHub项目“AI-Guide-and-Demos-zh_CN”提供了一份全面的中文入门指南,旨在帮助初学者从API调用学到本地模型部署和微调。本文将详细介绍这个项目的内容和特色,以及如何开始你的AI学习之旅。
2024-11-11 20:57:26
499
原创 Kiroku:你的智能文档助手团队
Kiroku的灵感来源于开发者在斯坦福大学攻读博士学位期间的学术写作经历。在这个过程中,作者和导师的角色被重新定义:作者成为导师,而多智能体系统则成为学生。这种流程带来了诸多优势,比如更有效地组织思路、通过迭代评估信息来改变沟通方式,以及利用大型语言模型(LLM)讨论复杂话题。
2024-11-11 20:52:16
852
原创 PDFMathTranslate:PDF科学论文翻译与双语对比工具
在学术研究和科学交流中,语言障碍常常是一个不容忽视的问题。PDFMathTranslate是一款专为解决这一问题而设计的PDF科学论文翻译和双语对比工具。它不仅能够保留原文的排版,还支持全文双语翻译,并且兼容多种翻译服务,极大地方便了科研人员和学生的工作。
2024-11-10 22:36:47
3348
2
原创 Promptwright:本地大型语言模型合成数据集生成库
Promptwright是一个创新的工具,它允许用户在本地生成由提示引导的合成数据集。这个库的灵感来源于redotvideo/pluto项目,最初作为其分支开发,但最终成为一个重写的版本,以支持本地LLM模型的数据集生成。
2024-11-10 22:29:19
411
原创 InkSight:智能手写转换技术的新星
在数字化转型的浪潮中,手写笔记的电子化转换技术显得尤为重要。谷歌研究团队推出的InkSight技术,正是这一领域的一颗新星。它不仅能够将手写笔记转换为电子格式,还能在处理模糊、低光照或背景复杂的手写文本时,展现出更高的识别准确率。本文将结合GitHub上的最新动态,详细介绍InkSight的技术特点、安装运行指南以及资源下载。
2024-11-07 21:43:19
1703
原创 浏览器自动化库Browser-Use:让大型语言模型与网站互动的新工具
Browser-Use是一个开源的网页自动化库,它通过提供一个简单的接口,让LLM能够与网站进行互动。这个库支持多标签管理、XPath提取和视觉模型处理,使得自动化网页操作变得更加简单和高效。
2024-11-07 21:31:13
8634
原创 Claude Vision Object Detection:一款强大的Python图像识别工具
在人工智能领域,图像识别技术一直是研究和应用的热点。随着技术的进步,越来越多的工具和库被开发出来,以帮助开发者和研究人员更容易地实现图像识别功能。今天,我要向大家介绍一款名为Claude Vision Object Detection的Python图像识别工具,它利用Claude 3.5 Sonnet Vision API来检测并可视化图像中的对象,自动绘制边界框、标注对象并显示置信度分数。
2024-11-06 11:59:04
752
原创 AI论文评审助手:赋能研究者,加速学术论文评审与分享
在学术界,论文评审是一个至关重要的过程,它不仅确保了研究的质量和可靠性,也为学术交流提供了平台。然而,传统的论文评审流程往往耗时且低效,特别是在初步筛选和理解论文要点方面。为了解决这一问题,AI论文评审助手应运而生,它利用大型语言模型(LLMs)和文档解析工具,从学术论文中提取关键信息,助力研究者快速把握论文要点,并将其转化为博客文章,以便于更广泛的分享和讨论。
2024-11-06 11:56:06
1102
原创 PDF Extract API:文档提取与解析的新利器
PDF Extract API是一个基于FastAPI构建的文档提取和解析API,它使用了Celery进行异步任务处理,并利用Redis缓存OCR结果。无云/外部依赖:你只需要PyTorch基础的OCR(Marker)+ Ollama,通过docker-compose进行配置,无需将数据发送到外部环境。PDF到Markdown转换:使用不同的OCR策略(包括marker, surya-ocr或tesseract)进行高准确度的PDF到Markdown转换。PDF到JSON转换。
2024-11-04 19:55:04
1597
原创 Hertz-dev:开启全双工音频交互的新篇章
Hertz-dev是一个具有8.5亿参数的全双工、仅音频的transformer基础模型。它的设计目标是让设备能够听懂人类的语言并参与到对话中来。这个模型的开源,为研究人员和开发者提供了一个强大的工具,用于研究和开发下一代的语音交互系统。Hertz-dev的开源是语音技术发展的一个重要里程碑。它不仅提供了一个强大的研究工具,也为未来的语音交互技术指明了方向。随着技术的不断进步,我们有理由相信,Hertz-dev将为语音识别和生成领域带来更多的创新和突破。
2024-11-04 19:49:30
1176
原创 Stagehand:简单可扩展的人工智能网页浏览框架
Stagehand 是一个由 Browserbase 团队维护的人工智能驱动的网页浏览框架,它是 Playwright 的后继者,提供了三个简单的 API(act、extract 和 observe),这些 API 提供了构建自然语言驱动的网页自动化操作的基础。Stagehand 的目标是提供一个轻量级、可配置的框架,没有过于复杂的抽象,同时模块化地支持不同的模型和模型提供商。它不会帮你订披萨,但会帮助你可靠地自动化网页操作。
2024-11-02 18:09:41
724
原创 序列建模利器:Google开源的序列建模库
Google最近开源了一个名为的序列建模库,它是基于TensorFlow 2构建的,旨在简化序列模型的创建,这些模型可以逐层执行(例如,教师强制训练)也可以逐步执行(例如,自回归采样)。这个库的一个关键特性是支持流式(逐步)操作。为了实现这一点,每个层都有一个状态的概念,并且除了在其他库(如Keras)中找到的典型层处理功能外,还有一个步骤函数。当层支持步骤方法时,它们的层方法对于相同的输入块序列产生相同的结果,这使得根据用例在逐步和层处理之间轻松切换成为可能。
2024-11-02 18:03:25
213
原创 NotebookMLX:开源版NotebookLM,将PDF文档转化为音频播客
它不仅能够将枯燥的文档转换为生动的音频内容,还能够通过播客形式吸引更多的听众。随着技术的进步,NotebookMLX有望进一步提升语音的自然度,支持更多的输入格式,如网站、音频文件、油管链接等,并优化prompt,支持辩论写稿等方式。NotebookMLX,一个基于NotebookLlama的开源项目,通过集成MLX技术,实现了将PDF文档转换成易于理解和分享的音频播客形式。该项目利用MLX技术,通过一系列自然语言处理功能,将PDF文档转换成播客形式,极大地丰富了内容的表现形式。
2024-11-02 07:21:23
852
原创 大语言模型在社会竞争模拟中的新探索:ICML 2024 Oral报告解读
在ICML 2024的一次Oral报告中,微软亚洲研究院的研究人员展示了他们如何利用大语言模型来模拟社会竞争,这一研究不仅拓宽了我们对LLMs能力的认识,也为社会科学和人工智能的交叉研究提供了新的视角。传统的社会竞争模拟依赖于复杂的数学模型和假设,而大语言模型的出现为这一领域带来了新的可能性。这项研究的意义在于,它不仅展示了LLMs在社会竞争模拟中的潜力,还为未来的研究提供了新的方向。在ICML 2024的报告中,研究人员提出了一个框架,使得大语言模型能够学习并预测个体在社会竞争中的行为模式。
2024-11-02 07:15:11
395
原创 会议效率革命:MeetingMind AI会议助手深度体验
MeetingMind是一款AI驱动的会议助理工具,它通过音频记录、AI转录和关键信息自动提取,帮助用户捕捉、分析并行动于会议洞察。这个项目基于Langflow、Next.js和Groq构建,提供了快速的转录服务来分析会议并生成洞察。
2024-11-01 20:47:03
770
原创 消费级GPU上的量化扩散模型:在Colab上高效运行AI模型
为了解决这一问题,量化技术应运而生,它能够将复杂的AI模型优化,使其在消费级GPU上也能高效运行。量化技术通过减少模型的精度要求,使得模型能够在较低的硬件配置上运行,同时保持较高的性能。项目,我们可以在消费级GPU上高效地运行复杂的扩散模型,特别是在免费Colab笔记本上。这为AI模型的普及和应用提供了新的可能性。通过这个库,我们可以将模型的权重和激活从32位浮点数量化到8位整数,从而显著减少模型的大小和计算需求。是一个用于构建和运行扩散模型的库,它提供了一系列的预构建模型和调度器,可以用于各种生成任务。
2024-11-01 20:42:28
390
原创 Semantic Search:一款简单高效的语义搜索库
Semantic Search 是一个专为小型至中型项目设计的语义搜索库,它提供嵌入式向量搜索和语义嵌入功能。这个库特别适合那些需要强大语义搜索能力,但不想被传统搜索系统复杂性所困扰的项目。它的核心优势在于简单性,以及对GGUF BERT模型的支持,让你能够利用复杂的嵌入技术,而不需要深入了解传统搜索系统的复杂性。
2024-11-01 19:37:17
952
原创 TrustGraph Engine:一个不依赖特定大型语言模型(LLM)的知识Agent开发平台
TrustGraph Engine 是一个强大的知识代理开发平台,它不依赖于任何特定的大型语言模型(LLM)。该平台提供了工具、服务、图数据库和向量数据库,帮助开发者部署可靠、可扩展、准确的AI代理。
2024-11-01 19:32:37
339
原创 视频生成神器:victorchall/genmoai-smol
在开源社区,视频生成技术正变得越来越受欢迎。今天,我们要介绍一个专为单GPU设备优化的开源视频生成模型——。这个项目是Genmoai的txt2video模型的一个工作进展分支,它被优化以减少显存占用,使得在资源有限的设备上也能进行视频创作。
2024-10-31 22:10:40
943
原创 Integuru:逆向工程构建第三方集成的AI智能体
Integuru 是一个通过逆向工程平台内部API来构建第三方集成的AI智能体。它能够自动生成整合代码,使得开发者能够更便捷地与各种平台进行交互。
2024-10-31 09:20:41
854
原创 Basis Robotics Framework:面向生产的机器人开发框架
Basis Robotics Framework 是由 Basis Robotics 开发的一个面向生产的机器人开发框架,它基于发布-订阅(pub-sub)架构,旨在使机器人代码易于测试和开发,强调确定性测试和易用性。与 ROS 和类似框架不同,Basis 抽象了发布者和订阅者,采用输入 + 条件(同步器)-> 处理器(你的代码)-> 输出的模型。你只需声明你的代码响应的消息和条件,框架将自动管理所有底层的发布者、订阅者和消息路由。
2024-10-31 09:18:13
624
原创 Eliza:多角色对话Agent的探索之旅
Eliza是一个强大的多角色模拟框架,支持Discord和Twitter连接,包括Discord语音频道。它具备完整的对话和文档RAG记忆功能,能够阅读链接和PDF文件,转录音频和视频,总结对话等。此外,Eliza还具有高度的可扩展性,允许用户创建自定义动作和客户端,以扩展Eliza的能力。Eliza作为一个多功能的对话Agent,不仅能够模拟多个角色进行交流,还支持语音频道和多种文件格式的阅读与转录。它的高可扩展性使得开发者能够根据需求定制功能,无论是在本地还是云端,都能提供强大的支持。
2024-10-30 20:38:26
1761
原创 Dynamiq:AI智能协同框架的探索与实践
在人工智能领域,Dynamiq作为一个专为Agentic AI和大型语言模型(LLM)应用设计的AI智能协同框架,它的目标是简化AI应用的开发流程。Dynamiq擅长于协调检索增强型生成(RAG)和大型语言模型代理,使得开发者能够更加专注于业务逻辑,而不是底层的技术细节。
2024-10-30 20:26:39
510
原创 DocLayout-YOLO:文档布局分析的新突破
DocLayout-YOLO是基于YOLO-v10的文档布局分析工具,通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析,提升了处理速度和准确性。它能够对多样性文档进行实时鲁棒的检测。
2024-10-30 12:37:29
1882
原创 x.infer:一个框架无关的计算机视觉推理库
x.infer 是一个框架无关的计算机视觉推理库,它允许用户通过统一的 Python API 运行来自不同框架的多种模型的推理。它支持超过1000+模型,涵盖了各种流行的计算机视觉任务。
2024-10-30 12:33:40
946
原创 mdx:在Markdown中执行代码块的利器
mdx 是一个强大的工具,它允许你在 Markdown 文件中直接编写并执行代码块。这意味着你可以将文档和代码紧密结合,支持多种编程语言,使得代码文档化和执行变得更加简单和直观。mdx 是一个非常实用的工具,它让 Markdown 文件不仅仅是静态文档,而是可以包含可执行代码的动态文档。无论是个人项目还是团队协作,mdx 都能大大提高你的工作效率。快去试试吧!
2024-10-29 10:29:26
476
原创 NewsNow:实时热门新闻的优雅阅读工具
NewsNow 是一个旨在提供简洁界面和流畅阅读体验的工具,让你随时掌握最新资讯。它不仅优雅地展示实时热门新闻,还支持多种部署方式,包括 Cloudflare Pages、Vercel 等平台。
2024-10-29 10:26:43
1005
原创 可解释机器学习系列:第九章 神经网络解释方法(完结)
我们将专注于深度学习模型,特别是神经网络的解释方法。深度学习因其在图像识别、自然语言处理等领域的卓越表现而广受欢迎,但其“黑箱”特性也给模型的解释带来了挑战。
2024-10-28 21:23:29
306
原创 可解释机器学习系列:第八章 局部模型无关方法
局部模型无关方法为理解机器学习模型的个体预测提供了强大的工具。这些方法通过关注单个实例的预测,帮助我们揭示模型决策的细微差别。
2024-10-28 21:22:54
379
原创 可解释机器学习系列:第七章 全局模型无关方法
我们将深入探讨全局模型无关方法。这些方法专注于描述机器学习模型在整体数据集上的平均行为,为我们提供了一种理解模型如何做出预测的宏观视角。
2024-10-28 21:20:19
437
原创 可解释机器学习系列:第六章 基于示例的解释方法
基于示例的解释方法选择数据集中的特定实例来解释机器学习模型的行为或数据分布。这些方法通常是模型无关的,因为它们通过选择数据集中的实例来解释模型,而不是通过创建特征摘要(如特征重要性或部分依赖性)。
2024-10-28 21:15:05
402
原创 可解释机器学习系列:第五章 模型无关方法
我们将探讨模型无关的解释方法。这些方法不依赖于特定模型的内部结构,而是通过分析模型的输入和输出来提供解释。这种灵活性使得模型无关方法可以应用于任何机器学习模型,无论是复杂的深度学习网络还是简单的线性模型。
2024-10-28 21:14:34
455
原创 可解释机器学习系列:第四章 可解释模型
在“可解释机器学习”系列的第四章中,我们将深入探讨可解释模型。这些模型因为其结构简单,使得我们能够直观地理解模型的预测过程。本章将介绍几种常用的可解释模型,包括线性回归、逻辑回归、决策树等,并讨论它们的解释方法。
2024-10-28 21:10:52
393
原创 可解释机器学习系列:第三章 数据集概览
对书中使用的数据集进行概览。这些数据集将用于展示各种可解释机器学习技术,包括回归、分类和文本分类任务。了解数据集的特征对于理解模型的解释至关重要。
2024-10-28 21:07:38
296
原创 可解释机器学习系列:第二章 可解释性的重要性与分类
在本章中,我们探讨了可解释性的重要性,并介绍了不同的可解释性方法分类。我们了解到,可解释性不仅对于理解模型的决策过程至关重要,而且对于建立用户信任、确保模型的公平性和安全性也非常重要。下一章,我们将深入探讨具体的可解释性方法,包括它们是如何工作的,以及它们的优缺点。可解释性是机器学习模型中一个不可或缺的属性,它关系到模型的透明度、信任度、公平性和安全性。评估可解释性的方法包括应用层面的评估、人类层面的评估和功能层面的评估。当模型的预测出现错误时,可解释性可以帮助我们理解错误的原因,并指导如何修复系统。
2024-10-28 21:06:51
497
CMU人工智能AIGC课件
2024-10-25
大模型实战教程,从0手撸LLM
2024-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人