Zachary AI-优快云博客

原创【AIGC调研系列】智能提取网页元素XPath用于UI自动化测试的深度研究

XPath（XML Path Language）是一种用于在XML和HTML文档中定位特定元素的语言。它可以帮助我们快速找到所需的信息，通过使用路径表达式来指定节点的位置，并支持使用各种条件进行过滤和匹配[2虽然XPath主要是为XML文档设计的，但由于HTML可以被视为XML的一种实现，因此它在网页自动化测试、网页数据抓取等领域得到了广泛应用。在编程中，我们可能需要从XML文件中提取数据，或者在网页上定位特定元素。

2025-03-31 18:27:05 423

原创 gemma3、qwen2.5-vl、minicpm之间的对比评测

gemma3、qwen2.5-vl、minicpm之间的对比评测

2025-03-19 09:44:52 1352

原创【AIGC调研系列】大模型RAG知识库创建前的知识梳理与清洗方案

通过上述方案，可系统化解决知识库创建前的数据质量问题，为后续向量化与检索模块提供高质量输入。

2025-03-10 16:25:29 1087

原创【AIGC调研系列】大模型RAG知识库搭建方案：知识预处理与更新机制详解

知识预处理是构建RAG知识库的核心环节，直接影响检索效果和生成质量。

2025-03-10 08:49:34 1287

原创【AIGC调研系列】Manus AI Agent 详细介绍

Manus是由中国创业公司Monica.im于2025年3月推出的全球首款通用型AI Agent，其名称源自拉丁语“Mens et Manus”（手脑并用）。与传统对话式AI不同，Manus的核心突破在于全链路自主执行能力：不仅能理解任务需求，还能直接操作电脑工具（如浏览器、代码编辑器、数据分析软件等）完成复杂任务，并交付完整成果。编程开发：编写网页代码、生成消消乐游戏；办公场景：制作PPT、筛选简历、生成电子表格；生活服务：定制旅行计划、比较保险政策；专业分析：生成市场报告、股票预测模型。

2025-03-07 10:30:22 895

原创【AIGC调研系列】Qwen2与llama3对比的优势

Qwen2与Llama3的对比中，Qwen2展现出了多方面的优势。首先，从性能角度来看，Qwen2在多个基准测试中表现出色，尤其是在代码和数学能力上有显著提升[1][9]。此外，Qwen2还在自然语言理解、知识、多语言等多项能力上均显著超越了Llama3[3]。Qwen2的开源特性也是其一大优势。所有人都可以免费下载Qwen2，这使得它不仅在学术研究中具有广泛的应用前景，也促进了技术的普及和创新[2][4]。

2024-06-07 13:39:19 7191

原创【AIGC调研系列】chatTTS与GPT-SoVITS的对比优劣势

ChatTTS和GPT-SoVITS都是在文本转语音（TTS）领域的重要开源项目，但它们各自有不同的优势和劣势。ChatTTSGPT-SoVITSChatTTS在多语言支持、细粒度控制和对话场景应用方面表现出色，但在处理长文本和伦理限制方面存在一定的局限。GPT-SoVITS则在少样本中文声音克隆和跨语言推理能力方面有显著优势，但其API调用支持较差且训练和推理过程较为复杂。根据具体需求选择合适的模型是关键。

2024-06-04 11:25:41 6972 2

原创【AIGC调研系列】LlamaFS-使用llama3操作文件夹

LlamaFS是一个基于Llama 3模型的自组织文件管理系统，旨在帮助用户自动重命名和组织电脑中的文件。它通过智能化的AI技术，能够根据文件内容和已知约定（例如时间）自动进行文件的重命名和分类整理[1][5][8]。LlamaFS有两种运行模式：批量处理模式和监视模式。在批量处理模式下，用户可以一次性处理大量文件，避免了手动整理的繁琐[6][10]。而在监视模式下，LlamaFS作为守护进程运行，实时监控目录中的文件操作，并根据用户最近的编辑行为进行预测和自动分类[5]。

2024-05-28 10:05:10 1795 2

原创【AIGC调研系列】全新的多模态小模型Phi-3-vision

全新的多模态小模型Phi-3-vision是微软在2024年推出的最新AI模型。Phi-3-vision是一个具有42亿参数的多模态模型，能够处理图像和文本数据，并对这些数据进行高效的推理和响应[12][13][14]。Phi-3-vision特别适用于移动设备上运行，尽管它也可以在PC端运行[2][7]。该模型支持一般的视觉推理任务，如图表、图解和表格的理解和分析[10][12][13]。用户可以通过输入图像和文本来询问相关的问题，例如关于图表的具体问题或特定图像的开放式问题[4][5][6]。

2024-05-22 09:10:24 1885

原创【AIGC调研系列】CogVLM2:第二代视觉大模型

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入[2]。CogVLM2的核心思想是“视觉优先”，与之前的多模态模型不同，它将图像特征直接对齐到文本特征的输入空间去，从而更好地处理视觉信息[3]。

2024-05-21 08:15:33 2335 1

原创【AIGC调研系列】MiniCPM-Llama3-V2.5模型与GPT-4V对比

MiniCPM-Llama3-V2.5模型与GPT-4V的对比可以从多个方面进行分析，包括性能、应用场景和技术特点。从性能角度来看，MiniCPM-Llama3-V2.5在OCR识别、模型幻觉能力和空间理解能力方面表现出色，实现了开源模型的性能SOTA（State of the Art）[2]。这表明MiniCPM-Llama3-V2.5在处理图像和文本信息方面具有较高的效率和准确性。

2024-05-21 08:12:34 2496

原创【AIGC调研系列】GPT-4O比GPT-4强在哪

GPT-4O与GPT-4在多个方面有所不同，主要体现在性能、响应速度、成本效益以及多模态处理能力上。GPT-4O在保持与GPT-4相当的智能水平的同时，通过技术改进和优化，在响应速度、成本效益以及多模态处理能力上都有显著的提升。这些改进使得GPT-4O在实际应用中更具竞争力，尤其是在需要快速响应和高效处理多种数据类型的场景中[7][18][27]。

2024-05-15 11:48:57 4145

原创【AIGC调研系列】谷歌Veo与Sora对比

谷歌的Veo与OpenAI的Sora进行了直接对比。Veo是谷歌推出的一个视频生成模型，能够根据文本提示生成长度超过1分钟、分辨率最高1080P的高质量视频[1][2][3]。而Sora是OpenAI推出的一种视频生成模型，同样能够根据文本生成长达60秒的视频，但主要强调其在理解复杂文本描述方面的能力[10][11][22]。然而，Veo特别强调其在生成超过一分钟长的视频方面的能力，这一点在多个证据中得到了体现[1][2][3]。

2024-05-15 11:41:50 1453

原创【AIGC调研系列】谷歌Astra与GPT-4O的差异

GPT-4O和Astra大模型各有其独特的优势和应用重点。GPT-4O强调的是其多模态处理能力和成本效益，而Astra则侧重于提供基于视觉的即时交互体验，并展示了谷歌在硬件集成方面的创新。

2024-05-15 11:34:53 1396

原创【AIGC调研系列】你好-GPT-4o

GPT-4o是OpenAI最新发布的一款人工智能模型，它具备处理和生成文本、音频和图像的能力。这个模型的特点是能够实时对这些不同类型的输入进行推理和响应，这使得它在多模态交互方面表现出色[1][2][3]。GPT-4o的“o”代表“omni”，意味着它是一个全能型的模型，能够接受任意组合的输入，并生成相应的输出[2][4][5]。此外，它的响应速度非常快，最短可以在232毫秒内完成音频输入的响应，这与人类的对话响应时间相当[1][3][14]。

2024-05-14 09:32:57 1204

原创【AIGC调研系列】李开复的开源大模型Yi-1.5

李开复的开源大模型Yi-1.5是零一万物公司推出的一系列预训练和微调模型，包括6B、9B和34B三个版本[7][11][24]。这些模型采用Apache 2.0许可证，允许用户自由使用、修改和分发[7][24]。Yi-1.5模型在编码、数学、推理和指令遵循能力方面相比前代模型有显著提升，同时保持了在语言理解、常识推理和阅读理解方面的高水平表现[12][13][20]。特别是34B版本，在多个评测中显示出优越的性能，甚至在某些指标上不逊色于更大规模的70B模型如Llama-3[4][10]。

2024-05-14 09:28:05 1150

原创【AIGC调研系列】基于人工智能的测试用例生成工具QAMete

百度测试平台QAMate是一个基于人工智能的测试用例生成工具。该平台利用文心大模型，支持从需求文本、表格及整份需求文档中自动生成测试用例[1][6][7]。此外，QAMate还允许用户构建专属的Prompt和业务经验知识库，以定向提升生成效果[1][6][7]。QAMate项目组不仅关注于测试用例的智能生成，还致力于通过标准化开放共建的Prompt层，以及成熟的脑图用例产品，实现与测试人员的直接闭环数据流动[4][9][10]。这种方法有助于提高测试用例的质量和相关性，从而更有效地支持软件开发和测试过程。

2024-05-10 15:32:09 3507 1

原创【AIGC调研系列】XTuner、Unsloth方案对比

XTuner和Unsloth都是用于大型语言模型（LLM）训练和微调的工具，但它们在设计理念、技术实现和性能表现上存在一些差异。XTuner和Unsloth各有优势。XTuner更适合需要处理超长上下文或大规模参数模型的场景，而Unsloth则在提高训练速度和节省显存方面表现更为突出。用户应根据自己的具体需求选择最合适的工具。

2024-05-09 12:07:00 3279 1

原创【AIGC调研系列】红帽的RHEL AI能够做什么

红帽的RHEL AI（Red Hat Enterprise Linux AI）是一个基于开源项目InstructLab和IBM Research提供的Granite大型语言模型的基础模型平台。它旨在无缝开发、测试和运行生成式AI模型，以支持企业应用程序[1][2][5]。具体来说，RHEL AI提供了一个集成的环境，使得企业能够利用这些先进的AI技术来增强其业务流程和服务。

2024-05-08 14:32:49 843 2

原创【AIGC调研系列】VILA-1.5版本的视频理解功能如何

VILA-1.5版本的视频理解功能表现出色，具有显著的突破。这一版本不仅增强了视频理解能力，还提供了四种不同规模的模型供用户选择，以适应不同的应用需求和计算资源限制[1][2][3]。此外，VILA-1.5支持在笔记本等边缘设备上部署，这得益于其高效的模型优化和框架如TinyChat和TensorRT-LLM的支持[2][6]。VILA-1.5利用大规模交织图像文本数据进行预训练，这使得它在视频理解和多图像理解方面具有较强的能力[4][5][7]。

2024-05-07 17:43:39 1525 1

原创使用 XTuner 完成llama3小助手认知微调

使用 XTuner 完成llama3小助手认知微调

2024-05-04 19:06:05 489

原创【AIGC调研系列】InternVL开源多模态模型与GPT-4V的性能对比

InternVL和GPT-4V都是多模态模型，但它们在性能、参数量以及应用领域上有所不同。InternVL是一个开源的多模态模型，其参数量为60亿，覆盖了图像/视频分类、检索等关键任务，并在32个视觉-语言基准测试中展现了卓越性能[2]。InternVL通过全新的渐进式对齐策略，与大语言模型(LLM)组合构造多模态对话系统，具备ViT-22B同等强大的视觉能力[5]。

2024-04-30 09:17:08 2843

原创【AIGC调研系列】LLaVA++整合Phi-3和Llama-3能够实现什么

LLaVA++为Phi-3和Llama-3带来的主要好处是增强了视觉处理能力、提升了指令遵循能力和学术任务处理能力，以及提升了跨模态交互能力，这些改进使得LLaVA++在多个领域内具有更广泛的应用潜力。

2024-04-29 11:23:23 2360

原创【AIGC调研系列】来认识一下：WebLlama

WebLlama是一个基于Meta Llama 3构建的代理，专门为了网页导航和对话进行了微调。它是由McGill University的自然语言处理团队开发的研究项目，旨在通过对话进行网页浏览的智能代理[1][2]。WebLlama的目标是构建有效的人为中心的代理，帮助用户浏览网页，而不是取代用户。它在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能[1]。

2024-04-29 11:04:24 1802

原创【AIGC调研系列】llama3微调具体案例

文本介绍了Llama3模型的微调方法，包括不同的工具和技术，以及如何进行定制化微调，以适应不同的需求和场景。

2024-04-28 14:15:33 1804 1

原创【AIGC调研系列】Sora级别的国产视频大模型-Vidu

Vidu能够达到Sora级别的标准。Vidu被多个来源认为是国内首个Sora级别的视频大模型[2][3][4]。它采用了团队原创的Diffusion与Transformer融合的架构U-ViT，能够生成长达16秒、分辨率高达1080P的高清视频内容[1][6]。此外，Vidu的一致性、运动幅度都达到了Sora水准，尽管时长还比不上Sora的最长60秒，但整体上已经可以对标Sora[1]。然而，也有证据指出Vidu在某些方面略逊于Sora。

2024-04-28 13:41:50 2576 1

原创【AIGC调研系列】浙大&蚂蚁OneKE大模型知识抽取框架是什么

浙大&蚂蚁OneKE大模型知识抽取框架是由蚂蚁集团和浙江大学联合研发的，它是一个具备中英文双语、多领域多任务泛化知识抽取能力的大模型知识抽取框架。OneKE不仅提供了完善的工具链支持，还以开源形式贡献给了OpenKG开放知识图谱社区[1][2][3]。此外，OneKE旨在帮助处理信息抽取、文本数据结构化和知识图谱构建等任务[11][12]。

2024-04-28 08:55:52 2311

原创【AIGC调研系列】Vitron通用像素级视觉多模态LLM是什么

Vitron通用像素级视觉多模态大语言模型是一款重磅的通用视觉多模态大模型，它支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务。这款模型能够处理复杂的视觉任务，并理解和生成图像和视频内容[2]。Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题，包括静态图像和动态视频内容进行的一系列视觉任务[7]。此外，Vitron还被设计用于全面理解（感知和推理）、生成、分割（定位和跟踪）、编辑（修复）静态图像和动态视频内容[8]。

2024-04-26 15:02:26 1664

原创【AIGC调研系列】大型语言模型如何减少幻觉生成

在解读大型语言模型（LLMs）中的长格式事实性问题时，我们首先需要认识到这些模型在生成内容时可能会产生与既定事实不一致的情况，这种情况通常被称为“幻觉”[2][3]。这种现象不仅可能导致信息的误传，还可能对社会造成误导和伤害[3]。因此，提高LLMs的事实性成为了一个重要的研究方向。为了提高LLMs的事实性，研究人员提出了多种方法。一种方法是通过对模型进行微调，使其更加注重事实性，而无需人工标注[2]。另一种方法是通过对比不同层的输出来减少幻觉的生成，这种方法不需要依赖外部知识或额外的微调[13]。

2024-04-26 10:46:12 1979

原创【AIGC调研系列】苹果开源的openELM大模型

苹果公司最近推出了一套名为OpenELM的开源大型语言模型系列，这标志着苹果正式加入了开源大模型的行列。OpenELM包括四种不同参数规模的模型，分别是270M、450M、1.1B和3B，这些模型既可以进行预训练也可以进行指令微调[1][6]。OpenELM的开源行为包括了模型权重、检查点、模型性能统计以及预训练、评估、指令调优和参数高效微调的说明[3]。这一举措不仅展示了苹果在开源领域的贡献，也进一步揭开了其生成式AI战略的神秘面纱[7]。

2024-04-26 08:42:29 1092

原创【AIGC调研系列】Bunny-Llama-3-8B-V与其他多模态大模型相比的优劣

Bunny-Llama-3-8B-V是一个基于Llama-3的多模态大模型，它表现出色，超越了其他多模态大模型，特别是在识别、数学和推理能力方面。然而，它也面临着多模态大模型普遍的问题，如时序理解能力的局限性。

2024-04-25 09:21:04 1380

原创【AIGC调研系列】Phi-3 VS Llama3

2024-04-24日发布的Phi-3系列模型在多个方面展现出了对Llama-3的性能优势。首先，Phi-3-small（7B参数）在MMLU上的得分高于Llama-3-8B-Instruct模型，分别为75.3%和66%[1]。此外，具有3.8B参数的Phi-3 Mini在性能上优于Llama3 8b[3]，并且在多项基准测试中超过了Llama 3 8B[12]。我搜索到的资料表明，在小模型尺寸下，Phi-3系列模型展现出了显著的性能优势。

2024-04-24 10:47:15 2993

原创 gitea是什么，与gitlab和github对比有什么特点

Gitea是一个轻量级的DevOps平台软件，它支持Git托管、代码审查、团队协作、软件包注册和CI/CD等功能。与GitHub和GitLab相比，Gitea的一个显著特点是它提供了自托管的能力，这意味着用户可以完全控制自己的仓库和基础设施，而不需要依赖外部服务提供商[2]。此外，Gitea的设计目标是易于安装和使用，它的性能出色，能够快速响应各种请求，保证用户体验[4]。与GitHub相比，GitHub提供了更友好的用户界面、更广泛的社区和集成选项、可扩展性、定价选项和定制选项。

2024-04-23 08:55:51 4609

原创【AIGC调研系列】Gitlab的Duo Chat与其他辅助编程助手相比的优缺点

GitLab的Duo Chat作为一款AI编程助手，与其他辅助编程助手相比具有一系列的优势和潜在的缺点。GitLab的Duo Chat以其强大的自动化测试、智能代码建议、跨平台集成、隐私保护和合作伙伴关系等特点，在辅助编程助手领域表现出色。然而，其对GitLab生态系统的依赖、技术实现的复杂性以及作为新功能可能存在的不稳定性，也是潜在用户需要考虑的因素。

2024-04-23 08:47:11 2064

原创【AIGC调研系列】llama 3与GPT4相比的优劣点

Llama 3在参数规模、长文本支持、多语言能力和特定任务（如代码生成）上的表现优于GPT-4。而GPT-4则在视觉输入、多模态处理、交互性和理解能力方面展现出优势。因此，选择哪一个模型取决于具体的应用需求和场景。

2024-04-19 09:48:44 5195

原创【AIGC调研系列】Dify平台是什么

Dify平台是一个专为大型语言模型（LLM）开发和运营设计的LLMOps（Large Language Model Operations）平台。它旨在简化AI应用的创建、部署和管理过程，使开发者能够更快速、更轻松地构建和运营基于GPT等模型的AI应用。Dify的核心功能包括可视化的Prompt编排、运营、数据集管理等[2][3]。通过可声明式定义AI应用，Dify支持开发者通过简单的拖拽和配置，将不同的功能模块组合在一起，快速创建出满足需求的AI应用[4]。

2024-04-18 16:54:26 7317 1

原创【AIGC调研系列】敢于挑战Transformer的新架构Megalodon有什么优势

Megalodon的优势在于其无限上下文处理能力、高性能、技术创新、在特定指标上的优越性以及对大规模预训练的有效改进。这些特点使得Megalodon成为敢于挑战并可能超越现有Transformer架构的新选择。

2024-04-18 10:51:24 723

原创【AIGC调研系列】FireCrawl工具是什么

FireCrawl是一个由Mendable.ai开发的项目，它能够抓取任何网站的所有可访问子页面，无需站点地图，并将这些内容转换为干净的Markdown格式[1]。这个工具支持复杂的任务，如处理反向代理、缓存、速率限制以及被JavaScript阻止的内容[2]。此外，使用FireCrawl需要安装Python包并拥有一个FireCrawl API密钥[4]。

2024-04-18 09:28:32 2136

原创【AIGC调研系列】MiniMax 稀宇科技的abab 6.5 系列模型与国外先进模型相比的优缺点

MiniMax稀宇科技的abab 6.5系列模型与国外先进模型相比，具有以下优缺点：优点：缺点：MiniMax稀宇科技的abab 6.5系列模型与GPT-4在特定任务上的性能比较显示，abab 6.5系列模型的核心能力开始接近GPT-4[19]。这表明在经过改进和优化后，abab 6.5系列模型在处理复杂任务的能力上已经取得了显著的进步。特别是，abab 6.5系列模型支持200k tokens的上下文长度，并且能够最快在1秒内处理近3万字的文本[17][20]，这一点对于处理大规模数据尤为重要。

2024-04-17 16:47:12 2891 1

原创流量录制和回放工具AREX

AREX是一款由携程开源的流量录制和回放工具，主要用于自动化回归测试。它通过在生产环境中录制接近全量的业务场景请求和数据，然后在测试环境中回放这些真实的请求和数据，对新版本的应用进行全面、快速的测试[1]。AREX的核心组件是AREX Agent，它通过对入口调用和各个依赖调用的代码进行字节码增强，拦截调用过程，实现服务的录制和回放[2]。AREX的设计初衷是为了降低测试用例编写和测试环境搭建的成本，同时提供了一套详细的官网文档和活跃的社区支持，使得即使是新手也能快速上手[4]。

2024-04-17 16:11:25 2063

DeepSeek技术贯穿研发测试各阶段的全面落地方案

内容概要：本文介绍了 DeepSeek 技术贯穿软件研发测试全流程的具体落地方案。首先，在需求分析阶段运用DeepSeek进行智能化需求建模与冲突预测；其次，在设计验证阶段进行AI驱动架构优化；再则，在编码实现阶段，利用自然语言到代码的转换大幅提高开发效率；然后，在测试验证阶段，构建了智能化、全面的测试体系；最后，在CI/CD阶段提供全流程的自动化支持，确保快速响应生产环境中变化的能力。全文还讨论了DeepSeek如何有效减少研发周期和提升软件质量，并给出了实际应用案例和技术实现细节。适用人群：软件开发工程师、测试工程师、项目经理以及相关技术人员等。使用场景及目标：为企业提供一个全面的研发管理体系，帮助企业更好地理解和实现AI辅助的研发流程优化，提升项目的质量和交付速度，适用于金融、制造、互联网等多个行业。其他说明：文档不仅涵盖了理论概念还有具体的实践经验，为从业者提供了宝贵的学习材料；同时强调了DeepSeek在多个方面的应用价值，包括但不限于需求分析、设计验证、编码实施以及测试部署等方面。

2025-03-07

全球首款通用型AI Agent Manus的技术特性、实践效果及未来发展分析

内容概要：该文档主要介绍了一款名为 Manus 的新型通用型AI Agent及其技术细节和行业影响。Manus是由华人团队Monica.im推出的，被誉为 ‘DeepSeek时刻’的产品，具有从设定目标到完成任务全流程执行的能力。其核心技术包括多代理协作架构、三级代理系统(规划-执行-验证)以及动态多模型调度、云端异步执行、自主学习与记忆、沙盒安全机制等功能，旨在模仿人类的工作流，并实现了比竞争对手更高的任务闭环率和服务成本效率。具体应用场景涵盖旅行规划、股票分析、简历筛选等多个方面，并在用户反馈中表现出显著效率提升的优势。适合人群：对于有兴趣深入了解最新AI技术发展的专业人士、投资者、技术爱好者及研究人员。使用场景及目标：可用于了解最前沿的AI技术趋势及其应用可能性，帮助企业和个人更好地评估是否采纳这一新的数字化劳动力形式，同时也可以为企业管理和业务优化提供借鉴。其他说明：文中还探讨了潜在的社会影响，如对某些低技能岗位可能带来的挑战，呼吁制定相应的对策来缓解这些问题。

2025-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DeepSeek技术贯穿研发测试各阶段的全面落地方案

全球首款通用型AI Agent Manus的技术特性、实践效果及未来发展分析

POE windows端安装包

jan windows客户端

AIGC pi模型windows客户端

空空如也