自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 【职场杂谈】大厂年薪几千万乃至上亿的中高层还有中年危机吗?

中年危机是方方面面的,本质是曾经以为自己可以掌控一切,但到了中年,发现事业、家庭、健康都可能出现不可预测的问题。大厂年薪几千万乃至上亿的中高层虽然不会有普通人的中年经济危机,但是在事业、家庭和健康方面也都会面临中年危机。

2025-04-01 13:01:43 867

原创 【职场杂谈】做程序员怎么快速升职?

做程序员这么多年,接触到的已经快速升职的程序员里,特点各有不同,有的是技术能力强,有的是非常能卷的,有的是大腿抱得好,有的是向上管理做得到位。但是他们都有一个共同特点,那就是“运气好”。所以,要想在程序员这条路上快速升职,说白了,运气是第一生产力。这个行业里,技术牛的、能干活的太多了,但真能一路升得飞快的,往往是赶上了天时地利人和。

2025-04-01 12:58:29 471

原创 微软 GraphRAG 项目学习总结

微软2024年4月份发布了一篇《From Local to Global: A GraphRAG Approach to Query-Focused Summarization》(GraphRAG:从局部到全局的查询式摘要方法)论文,提出了一种名为GraphRAG的检索增强生成(RAG)方法,用于查询式摘要任务。传统的RAG方法主要基于局部检索和生成,可能会忽略不同检索片段之间的全局关系,导致生成的摘要缺乏整体连贯性和深度。

2025-03-27 13:20:58 1164

原创 RAG 综述万字简化版

整个RAG综述,从以知识为中心的视角,对迄今为止在检索增强生成(RAG)领域最重要的研究进行了系统而广泛的综述。提出了一个总体框架,将现有研究组织为核心模块——从知识获取和嵌入到检索和最终答案生成——以减少这个快速发展的领域中的模糊性。深入分析了相关挑战,特别是在知识解析、整合和上下文适应方面,并提出了一种分类方案,包括多模态和记忆增强 RAG 等新兴方法。还识别了关键的未解问题和有前景的研究方向,强调了 RAG 在转变多个领域中的知识密集型应用方面的潜力。希望这篇综述能为读者提供对 RAG 关键组件、主要

2025-03-27 13:16:41 920

原创 【RAG综述系列】之 RAG 应用和未来方向

整个RAG综述,从以知识为中心的视角,对迄今为止在检索增强生成(RAG)领域最重要的研究进行了系统而广泛的综述。提出了一个总体框架,将现有研究组织为核心模块——从知识获取和嵌入到检索和最终答案生成——以减少这个快速发展的领域中的模糊性。深入分析了相关挑战,特别是在知识解析、整合和上下文适应方面,并提出了一种分类方案,包括多模态和记忆增强 RAG 等新兴方法。还识别了关键的未解问题和有前景的研究方向,强调了 RAG 在转变多个领域中的知识密集型应用方面的潜力。希望这篇综述能为读者提供对 RAG 关键组件、主要

2025-03-26 13:13:57 959

原创 【RAG综述系列】之 RAG 先进方法与综合评估

高级 RAG 方法超越基础 RAG 模型,提升系统在训练优化、多模态处理、记忆增强和智能推理方面的能力。关键进展包括RAG 训练(优化检索与生成协同)、多模态 RAG(整合多种感知模态)、记忆 RAG(引入长期记忆提升推理与个性化)、智能 RAG(采用动态优化适应信息变化)。这些方法拓展了 RAG 的应用边界,使其能应对复杂任务。RAG 评估需同时关注有效性(检索相关性、答案连贯性、准确性)和效率(计算资源消耗、响应延迟、可扩展性)。

2025-03-26 13:06:41 547

原创 【RAG综述系列】之 RAG 特点与挑战以及方法与评估

目前文章总结了 RAG 的核心特点和目前面临的调整,还详细介绍了 RAG 核心组件,说明 RAG 系统如何理解用户查询、处理不同类型的知识、将信息转换为向量、构建搜索索引、检索相关内容、将知识与模型整合,并在生成答案时提供适当的引用。后续会继续介绍 RAG 的高级方法以及评估方法。

2025-03-24 16:19:57 740

原创 【RAG综述系列】之 RAG 相关背景和基本原理

文章中回顾了 RAG 的基础概念,并分析当前模型所面临的关键挑战,为理解外部知识与语言生成的融合奠定基础。同时,深入探讨 RAG 的核心原理,详细介绍知识检索、整合和生成的流程。后续会进一步探讨前文提到的知识选择、检索效率及上下文推理等挑战,并分析其复杂性。还有介绍 RAG 的各种方法,包括传统的基于检索的模型,以及更高级的多模态方法,这些方法引入了更强的推理能力和记忆机制。并分析评估 RAG 系统的标准和数据集,并批判性地回顾现有的评测方法与指标。

2025-03-24 16:12:24 924

原创 基于图的检索增强生成(GraphRAG)概述

GraphRAG 通过结合图数据和 RAG 方法,为复杂的信息检索和生成任务提供了新的解决方案。未来的研究应关注如何提高其可扩展性、提高检索效率,并探索更丰富的应用场景。

2025-03-17 13:00:00 932

原创 【职场杂谈】2025 年,科技互联网行业的「蓝海岗位」还有哪些?

随着这几年科技发展迅猛,尤其是人工智能技术,并且真的开始影响到各行各业了,比如智能制造、新能源、数字内容和医疗健康科技等领域。也增加了一些新的岗位,应届生可以根据自己的兴趣和背景选择合适的方向,并通过提升技能、参与项目、积累经验、优化求职材料等方式提升竞争力。

2025-03-13 13:29:40 1041

原创 【职场杂谈】从华为OD招聘黑幕说说外包用工制度与行业深思

华为OD招聘黑幕的曝光揭示了企业外包用工模式的漏洞,一些内部员工利用招聘权力牟利,形成灰色产业链,甚至长期剥削外包员工。华为OD模式兴起于2019年,虽在降本增效方面具备优势,但因合同关系模糊,劳动权益受限,引发争议。全球范围内,劳务外包已成为企业优化成本的重要手段,美国、欧洲和日本等地均有广泛实践,但也带来了核心竞争力下降、工作不稳定、待遇不公等问题。各国通过不同的方式加强监管,以平衡企业灵活用工与劳动者权益保护。

2025-03-13 13:26:57 1008

原创 传统 RAG 的缺点及 RAG 优化方向

传统RAG中在数据、检索、提示词、模型及评估方面都需要进行全面优化,现在RAG 的应用已逐步从传统的“检索-生成”模式向更广泛的全链路优化演进。通过在训练、微调、检索、推理、语料和知识整合等环节引入创新方法,RAG 系统不断突破传统方法的局限,展现出更强的适应性、准确性和可解释性。

2025-03-11 13:05:51 740

原创 2024年RAG关键技术大盘点(9月—11月)

以时间为顺序盘点2024年9月到11月内RAG领域的关键技术突破。总的来说,RAG的发展趋势正朝着更加智能化、结构化和领域化的方向前进。未来的RAG系统将更加注重上下文过滤、知识结构化和领域知识的有效利用,进一步提升复杂任务中的推理能力和生成质量。

2025-03-11 09:15:10 1001

原创 2024年RAG关键技术大盘点(5月—8月)

2024年5月至8月,检索增强生成(RAG)在自然语言处理(NLP)领域的应用和研究进入了一个新的阶段,多个创新性方法和框架不断涌现,推动了RAG技术的多样化和精细化发展。本文详细盘点了论文的主要内容和方法。

2025-03-10 13:59:54 747

原创 2024年RAG关键技术大盘点(1月—4月)

2024年,检索增强生成(Retrieval-Augmented Generation, RAG) 已成为生成式AI领域最热门的技术之一。它不仅弥补了大模型“遗忘性强、幻觉严重”的短板,更在企业级应用、代码生成、金融风控、法律检索等场景中展现出巨大潜力。在这一年,RAG的技术栈迎来了哪些关键突破?本文会以时间为顺序盘点2024年1月到4月内RAG领域的关键技术突破。

2025-03-05 14:02:15 994

原创 【职场杂谈】为什么坚持每天上班?

一个资深牛马打工人,每天坚持上班的核心原因,归根结底还是为了生存,解决最基本的马斯洛需求——吃饭、住房、养家糊口,毕竟没了经济来源,人寸步难行。 但如果说上班只是为了“活着”,那未免有点太过凄惨。所以,我们多少还有点别的追求:有的人想积累经验提升自己,不被时代淘汰;有的人在职场中寻找归属感,让自己不至于与社会脱节;还有的人享受解决问题、创造价值带来的成就感,甚至在加班的缝隙里偷偷憧憬“以后能躺平”。 所以,上班不仅是被迫的责任,也是一种选择——在现实和理想之间,找到自己的节奏,让生活既能维持生计,也不失点希

2025-03-04 14:50:03 277

原创 ComfyUI基本原理与源码解析

ComfyUI 是一个基于 Stable Diffusion 的 Node-based(基于节点流)的可视化界面,它允许用户通过模块化的方式构建、调整和执行 AI 生成流程。相较于传统的文本输入式 Stable Diffusion 界面,ComfyUI 采用了 节点图(Graph-based UI),使得整个 AI 生成流程更加透明、灵活,并便于调试和优化。

2025-03-03 14:50:42 938

原创 【职场杂谈】程序员初入大厂职场信仰崩塌,如何破局?

初入职场时,我们都满怀激情与理想,想着能在一流的技术环境中沉淀自我,打造高质量的代码,成为一名真正的技术专家。然而,现实却给你泼了一盆冷水——可能被随机分配部门、面对屎山代码、无人指导、工作氛围压抑,这些问题让你感到信仰崩塌,甚至对未来失去了方向。如何破局,重新找回自信,坚定在职场上努力向前,是很多职场新人面临的共同难题。

2025-03-02 16:13:42 709

原创 如何最简单、通俗地理解Python的迭代器

编程中,迭代器是一个常见的工具,如果用非编程语言来描述,可以理解成迭代器就像一本书的书签,每次翻页都会记住你读到哪里,下一次继续从这个位置往下读,直到读完为止。在 Python 编程中,迭代器(Iterator)是一个很常见概念。很多初学者看到“迭代器”这个词,就会觉得它很复杂,其实它的核心思想非常简单。

2025-03-02 16:04:39 619

原创 AI 数据集生成和模型微调框架 Distilabel 高级指南:深度功能与最佳实践

本文详细介绍了Distilabel的高级功能和概念,包括数据集定义、Pipeline缓存、离线批量生成、Step间通过文件系统传输数和Ray集群运行Pipeline的方法,以及这些功能的最佳实践。

2025-02-28 14:37:02 1309

原创 AI 数据集生成和模型微调框架 Distilabel 实践: Pipeline实现原理解读

Pipeline是 Distilabel 中用于处理和执行数据处理任务的调度框架,通过定义DAG(有向无环图)结构的步骤(Steps)进行数据处理、任务分配,并支持通过队列、文件系统或 Ray 等分布式系统进行数据传递和计算资源管理,确保高效的分布式执行和结果合成。其实现原理涉及步骤间的数据流、资源调度、并行执行,以及支持数据持久化和缓存管理。

2025-02-27 17:41:57 998

原创 AI 数据集生成和模型微调框架 Distilabel 基础指南:概念与入门(二)

本文详细介绍了Distilabel中LLM和Pipeline这两个概念的定义和使用,后面会详细介绍Distilabel的源码实现和提供的API。

2025-02-26 13:15:33 983

原创 AI 数据集生成和模型微调框架 Distilabel 基础指南:概念与入门(一)

本文总结了Distilabel的核心概念和原理,并详细的说明了Step和Task的定义和使用方法,后面会继续介绍LLM和Pipeline两个概念

2025-02-25 15:30:59 1083

原创 AI 数据集生成和模型微调框架 Distilabel 入门指南:基本概念、安装与快速开始

Distilabel 是一个 AI 反馈框架,既可以生成数据集,也可以使用大语言模型(LLMs)对数据集进行标注。特别适用于基于验证过的研究论文快速构建可靠且可扩展的数据工作流(Pipeline)。它支持广泛的应用场景,包括传统的自然语言处理任务(如分类、信息抽取)以及生成式 AI 和大语言模型(LLM)任务(如指令跟随、对话生成等)。

2025-02-23 16:34:36 1435

原创 上下文感知 AI Agent 将赋予我们的“超能力”

​随着科技的进步,工具正在逐渐演化成真正意义上的“能力”,为我们的生活、工作和思维方式带来前所未有的改变。2025年,我们将从“向人们出售更强大的工具”转向“向人们出售更强大的能力”,这场变革将由上下文感知的 AI Agent(人工智能代理)推动。我们即将进入一个新的时代,在这个时代里,AI Agent 不仅仅是外部的工具,它们将与我们的日常生活无缝融合,赋予我们“超人”般的能力。

2025-02-21 21:10:48 1181

原创 使用 Distilabel 复现 DeepSeek-Prover 详解

本文介绍一个用于合成数据和 AI 反馈的框架 Distilabel 通过构建流水线复现 DeepSeek-Prover 主要步骤的方法

2025-02-20 08:56:31 988

原创 Python PDF神器PyMuPDF使用指南 (八)——基础使用指南

PyMuPDF(fitz)是一个强大的 PDF 处理库,支持高效操作 PDF 文档。本指南通过介绍Document和Page的基本使用方法,以及几个常见用例,包括合并 PDF、提取文本、表格和图片、将图片转换为 PDF,以及截取 PDF 部分页面生成新文件。通过 PyMuPDF,用户可以轻松完成 PDF 的编辑、内容提取和转换,满足各种文档处理需求。无论是批量处理 PDF 还是精准提取信息,PyMuPDF 都能提供高效便捷的解决方案。

2025-02-19 08:48:05 1382

原创 自然语言实现结构化查询的全景解析

​自然语言实现结构化查询任务的目标是将用户对某个数据库的自然语言问题转化为相应的数据分析(SQL/API/Code)查询。随着LLM的发展,使用LLM进行自然语言转换为结构化查询已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的自然语言进行结构化查询能力显得尤为重要。

2025-02-18 11:32:05 824

原创 国产PDF智能提取神器:MinerU项目原理解析和源码走读

MinerU 项目旨在高效提取 PDF 文档中的高质量内容,整合先进的文档解析模型,涵盖布局检测、公式识别、表格提取、OCR 等任务。通过微调不同的文档注释数据,实现跨文档类型的高质量解析。模块化设计允许用户通过配置文件轻松构建应用程序,像堆叠积木一样简便。同时,提供综合评估基准,帮助用户选择最佳模型,确保优化的解析效果。

2025-02-17 09:31:59 1558

原创 Python PDF神器PyMuPDF使用指南 (七)——Page类详解

Page 类是 PyMuPDF 中用于表示 PDF 页面内容的对象,提供了多种方法来操作和提取页面信息。本文介绍了常用方法包括获取页面文本 (get_text())、图像 (get_images())、字体 (get_fonts())、链接 (get_links()) 等。它还支持渲染页面为图片(get_pixmap()),以及插入链接(insert_link())等功能。Page 对象与 Document 类紧密相关,通过 Document[pno] 访问特定页面。

2025-02-16 13:39:40 868

原创 AI 如何改变职场:从增强到重塑工作的未来

人工智能(AI)正在加速改变职场。无论是软件开发、技术写作,还是商业分析,AI 逐渐渗透到各个行业,为员工提供强大的辅助能力。然而,AI 并未完全取代人类,而是更多地承担“增强”角色,以提高生产力、减少重复性任务,并优化决策过程。

2025-02-14 13:33:06 1060

原创 AI 会让人变“笨”吗?

​最近,微软和卡内基梅隆大学的研究人员最近发表了一篇论文《生成式人工智能对批判性思维的影响:来自知识工作者调查的自我报告——认知努力的减少与信心效应》深入探讨了生成型人工智能(GenAI)对知识工作者批判性思维的影响,特别是生成型AI如何影响工作中批判性思维的认知努力以及工作者的信心。

2025-02-13 16:18:31 717

原创 趣味魔法项目 LinuxPDF —— 在 PDF 中启动一个 Linux 操作系统

​最近,一位开源爱好者开发了一个LinuxPDF 项目,它的核心功能是在一个 PDF 文件中启动并运行 Linux 操作系统。它通过巧妙地使用 PDF 文件格式中的 JavaScript 功能,结合 Emscripten 技术,将一个 RISC-V 仿真器嵌入到 PDF 文件中,从而使得 Linux 系统能够在 PDF 中启动。​

2025-02-12 10:19:35 1465

原创 国产PDF智能提取神器:MinerU项目安装运行实践

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。本文介绍了运行MinerU项目的基本方法实践过程,后面会进一步分析和走读MinerU项目的源码。

2025-02-11 14:31:47 2970

原创 Python PDF神器PyMuPDF使用指南 (六)——Document类详解

本文详细介绍了PyMupdf中的Document类的各个方法和属性,便于Python调用参考。后续会继续介绍更多的类的详情和调用方法。

2025-02-10 13:32:39 1271

原创 Python PDF神器PyMuPDF使用指南 (五)——命令行使用

本文详细的介绍了使用命令行的方式使用PyMuPDF,后面会继续介绍使用Python库调用PyMuPDF的详细方法。

2025-02-09 10:39:02 1346

原创 Python PDF神器PyMuPDF使用指南 (四)——绘图、多线程和OCR功能

本文详细介绍了PyMuPDF的绘图、多线程和OCR提取文字的功能,后面还会继续介绍更多功能。

2025-02-08 11:05:59 1202

原创 Python PDF神器PyMuPDF使用指南 (三)——图像和注释功能

PyMuPDF图片处理和注释处理的详细功能介绍

2025-02-07 11:24:27 1441

原创 Python PDF神器PyMuPDF使用指南 (二)——文件和文本功能

前文介绍了PyMuPDF基本的安装和基础的功能,本文将详细介绍PyMuPDF处理PDF(和其他)文档的打开文件和文本处理功能。

2025-02-06 14:21:11 1473

原创 Python PDF神器PyMuPDF使用指南 (一)——安装和基础功能

介绍Python PDF处理申请PyMuPDF的基本安装方法和功能使用。

2025-02-05 11:57:26 1941

From Local to Global A Graph RAG Approach to Query-Focused Summarization.pdf

这篇论文是微软提出的一种创新的检索增强生成(RAG)方法,称为GraphRAG。该方法旨在增强大型语言模型(LLM)在处理私有文本语料库时的问答能力,特别是针对全局性问题,如“数据集的主要主题是什么?”。

2025-03-04

Which Economic Tasks are Performed with AI.pdf

最近,Anthropic 公司发布了一份研究报告——《Which Economic Tasks are Performed with AI? Evidence from Millions of Claude Conversations》,基于数百万次与 AI 助手 Claude 的匿名对话,分析了 AI 在不同职业中的使用情况。这一研究提供了前所未有的量化视角,揭示了 AI 在职场的真正影响。 这也说明,人工智能(AI)正在加速改变职场。无论是软件开发、技术写作,还是商业分析,AI 逐渐渗透到各个行业,为员工提供强大的辅助能力。然而,AI 并未完全取代人类,而是更多地承担“增强”角色,以提高生产力、减少重复性任务,并优化决策过程。

2025-02-20

DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data.pdf

这篇论文介绍了一种用于从非正式数学问题生成定理证明的方法。通过生成大规模 Lean 4 证明数据,提升 LLM 在形式化定理证明上的能力。论文中构建了包含 800 万条带证明数学陈述的合成数据集,并微调 DeepSeekMath 7B,使其在 Lean 4 miniF2F 测试中的证明生成准确率达 52%,超越 GPT-4(23%)。在 Lean 4 FIMO 基准测试中,模型成功证明 5 题,而 GPT-4 无一成功。研究表明,大规模合成数据能显著增强 LLM 的数学推理能力,展示了使用合成数据提升模型定理证明能力的潜力。

2025-02-20

生成式 AI 对批判性思维的影响:知识工作者调查中的认知努力减少与信心效应.pdf

这篇论文原名为《The Impact of Generative AI on Critical Thinking Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers》研究了生成式 AI(如 ChatGPT)对知识工作者批判性思维的影响。研究通过调查的方式收集数据,分析了人们在使用 AI 生成内容时的认知努力和自信心变化。主要发现包括: 1、认知努力减少:受访者普遍认为使用 AI 让任务变得更轻松,减少了思考的负担。 2、信心效应:尽管 AI 提供的信息并不总是准确,但使用者往往对 AI 生成的内容更有信心,甚至可能低估了自己的判断能力。 3、批判性思维的变化:长期依赖 AI 可能会削弱独立分析和批判性思考的能力,同时影响决策质量。 论文强调,虽然生成式 AI 可以提高工作效率,但也需要警惕其对思维能力的潜在负面影响。

2025-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除