计算所陈老师-优快云博客

转载【转】Andrej Karpathy：2025大模型年终回顾

2025年AI领域迎来六大变革：1. 训练方法升级为四步范式，新增RLVR（可验证奖励强化学习），让AI自主探索解题策略；2. AI智能呈现"锯齿状"特征，在可验证领域表现突出；3. LLM应用层崛起，形成专业场景解决方案；4. AI开始本地化部署，与用户深度协同；5. "Vibe Coding"兴起，编程门槛大幅降低；6. 大模型交互进入"图形界面时代"，多模态交互成为趋势。这些变化显示AI既比预期聪明又比预期局限，但仍有90%潜力待开发，技术演

2025-12-21 15:24:25 12

翻译【转】Andrew Ng：大模型的发展充满挑战但也充满乐趣

大语言模型（LLM）虽展现通用能力，但知识获取仍依赖碎片化的人工优化。当前LLM的进步需要针对特定任务进行数据收集、清理和强化训练，远未达到人类自然学习的泛化水平。人类通过多模态输入和持续反馈实现更广泛的知识迁移，而LLM仍受限于文本处理和模拟训练。未来突破或将带来更整体的进步，但现阶段仍需接受渐进式改进的现实。构建更智能的模型仍是漫长而充满挑战的探索过程。

2025-12-21 15:14:21 11

原创 Palantir的核心是Ontology

本文探讨了知识图谱技术从传统语义网到现代Ontology平台的演进。传统知识图谱（如Google Knowledge Graph）依赖专家构建和静态知识表达，而Ontology平台实现了本体层与实例层的结合，通过NLP和大模型技术实现自动化构建。其创新点在于：1）支持对象、事件等静态知识与函数、行动等动态知识；2）丰富的数据类型（GEO、时序、向量等）和混合存储架构；3）自洽的元知识管理体系，实现业务逻辑与数据管理的无缝衔接。这种全面的知识表示和处理能力使Ontology成为AIP核心，大幅减少定制开发需求

2025-12-05 23:23:55 664

原创 SmartETL循环流程的设计与应用

本文面向DeepSearch应用的迭代处理需求，基于SmartETL框架设计了循环流程控制，使得支持部分子流程的循环处理。通过设计DeepSearch流程，验证了循环流程的有效性，并为其他具有循环结构的数据处理流程提供了参考。

2025-07-21 22:42:33 747 1

原创 SmartETL中数据库操作与流程解耦的设计与应用

本文阐述了[SmartETL项目](https://github.com/ictchenbo/SmartETL)中的数据库与流程解耦的设计，包括动机、目的、设计思路、应用案例。作为软件设计中的一条基本原则，高内聚、松耦合是我们持续追求的目标，也只有好的设计，才能让我们的代码能够易于维护与扩展，从而快速响应业务需求，降低开发成本。

2025-06-28 21:37:23 1043

原创 SmartETL函数式组件的设计与应用

阐述SmartETL框架中的函数式组件设计。将核心处理逻辑实现为函数，可以提高开发效率，有效提升组件和流程的复用性

2025-05-18 23:06:26 971

原创基于论文的大模型应用：基于SmartETL的arXiv论文数据接入与预处理（四）

本系列文章讨论了arXiv论文数据采集和预处理的相关技术，实现了对arXiv论文内容抽取以及建立向量化索引，通过Kafka消息中间件实现了各处理环节的解耦，更加方便实际业务中使用。整个流程基于SmartETL框架进行开发，同时也对SmartETL框架进行了完善。相关代码已经全部推送到SmartETL项目，具体流程定义在这里，欢迎下载体验。

2025-04-29 21:26:10 1367

原创基于论文的大模型应用：基于SmartETL的arXiv论文数据接入与预处理（三）

介绍基于SmartETL框架实现arXiv论文数据接入处理，支持采集、下载、论文信息抽取、建立向量索引等

2025-04-20 22:39:01 1288

原创基于论文的大模型应用：基于SmartETL的arXiv论文数据接入与预处理（二）

上一篇文章介绍了arXiv采集处理的任务背景、整体需求，并对数据进行了调研。本文介绍整体方案设计。基于上述调研了解的情况，针对工作需求设计处理流程如下：由于流程较为复杂，如果采用普通的串行流程，虽然可以实现业务功能，但存在性能不佳、更新数据不及时、添加采集任务不灵活等问题。（思考：为什么会有这些问题？）很容易想到的解决办法是将流程拆分，分为论文采集流程、论文解析流程和建索引流程，通过不同的并行调度策略，分别进行优化。但是流程拆分马上产生一个问题：**前后流程如何衔接？**即前一个流程的数据如何输入到后一个

2025-04-12 22:47:34 1235

原创基于论文的大模型应用：基于SmartETL的arXiv论文数据接入与预处理（一）

通过对arXiv论文进行采集、处理和分析，可以帮助我们了解前沿热门技术、分析技术研究的演化脉络、构建学术合作网络、辅助开展科研等。本文介绍对arXiv数据进行分析，对数据处理进行设计，并基于SmartETL框架进行数据处理，实现arXiv数据的采集、抽取、向量化处理

2025-04-06 22:05:16 2063

原创新闻发布时间抽取（二）

本文讨论了更多新闻网页发布时间的抽取方法，开展了相关实验，并对实验结果进行了案例分析。

2025-03-23 22:14:47 1139

原创新闻发布时间抽取分析

gne是一款对新闻网页（主要针对中文网页）的信息抽取Python库。本文基于gne进行新闻发布时间抽取实验，并对gne抽取规则进行完善，同时补充实现了基于JSON-LD数据的时间抽取，提高了抽取的召回率和准确率。

2025-03-17 13:10:56 1253

原创新闻网页信息抽取

介绍了网页信息抽取基本知识，重点对新闻网页的时间抽取进行分析和实验，给出较好的抽取步骤

2025-03-13 23:22:44 1558

原创 DeepSeek不仅可以写诗作文，也可以取名字！#凑热点# #DeepSeek#

最近对SmartETL（https://github.com/ictchenbo/SmartETL/）持续改进，在想对数据处理能不能提一个新的术语名词？我需要一个简单的概念，能够表示数据处理，包括加载、转换、过滤、清洗、计算、分析等等。：帮我构造一个简单的英文单词，表示数据处理的基本操作嗯，用户让我帮忙构造一个简单的英文单词，用来表示数据处理的基本操作。首先，我需要理解用户的需求。他们可能是在开发某种软件、工具，或者是在写论文时需要术语。数据处理的基本操作通常包括收集、清洗、分析、存储等等。

2025-02-27 11:00:23 800

原创 SmartETL：大模型赋能的开源情报数据处理框架（6）

SmartETL：一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架，提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程；支持大模型、API、常见文件、数据库等多种输入输出及转换处理，支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程，覆盖常见数据处理需求。项目源码已经开放在。

2025-02-07 17:34:58 1100

原创 SmartETL：大模型赋能的开源情报数据处理框架（5）

一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架，提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程；支持大模型、API、常见文件、数据库等多种输入输出及转换处理，支撑各类、离线分析计算、等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程，覆盖常见数据处理需求。项目源码已经开放在。

2025-01-25 00:04:27 953

原创 SmartETL：大模型赋能的开源情报数据处理框架（4）

SmartETL：一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架，提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程；支持大模型、API、常见文件、数据库等多种输入输出及转换处理，支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程，覆盖常见数据处理需求。项目源码已经开放在SmartETL。

2025-01-23 22:52:05 1163

原创 SmartETL：大模型赋能的开源情报数据处理框架（3）

SmartETL是一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架，提供WikidataWikipediaGDELT等多种开源情报数据的处理流程；支持大模型、API、常见文件、数据库等多种输入输出及转换处理，支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置**50+**常用流程、**180+**常用ETL算子、**10+**领域特色数据处理流程，覆盖常见数据处理需求。项目源码已经开放在。

2025-01-20 10:24:55 986

原创 SmartETL：大模型赋能的开源情报数据处理框架（2）

SmartETL：一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架，提供Wikidata/Wikipedia/GDELT等多种开源情报数据的处理流程；支持大模型、API、常见文件、数据库等多种输入输出及转换处理，支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程，覆盖常见数据处理需求。

2025-01-19 00:31:31 1340

原创关于复用性的思考——针对项目部署问题有感而发

关于开发的复用性的思考，包括几个层次：工具化/组件化、服务化、框架化、系统化、平台化

2024-12-24 21:17:47 486

原创 Wikidata-filter：大模型赋能的开源情报数据处理框架（1）

Wikidata-filter是一个简单实用、灵活可配、开箱即用的Python数据处理（ETL）框架。项目提供了Wikidata、Wikipedia、GDELT、新闻、民调等等多源异构开源情报数据的处理流程，支持大模型、API、常见文件、数据库等多种输入输出及转换处理，可以支撑各类数据接入、大数据处理、AI智能分析任务。

2024-11-09 23:57:19 1555

原创大模型时代的科研思考（11.02）

大模型智能化时代，对于如何科研、做出独特贡献的思考

2024-11-02 11:58:19 408

原创大模型相关的三个研究方向

对于大模型应用的三个研究方向的理解：RAG、生成式检索、可信获取

2024-09-11 12:05:31 1599 1

原创 GoIN面向教学实验场景的性能问题与优化

将本来面向情报分析场景设计的GOIN应用在教学实验场景中，遇到了严重的技术问题，进行了初步优化

2022-11-09 22:15:35 689

原创近期某项目的问题总结与思考

一个教学实验场景的大数据分析系统项目，过程中遇到的项目遇到的很多问题。

2022-11-06 12:51:57 433

原创工作思考 2022.10.09

真实业务场景、海量真实数据，正适合磨练系统技术能力。有用的技术才是好的技术，掌握了有用技术的人，才是真正的人才。

2022-10-21 12:15:24 277

原创工作思考 2022.09.24

技术和业务是分割不开的，用户不会只为先进的技术买单，反过来，只有我们能够真正地理解业务、理解用户痛点并努力想办法为客户解决问题，用户才愿意为我们的产品和技术支付成本。

2022-10-12 18:39:35 189

原创工作思考 2022.09.09

经济寒冬下，要更加注意学习和积累，一旦经济复苏机会来临，我们每个人、我们团队、我们公司才能是Ready状态。我们应该认真思考一下如何进行提升，提升我们个人的能力，提升我们的产品力。

2022-10-10 14:19:54 131

原创关于魔镜系统的故事

6年前设计开发的一套系统，近三年没有维护，由于数据量大现在一个搜索能卡10秒钟，但用户至今还在用，为什么？

2022-09-30 16:32:29 495

原创基于规则的结构化数据知识抽取（三）

本文是基于规则的结构化数据知识抽取专题的第三篇，介绍知识抽取的交互设计知识图谱概念本身很容易理解，但是其建模设计、知识抽取、知识融合等过程较为复杂，如果能够通过WYSWYG（所见即所得）的方式指引用户，将为应用带来极大便利。与本文内容最相关的是规则配置界面，通过设计交互界面，方便用户进行规则配置，此功能又称为本体映射。传统的信息化系统界面往往采用表单方式，配置过程枯燥繁琐，不易发现错误。1.界面要素界面的核心元素包括：图谱模式画布：图谱模式就是要构建的图谱的Schema。用图谱形式直观.

2021-10-26 15:58:13 1472

原创基于规则的结构化数据知识抽取（二）

为了方便阅读，本文分成三篇文章进行发布，本文介绍抽取程序设计根据前文设计的抽取规则，基于面向对象思想，采用Java语言设计开发，实现了较好的程序结构设计。主体程序设计UML设计如下：设计说明：RowData作为核心数据结构，表示表中的一行数据，其他类都需要与RowData交互。为了便于实际数据格式扩展，RowData设计为接口，其方法getValue用于根据字段名获取字段值，并提供两个实现：RowDataFlat和RowDataKV，RowDataFlat表示普通JSON对象格式

2021-10-17 01:06:13 1542

原创基于规则的结构化数据知识抽取（一）

为了方便阅读，本文分成三篇文章进行发布，本文先介绍技术背景、统一数据格式设计和规则设计；第二篇介绍抽取程序设计；第三篇介绍规则配置交互设计1. 背景知识抽取是从数据中提炼、萃取知识信息的过程。按照数据的结构化程度，分为结构化数据知识抽取、半结构化数据知识抽取和非结构化数据知识抽取。最常见的结构化数据是表格式数据，在传统的信息化系统中存在的大量关系数据库库表数据都是表格式数据，尽管其中一些字段可能是文本、二进制数据（即非结构化的），但总体来都认为是结构化数据。另外常见的Excel表单、Word/P

2021-10-12 19:26:35 5268 2

原创 Wikidata知识图谱介绍与数据处理

1. Wikidata简介Wikidata（维基数据）是一个自由开放的知识库，可以同时被人和机器阅读、编辑[1]。根据官网介绍，Wikidata作为一种结构化数据的集中存储，为其他维基媒体（Wikimedia）项目[2]提供支撑，包括Wikipedia（维基百科）、Wikivoyage（维基导游）、Wiktionary（维基字典）、Wikisource（维基文库）等。就像维基百科一样，Wikidata 支持自由协作编辑，支持多语言。与维基百科不同的是，Wikidata作为知识库，其内容都是结构化

2021-09-30 19:03:56 25452 22

原创知识图谱的时空关联设计

1. 背景知识图谱可以应用在多个业务场景中，对各类对象进行表示、建模。作为一类重要的知识，空间信息在应用中经常需要用到，由此知识图谱与时空关联成为一种重要的应用形式，具备较好的可视化展示效果。一种典型应用场景是情报分析。对目标人物、目标组织和目标事件在时空上进行可视化呈现，查看目标人物的活动轨迹，分析事件发生的空间趋势，检索区域内的相关对象和事件，等等都是非常有用的功能。传统上，一般采用GIS系统进行针对性设计，在空间对象上关联具体对象信息。Palantir是比较早地将知识图谱与GIS技术进行结

2021-09-13 00:26:33 3736

原创一种基于JSON语法的JSON数据转换器

1. 项目背景最近产品研发中我们设计了一个算法集成规范，定义了一个统一的算法服务API接口，并通过产品的“模型管理”模块进行算法服务的配置，从而实现外部算法服务的灵活集成与扩展。这个模式对于新开发的算法是没有问题的，按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法，或者遇到客户比较强势不愿意改自己接口的时候，就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢？另外，网上有很多开放的API服务，可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同，如何

2021-09-05 01:22:15 764 1

原创一个简单可扩展的python数据处理框架

0. 背景知识图谱构建是指从原始数据到结构化图谱的数据抽取、转换的过程。由于原始数据来源众多、结构不统一、数据语义不一致，因此在整个知识图谱系统的建设过程中，往往是最为复杂的环节，但又是必不可少的环节。GoIN系统是由中科院计算所天玑团队研发的知识图谱分析产品，核心数据处理流程就是知识抽取和图谱构建。在之前的产品设计中，这个过程被设计为交互式的，用户通过界面上传数据、配置规则，调用后台的抽取服务最终形成图谱，这样最大的问题是图谱规模受到限制。另外一个问题是抽取服务中很多业务逻辑是固化的，隐藏在

2021-09-03 00:32:34 1100

weixin_40338859的博客