
数据分析
文章平均质量分 93
计算所陈老师
18年编程经验,中科院计算所工程师、架构师,主持或参与多项重大课题项目,主要研究方向为大模型与RAG(检索增强生成)、知识图谱等,目前为大数据分析系统(GoIN 3.0)负责人。
展开
-
SmartETL函数式组件的设计与应用
阐述SmartETL框架中的函数式组件设计。将核心处理逻辑实现为函数,可以提高开发效率,有效提升组件和流程的复用性原创 2025-05-18 23:06:26 · 893 阅读 · 0 评论 -
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(四)
本系列文章讨论了arXiv论文数据采集和预处理的相关技术,实现了对arXiv论文内容抽取以及建立向量化索引,通过Kafka消息中间件实现了各处理环节的解耦,更加方便实际业务中使用。整个流程基于SmartETL框架进行开发,同时也对SmartETL框架进行了完善。相关代码已经全部推送到SmartETL项目,具体流程定义在这里,欢迎下载体验。原创 2025-04-29 21:26:10 · 1290 阅读 · 0 评论 -
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(三)
介绍基于SmartETL框架实现arXiv论文数据接入处理,支持采集、下载、论文信息抽取、建立向量索引等原创 2025-04-20 22:39:01 · 1131 阅读 · 0 评论 -
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(二)
上一篇 文章介绍了arXiv采集处理的任务背景、整体需求,并对数据进行了调研。本文介绍整体方案设计。基于上述调研了解的情况,针对工作需求设计处理流程如下:由于流程较为复杂,如果采用普通的串行流程,虽然可以实现业务功能,但存在性能不佳、更新数据不及时、添加采集任务不灵活等问题。(思考:为什么会有这些问题?)很容易想到的解决办法是将流程拆分,分为论文采集流程、论文解析流程和建索引流程,通过不同的并行调度策略,分别进行优化。但是流程拆分马上产生一个问题:**前后流程如何衔接?**即前一个流程的数据如何输入到后一个原创 2025-04-12 22:47:34 · 1018 阅读 · 0 评论 -
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(一)
通过对arXiv论文进行采集、处理和分析,可以帮助我们了解前沿热门技术、分析技术研究的演化脉络、构建学术合作网络、辅助开展科研等。本文介绍对arXiv数据进行分析,对数据处理进行设计,并基于SmartETL框架进行数据处理,实现arXiv数据的采集、抽取、向量化处理原创 2025-04-06 22:05:16 · 1666 阅读 · 0 评论 -
新闻发布时间抽取(二)
本文讨论了更多新闻网页发布时间的抽取方法,开展了相关实验,并对实验结果进行了案例分析。原创 2025-03-23 22:14:47 · 1047 阅读 · 0 评论 -
SmartETL:大模型赋能的开源情报数据处理框架(6)
SmartETL:一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。原创 2025-02-07 17:34:58 · 999 阅读 · 0 评论 -
SmartETL:大模型赋能的开源情报数据处理框架(5)
一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类、离线分析计算、等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。原创 2025-01-25 00:04:27 · 713 阅读 · 0 评论 -
SmartETL:大模型赋能的开源情报数据处理框架(3)
SmartETL是一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供WikidataWikipediaGDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置**50+**常用流程、**180+**常用ETL算子、**10+**领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。原创 2025-01-20 10:24:55 · 824 阅读 · 0 评论 -
GoIN面向教学实验场景的性能问题与优化
将本来面向情报分析场景设计的GOIN应用在教学实验场景中,遇到了严重的技术问题,进行了初步优化原创 2022-11-09 22:15:35 · 604 阅读 · 1 评论 -
Wikidata知识图谱介绍与数据处理
1. Wikidata简介Wikidata(维基数据)是一个自由开放的知识库,可以同时被人和机器阅读、编辑[1]。根据官网介绍,Wikidata作为一种结构化数据的集中存储,为其他维基媒体(Wikimedia)项目[2]提供支撑,包括Wikipedia(维基百科)、Wikivoyage(维基导游)、Wiktionary(维基字典)、Wikisource(维基文库)等。就像维基百科一样,Wikidata 支持自由协作编辑,支持多语言。与维基百科不同的是,Wikidata作为知识库,其内容都是结构化原创 2021-09-30 19:03:56 · 22555 阅读 · 21 评论