自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(一)

通过对arXiv论文进行采集、处理和分析,可以帮助我们了解前沿热门技术、分析技术研究的演化脉络、构建学术合作网络、辅助开展科研等。本文介绍对arXiv数据进行分析,对数据处理进行设计,并基于SmartETL框架进行数据处理,实现arXiv数据的采集、抽取、向量化处理

2025-04-06 22:05:16 1007

原创 新闻发布时间抽取(二)

本文讨论了更多新闻网页发布时间的抽取方法,开展了相关实验,并对实验结果进行了案例分析。

2025-03-23 22:14:47 1024

原创 新闻发布时间抽取分析

gne是一款对新闻网页(主要针对中文网页)的信息抽取Python库。本文基于gne进行新闻发布时间抽取实验,并对gne抽取规则进行完善,同时补充实现了基于JSON-LD数据的时间抽取,提高了抽取的召回率和准确率。

2025-03-17 13:10:56 1069

原创 新闻网页信息抽取

介绍了网页信息抽取基本知识,重点对新闻网页的时间抽取进行分析和实验,给出较好的抽取步骤

2025-03-13 23:22:44 1037

原创 DeepSeek不仅可以写诗作文,也可以取名字!#凑热点# #DeepSeek#

最近对SmartETL(https://github.com/ictchenbo/SmartETL/)持续改进,在想对数据处理能不能提一个新的术语名词?我需要一个简单的概念,能够表示数据处理,包括加载、转换、过滤、清洗、计算、分析等等。:帮我构造一个简单的英文单词,表示数据处理的基本操作嗯,用户让我帮忙构造一个简单的英文单词,用来表示数据处理的基本操作。首先,我需要理解用户的需求。他们可能是在开发某种软件、工具,或者是在写论文时需要术语。数据处理的基本操作通常包括收集、清洗、分析、存储等等。

2025-02-27 11:00:23 625

原创 SmartETL:大模型赋能的开源情报数据处理框架(6)

SmartETL:一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。

2025-02-07 17:34:58 944

原创 SmartETL:大模型赋能的开源情报数据处理框架(5)

一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类、离线分析计算、等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。

2025-01-25 00:04:27 668

原创 SmartETL:大模型赋能的开源情报数据处理框架(4)

SmartETL:一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata / Wikipedia / GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在SmartETL。

2025-01-23 22:52:05 945

原创 SmartETL:大模型赋能的开源情报数据处理框架(3)

SmartETL是一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供WikidataWikipediaGDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置**50+**常用流程、**180+**常用ETL算子、**10+**领域特色数据处理流程,覆盖常见数据处理需求。项目源码已经开放在。

2025-01-20 10:24:55 751

原创 SmartETL:大模型赋能的开源情报数据处理框架(2)

SmartETL:一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架,提供Wikidata/Wikipedia/GDELT等多种开源情报数据的处理流程;支持大模型、API、常见文件、数据库等多种输入输出及转换处理,支撑各类数据集成接入、大数据处理、离线分析计算、AI智能分析、知识图谱构建等任务。项目内置50+常用流程、180+常用ETL算子、10+领域特色数据处理流程,覆盖常见数据处理需求。

2025-01-19 00:31:31 799

原创 关于复用性的思考——针对项目部署问题有感而发

关于开发的复用性的思考,包括几个层次:工具化/组件化、服务化、框架化、系统化、平台化

2024-12-24 21:17:47 426

原创 Wikidata-filter:大模型赋能的开源情报数据处理框架(1)

Wikidata-filter是一个简单实用、灵活可配、开箱即用的Python数据处理(ETL)框架。项目提供了Wikidata、Wikipedia、GDELT、新闻、民调等等多源异构开源情报数据的处理流程,支持大模型、API、常见文件、数据库等多种输入输出及转换处理,可以支撑各类数据接入、大数据处理、AI智能分析任务。

2024-11-09 23:57:19 1200

原创 大模型时代的科研思考(11.02)

大模型智能化时代,对于如何科研、做出独特贡献的思考

2024-11-02 11:58:19 359

原创 大模型相关的三个研究方向

对于大模型应用的三个研究方向的理解:RAG、生成式检索、可信获取

2024-09-11 12:05:31 715 1

原创 GoIN面向教学实验场景的性能问题与优化

将本来面向情报分析场景设计的GOIN应用在教学实验场景中,遇到了严重的技术问题,进行了初步优化

2022-11-09 22:15:35 573

原创 近期某项目的问题总结与思考

一个教学实验场景的大数据分析系统项目,过程中遇到的项目遇到的很多问题。

2022-11-06 12:51:57 314

原创 工作思考 2022.10.09

真实业务场景、海量真实数据,正适合磨练系统技术能力。有用的技术才是好的技术,掌握了有用技术的人,才是真正的人才。

2022-10-21 12:15:24 249

原创 工作思考 2022.09.24

技术和业务是分割不开的,用户不会只为先进的技术买单,反过来,只有我们能够真正地理解业务、理解用户痛点并努力想办法为客户解决问题,用户才愿意为我们的产品和技术支付成本。

2022-10-12 18:39:35 156

原创 工作思考 2022.09.09

经济寒冬下,要更加注意学习和积累,一旦经济复苏机会来临,我们每个人、我们团队、我们公司才能是Ready状态。我们应该认真思考一下如何进行提升,提升我们个人的能力,提升我们的产品力。

2022-10-10 14:19:54 100

原创 关于魔镜系统的故事

6年前设计开发的一套系统,近三年没有维护,由于数据量大现在一个搜索能卡10秒钟,但用户至今还在用,为什么?

2022-09-30 16:32:29 449

原创 基于规则的结构化数据知识抽取(三)

本文是基于规则的结构化数据知识抽取专题的第三篇,介绍知识抽取的交互设计知识图谱概念本身很容易理解,但是其建模设计、知识抽取、知识融合等过程较为复杂,如果能够通过WYSWYG(所见即所得)的方式指引用户,将为应用带来极大便利。与本文内容最相关的是规则配置界面,通过设计交互界面,方便用户进行规则配置,此功能又称为本体映射。传统的信息化系统界面往往采用表单方式,配置过程枯燥繁琐,不易发现错误。1.界面要素界面的核心元素包括:图谱模式画布:图谱模式就是要构建的图谱的Schema。用图谱形式直观.

2021-10-26 15:58:13 1209

原创 基于规则的结构化数据知识抽取(二)

为了方便阅读,本文分成三篇文章进行发布,本文介绍抽取程序设计根据前文设计的抽取规则,基于面向对象思想,采用Java语言设计开发,实现了较好的程序结构设计。主体程序设计UML设计如下:设计说明:RowData作为核心数据结构,表示表中的一行数据,其他类都需要与RowData交互。为了便于实际数据格式扩展,RowData设计为接口,其方法getValue用于根据字段名获取字段值,并提供两个实现:RowDataFlat和RowDataKV,RowDataFlat表示普通JSON对象格式

2021-10-17 01:06:13 1257

原创 基于规则的结构化数据知识抽取(一)

为了方便阅读,本文分成三篇文章进行发布,本文先介绍技术背景、统一数据格式设计和规则设计;第二篇介绍抽取程序设计;第三篇介绍规则配置交互设计1. 背景知识抽取是从数据中提炼、萃取知识信息的过程。按照数据的结构化程度,分为结构化数据知识抽取、半结构化数据知识抽取和非结构化数据知识抽取。最常见的结构化数据是表格式数据,在传统的信息化系统中存在的大量关系数据库库表数据都是表格式数据,尽管其中一些字段可能是文本、二进制数据(即非结构化的),但总体来都认为是结构化数据。另外常见的Excel表单、Word/P

2021-10-12 19:26:35 4599 2

原创 Wikidata知识图谱介绍与数据处理

1. Wikidata简介Wikidata(维基数据)是一个自由开放的知识库,可以同时被人和机器阅读、编辑[1]。根据官网介绍,Wikidata作为一种结构化数据的集中存储,为其他维基媒体(Wikimedia)项目[2]提供支撑,包括Wikipedia(维基百科)、Wikivoyage(维基导游)、Wiktionary(维基字典)、Wikisource(维基文库)等。就像维基百科一样,Wikidata 支持自由协作编辑,支持多语言。与维基百科不同的是,Wikidata作为知识库,其内容都是结构化

2021-09-30 19:03:56 21546 20

原创 知识图谱的时空关联设计

1. 背景知识图谱可以应用在多个业务场景中,对各类对象进行表示、建模。作为一类重要的知识,空间信息在应用中经常需要用到,由此知识图谱与时空关联成为一种重要的应用形式,具备较好的可视化展示效果。一种典型应用场景是情报分析。对目标人物、目标组织和目标事件在时空上进行可视化呈现,查看目标人物的活动轨迹,分析事件发生的空间趋势,检索区域内的相关对象和事件,等等都是非常有用的功能。传统上,一般采用GIS系统进行针对性设计,在空间对象上关联具体对象信息。Palantir是比较早地将知识图谱与GIS技术进行结

2021-09-13 00:26:33 3386

原创 一种基于JSON语法的JSON数据转换器

1. 项目背景最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何

2021-09-05 01:22:15 596 1

原创 一个简单可扩展的python数据处理框架

0. 背景知识图谱构建是指从原始数据到结构化图谱的数据抽取、转换的过程。由于原始数据来源众多、结构不统一、数据语义不一致,因此在整个知识图谱系统的建设过程中, 往往是最为复杂的环节,但又是必不可少的环节。GoIN系统是由中科院计算所天玑团队研发的知识图谱分析产品,核心数据处理流程就是知识抽取和图谱构建。在之前的产品设计中,这个过程被设计为交互式的,用户通过界面上传数据、配置规则,调用后台的抽取服务最终形成图谱,这样最大的问题是图谱规模受到限制。另外一个问题是抽取服务中很多业务逻辑是固化的,隐藏在

2021-09-03 00:32:34 891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除