- 博客(9)
- 收藏
- 关注
原创 数据标注研究
首先数据标注是为原始数据(文本、图像、音频、视频等)添加标签或注释的过程,使其成为带有语义信息的结构化数据,供机器学习模型训练使用。文本:为句子标注情感极性(正面/负面)或实体类型(人名、地名)。eg:南京市长江大桥南京市-->城市名c 长江大桥-->地名/景点d南京-->城市名c 市长-->职务名r 江大桥-->人名peg:句子1:我喜欢黄景瑜;句子2:这家外卖不好吃word:我 喜欢 黄景瑜 label:positive。
2025-08-21 10:55:17
1976
原创 知识图谱调研
知识图谱与RAG技术调研摘要 知识图谱是一种结构化语义知识库,通过"实体-关系-实体"三元组表示知识。其构建流程包括知识建模、存储、抽取、融合、计算和应用6个环节。在技术实现上,开源工具链覆盖了从文本标注(BRAT、Doccano)、数据处理(jieba、Spacy)、图谱存储(Neo4j、NebulaGraph)到知识计算(DGL、PyG)的全流程。 RAG(检索增强生成)技术结合了信息检索与生成模型,传统RAG在处理复杂关系推理时存在局限。新兴的GraphRAG等方案引入知识图谱结构
2025-07-31 11:08:59
1627
原创 机器学习——KNN算法
准备数据# 实例化模型knn=KNeighborsClassifier(n_neighbors=3) # k=3选取要预测的值在内的周围三个出现次数最多的类别# 模型训练# 模型预测。
2024-05-07 12:10:41
1247
1
原创 数据可视化
通过发现上面绘制过程其实很简单,就是通过特定的API,数据.plot.对应的绘制图形函数,举例:hist直方图,line折线图,box箱线图,area面积图,pie饼图,scatter散点图,kde和密度估计图等,后面会详细介绍的哦参数解释:figsize画布大小,fontsize字体大小,kind图形种类,
2024-05-06 16:36:54
938
1
原创 Pandas日期时间类型
Pandas关于日期时间的数据 有如下几种数据类型TimeDelta64 两列时间的差值 → TimeDeltaIndexDatetime64 一列时间数据 →DatetimeIndexTimeStamp 时间戳 就是一个时间点如果数据中包含了日期时间的数据, 并且后续计算/数据的处理需要用到日期时间类型数据的特性需要把他转换成日期时间类型pd.to_datetime(一列数据)pd.read_csv(parse_dates= [列名/序号]) 加载的时候直接进行转换。
2024-05-05 20:08:52
2328
原创 Pandas向量化函数-分组相关-透视表
向量化函数是指将输入参数为向量的函数,通过对向量进行操作,得到输出为向量的函数。在数学和计算机科学领域中,向量化函数通常用于加速计算和提高代码的可读性。
2024-05-04 20:56:47
683
2
原创 Pandas基础点总结
pandas是用于数据分析的开源python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能。而DataFrame和Series是pandas最基本的两种数据结构。DataFrame用来处理结构化数据,Series用来处理单列数据,也可以把DataFrame看作Series对象组成的字典或集合。
2024-05-04 17:00:00
2016
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅