
数据挖掘
文章平均质量分 66
diluosixu
这个作者很懒,什么都没留下…
展开
-
NLP-新词挖掘
网络领域的新词发现(挖掘)是一个非常重要的nlp课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理,切词结果的不同,也就影响了特征的提取,跟数据挖掘一样,特征提取的好坏特别重要,不论用什么算法,特征好数据好结果才会好。目前很多的切词模块可以处理大部分的通用语料,然而有两类文本集仍然处理的不是很好,就是:(1)网络文档(2)领域文档这两类文本的特点在于包含大量新词,一般词典的涵盖程度比较低。原创 2024-09-09 22:52:06 · 1222 阅读 · 0 评论 -
RAG+知识图谱
排序环节:在检索时,经常会出现相关性最高的切片里根本没包含最优答案内容的情况。可以通过知识图谱让所有切片构建出实体关系,可以大大提升找出切片里包含最优内容的概率。原创 2024-09-01 23:05:52 · 434 阅读 · 0 评论 -
特征工程-数据处理
实现方式1: 手动 df['data'].map({'one year': 1, 'two year':2})1、数值缩放:标准化、归一化、L1/L2正则化、robust_scale、取对数log、softmax等。对于连续变量是否存在其他值表示缺失值的情况,可以先转化为数值变量再进行分析,例如如果是用空格代表缺失值。实现方式1:pandas.factorize(df['country'])[0]缺失值处理方法:删除、均值、中位数、众数、特殊值、随机值填充等。连续变量和离散变量之间相关性则可以卡方检验;原创 2024-08-27 18:29:49 · 590 阅读 · 0 评论 -
Hive SQL 练习
【代码】Hive SQL 练习。原创 2024-08-27 11:35:12 · 629 阅读 · 0 评论 -
Hive SQL
tinyint 1byte 有符号整数smallint 2byte 有符号整数int 4byte 有符号整数bigint 8byte 有符号整数boolean 布尔类型,true或者falsefloat 单精度浮点数double 双精度浮点数decimal 十进制精准数字类型 decimal(16,2)原创 2024-08-26 23:38:02 · 2148 阅读 · 1 评论 -
关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算
转载请标明出处:小帆的帆的专栏例子: 总共有10000个消费者购买了商品, 其中购买尿布的有1000人, 购买啤酒的有2000人, 购买面包的有500人, 同时购买尿布和啤酒的有800人, 同时购买尿布的面包的有100人。关联规则关联规则:用于表示数据内隐含的关联性,例如:购买尿布的人往往会购买啤酒。支持度(s转载 2017-09-12 11:31:07 · 2452 阅读 · 0 评论