数据挖掘词汇表

box and whisker plot: 框须图

brushing: 画刷法

chernoff's faces: 切尔诺夫脸谱图

classification accuracy: 分类精度

confidence intervals: 置信区间

coxcomb plot: 锯齿图

covariance: 协方差

Dice coefficient: Dice系数domain: 定义域

first-order Markov property: 一阶马尔科夫属性

Jaccard coefficient: Jaccard系数

least square: 最小平方

likelihood rate: 似然率

likelihood function: 似然函数

logit transformation: 分对数转换

Mahalanobis distance: 马氏距离

Manhattan metric: 曼哈顿标距(也称做城市街区标距/city-block metric)
marginal density:
边际密度

mode: 最频值

normal distribution: 正态分布

outlier detection: 孤立点检测

overfitting: 过渡拟合

primary analysis: 本位分析

population: 总体

projection pursuit: 投影跟踪

range: 值域

regression analysis: 回归分析

sampling distortion:采样失真

sample correlation coefficient: 样本相关系数

scatterplot: 散点图

simple matching coefficient: 简单匹配系数

standard deviation: 标准差

sufficient statistics: 充分统计量

sum of squared errors: 误差平方和

the curse of dimensionality: 维度效应

threshold: 阈值

trellis plot: 格架图

 

<think>好的,我需要帮用户寻找与词汇表相关的数据集。首先,我要理解用户的需求。他们提到的“词汇表数据集”可能是指包含词汇标注、词频统计、词性分类或复杂词汇标注的数据集。接下来,我需要查看提供的引用文献,看看是否有相关数据集的描述。 引用1提到了RCWI-Dataset,这个数据集包含句子样本,并标注了词汇的复杂性(Complex、Hard、Normal)。这可能符合用户的需求,因为它涉及词汇级别的分类,适合用于词汇难度分析或自然语言处理任务。需要指出这个数据集的结构和用途,并给出下载方式或来源。 引用3提到了nci60数据集和cora数据集,但cora主要用于图网络,可能不直接相关。而nci60可能也不相关,可以暂时排除。 引用4和5分别关于情感分析的多模态数据集和面部表情数据集,明显与词汇表无关,可以忽略。 接下来,考虑用户可能需要其他常见的词汇表数据集,比如英文的WordNet或中文的HowNet,但用户提供的引用中没有提到这些。不过根据现有信息,RCWI-Dataset是符合的,因此重点推荐它。 另外,用户可能需要数据集的下载方式或示例。引用1中提到了数据构造方法,但未提供下载链接,可能需要进一步查找。但用户提供的引用中没有直接给出链接,可能需要建议通过论文或相关平台获取。 此外,用户可能需要其他类似的数据集,比如英文的COCA(当代美国英语语料库)或中文的BCC语料库,但不在提供的引用中,所以不能引用。但可以建议通用获取途径,如Kaggle、谷歌数据集搜索等。 总结回答结构:首先介绍RCWI-Dataset,说明其内容和应用场景;然后推荐其他可能的词汇相关数据集;最后提供通用的数据集获取建议。同时生成相关问题,如数据集的应用、如何构建词汇数据集、数据标注方法等。 需要确保使用正确的LaTeX格式,行内公式用$,独立公式用$$,但当前内容可能不涉及数学公式,所以可能不需要。检查是否符合所有系统级指令,特别是引用标识的正确添加。</think>### 词汇表相关数据集推荐 #### 1. **RCWI-Dataset(词汇复杂度标注数据集)** 该数据集包含40,613个句子样本,标注了词汇的复杂程度,分为$Complex$(19,218条)、$Hard$(1,169条)和$Normal$(20,226条)三类[^1]。其特点包括: - **标注方式**:从未标注词汇中按词频选择低频词作为负例(Normal),与正例(Complex/Hard)平衡 - **适用场景**:词汇复杂度分析、文本简化、教育领域NLP任务 - **数据示例**:通过句子分词后对比标注词汇与非标注词汇的分布 #### 2. **MELD多模态情感词汇数据集** 虽然主要面向情感分析,但MELD数据集包含13,000个影视对话文本,标注了七种情绪标签(如愤怒、喜悦)及情感极性(正面/负面/中性)[^4]。其词汇特征可用于: - 情感词汇挖掘 - 多模态语境下的词汇关联分析 - 下载方式:`wget https://web.eecs.umich.edu/~mihalcea/downloads/MELD.Raw.tar.gz` #### 3. **通用词汇资源获取建议** 若需更基础的词汇表(如词频表、词向量),可尝试: 1. **Kaggle平台**:搜索关键词`vocabulary frequency list`或`word embeddings` 2. **谷歌数据集搜索**:使用过滤条件`text corpora` + `CC-BY`协议 3. **学术语料库**: - 英文:COCA语料库(需申请) - 中文:BCC语料库(北京大学开放资源)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值