数据类型与统计推断全解析
1. 数据类型概述
数据在不同领域呈现出多样化的形式,每种类型都有其独特的特点和分析方法。以下为你详细介绍几种常见的数据类型。
1.1 文本数据
文本数据是不对应数字的符号序列。为了对其进行数学分析,有多种文本表示方法,如词性标注(POS)、词袋模型(OHD)、独热编码(OHE)、词频 - 逆文档频率(TF - IDF)和词嵌入(WE)等,这些方法各有不同的解释和应用。自然语言处理(NLP)专门研究文本数据,近年来,深度学习方法在该领域取得了许多进展。
1.2 时间事件数据
时间事件数据以三元组形式呈现:(ID, t: 时间间隔, c: 删失情况) 。其中,ID 是对象的标识号,如患者 ID;时间间隔 t 是一个时间段;删失情况 c 是一个二进制标签,例如 c ∈{1, 2},1 表示发生删失,2 表示事件发生。与其他数据类型的关键区别在于,t 和 c 不能通过实验直接测量,需要从特定过程中提取,且该过程因领域或应用而异。
以医疗领域为例,患者接受治疗会产生健康记录,从中可提取时间事件数据。这里的“事件”定义很关键,如“死亡”“复发”或“出现症状”等。根据事件定义可确定时间间隔 t,如从手术到死亡的时间。
在数据收集过程中,由于时间跨度和各种情况,会出现不同的删失情况:
- 情况一:患者 IDA 和 IDC 的“死亡”事件在研究期间发生,医院知晓该情况,可更新健康记录。
- 情况二:患者 IDB 的“死亡”事件发生,但医院未被告知或研究已结束,只能获取患者最后一次就诊信息,该时间被视为删失。
- 情况三:患者 IDD 的“死亡”事件在研究
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



