9、数据类型与统计推断全解析

数据类型与统计推断全解析

1. 数据类型概述

数据在不同领域呈现出多样化的形式,每种类型都有其独特的特点和分析方法。以下为你详细介绍几种常见的数据类型。

1.1 文本数据

文本数据是不对应数字的符号序列。为了对其进行数学分析,有多种文本表示方法,如词性标注(POS)、词袋模型(OHD)、独热编码(OHE)、词频 - 逆文档频率(TF - IDF)和词嵌入(WE)等,这些方法各有不同的解释和应用。自然语言处理(NLP)专门研究文本数据,近年来,深度学习方法在该领域取得了许多进展。

1.2 时间事件数据

时间事件数据以三元组形式呈现:(ID, t: 时间间隔, c: 删失情况) 。其中,ID 是对象的标识号,如患者 ID;时间间隔 t 是一个时间段;删失情况 c 是一个二进制标签,例如 c ∈{1, 2},1 表示发生删失,2 表示事件发生。与其他数据类型的关键区别在于,t 和 c 不能通过实验直接测量,需要从特定过程中提取,且该过程因领域或应用而异。

以医疗领域为例,患者接受治疗会产生健康记录,从中可提取时间事件数据。这里的“事件”定义很关键,如“死亡”“复发”或“出现症状”等。根据事件定义可确定时间间隔 t,如从手术到死亡的时间。

在数据收集过程中,由于时间跨度和各种情况,会出现不同的删失情况:
- 情况一:患者 IDA 和 IDC 的“死亡”事件在研究期间发生,医院知晓该情况,可更新健康记录。
- 情况二:患者 IDB 的“死亡”事件发生,但医院未被告知或研究已结束,只能获取患者最后一次就诊信息,该时间被视为删失。
- 情况三:患者 IDD 的“死亡”事件在研究

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值