9、数据类型与统计推断全解析

最新推荐文章于 2025-11-01 05:55:03 发布

beta5

最新推荐文章于 2025-11-01 05:55:03 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏： R语言数据科学精要文章标签：数据类型统计推断文本数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beta5/article/details/152340918

R语言数据科学精要专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据类型与统计推断全解析

1. 数据类型概述

数据在不同领域呈现出多样化的形式，每种类型都有其独特的特点和分析方法。以下为你详细介绍几种常见的数据类型。

1.1 文本数据

文本数据是不对应数字的符号序列。为了对其进行数学分析，有多种文本表示方法，如词性标注（POS）、词袋模型（OHD）、独热编码（OHE）、词频 - 逆文档频率（TF - IDF）和词嵌入（WE）等，这些方法各有不同的解释和应用。自然语言处理（NLP）专门研究文本数据，近年来，深度学习方法在该领域取得了许多进展。

1.2 时间事件数据

时间事件数据以三元组形式呈现：(ID, t: 时间间隔, c: 删失情况) 。其中，ID 是对象的标识号，如患者 ID；时间间隔 t 是一个时间段；删失情况 c 是一个二进制标签，例如 c ∈{1, 2}，1 表示发生删失，2 表示事件发生。与其他数据类型的关键区别在于，t 和 c 不能通过实验直接测量，需要从特定过程中提取，且该过程因领域或应用而异。

以医疗领域为例，患者接受治疗会产生健康记录，从中可提取时间事件数据。这里的“事件”定义很关键，如“死亡”“复发”或“出现症状”等。根据事件定义可确定时间间隔 t，如从手术到死亡的时间。

在数据收集过程中，由于时间跨度和各种情况，会出现不同的删失情况：
- 情况一：患者 IDA 和 IDC 的“死亡”事件在研究期间发生，医院知晓该情况，可更新健康记录。
- 情况二：患者 IDB 的“死亡”事件发生，但医院未被告知或研究已结束，只能获取患者最后一次就诊信息，该时间被视为删失。
- 情况三：患者 IDD 的“死亡”事件在研究

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。