数据挖掘08

原创已于 2025-12-18 15:20:35 修改 · 307 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据挖掘 #人工智能

于 2025-12-17 21:30:06 首次发布

数据挖掘专栏收录该内容

13 篇文章

订阅专栏

**

数据挖掘08——基于统计模型的序列数据挖掘

**

1.序列数据挖掘方法分类

（1）模式匹配

把未知量伸长或者缩短到参考模式的长度。

然后使用动态规划方法把被比较的数据扭曲或者弯折，时期特征与模型特征对齐。

比如：DTW

（2）统计学习方法

对时间序列结构建立统计模型

比如：HMM 、CRF

（3）神经网络

模拟大脑在处理时间序列信息和工作记忆时所依赖的核心原理

比如：RNN、 LSTM 、 Transformer

2.隐马尔可夫模型

（1）定义

**隐马尔可夫模型（Hidden Markov Model, HMM）**是一种经典的概率图模型，用于建模含有隐藏状态的时序随机过程。

（2）核心思想：看得见的输出，看不见的状态

（3）HMM 的关键假设是：

系统的真实状态（隐藏状态）无法直接观测，但每个状态会以一定概率生成一个可观测的输出（观测值）。

下一状态只依赖于当前状态。

（4）举个例子：“天气与冰淇淋”

隐藏状态（真实天气）：晴天（Sunny）、雨天（Rainy）——你不知道每天具体是什么天气。

观测值（你能看到的）：每天朋友吃 1、2 或 3 个冰淇淋。

问题：根据过去一周他吃的冰淇淋数量，推断最可能的天气序列。

这就是HMM模型要做的事。

（5）单选题

在这里插入图片描述
答案：A

3.知识抽取中的分词任务

将连续的字符序列切分成有意义的词语单元（tokens）

方法：

基于词典、基于统计模型、工具库（ Jieba、THULAC、HanLP、LTP、PKU分词器）、深度学习

在这里插入图片描述
答案：AB

解释：

A很容易理解。

B里指的是词典中存在重叠词，比如：
“直” 是副词（AD）
“直达” 是动词（VV）
当遇到“直达”时，系统可能在“直”和“直达”之间产生歧义：
切成 [“直”, “达”] 还是 [“直达”]？
这就是典型的切分歧义（ambiguity in segmentation），尤其是在最大匹配法中容易出现。

D错误。
分词结果高度依赖词典规模：
词典越大，覆盖的词汇越多，越不容易漏掉词语；
词典小 → 容易将真实词切错（如“中国银行”变成“中国”+“银行”没问题，但如果词典没有“中国银行”，可能切错）；
词典过大 → 可能引入噪声或歧义（如上面提到的“直” vs “直达”）。
所以，分词结果与词典规模密切相关。

4.基于HMM的分词方法

（1）两个核心部分：

1）观测序列（Observation）：输入的汉字序列（如 “我爱自然语言处理”）

2）隐状态序列（Hidden States）：每个字对应的分词标签（通常采用 BIES 标注体系）

BIES 标签说明：

B ： Begin，词的开始
I ：Inside，词的中间
E ： End，词的结束
S ： Single，单字成词

例子：

句子：“我爱自然语言处理”

正确标签：S S B E B E B E

（2）通过以下概率进行推断：

1）初始状态概率：句子开头是 B/I/E/S 的概率

2）状态转移概率：标签之间的转移概率，如 P(E → B)、P(B → I) 等

3）观测发射概率：某个标签下生成某个字的概率，如 P(“自” | B)，由隐状态B生成汉字自的概率。

多选题，加深理解：

在这里插入图片描述
答案：BDF

解释：

B错误：

在 BIES 中，B 只能接 M 或 E，不能接另一个 B。
因为一旦一个词开始（B），它必须继续为 M 或结束为 E。

E错误：

因为 E 表示一个词的结尾，下一个字必须是新词的开始（B）或单字（S），不能是另一个词的结尾（E）。

F错误：
因为 M 是词的中间，只能出现在一个多字词的中间。
但 M 前面必须是 B 或 M，后面是 M 或 E。
不能直接从 E → M，因为 E 是词的结尾，下一个字要么是 B（新词开始），要么是 S（单字词）。
所以 E → M 是非法的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。