Exploring the Power of Links in Data Mining-韩家炜演讲摘录

韩家炜教授分享了他在数据挖掘领域的最新研究进展,包括利用链接进行分类、用户引导聚类、链接聚类及对象区分分析等四项工作。这些方法在多种任务中展示了优秀的效果。
 韩家炜(Jiawei Han),数据挖掘的泰斗级人物,大名如雷贯耳,今日有幸能一睹真人风采。见面第一感觉居然是此人年轻时肯定是个帅哥(汗!),当然,现在仍然是个精神矍铄的智者。

   演讲的主题是:Exploring the Power of Links in Data Mining。报告主要讲了四篇论文,都是他的博士研究生Xiaoxin Yin完成。这些工作,大多是受到PageRank算法HITS等的影响导出的。利用数据间的连接关系,我们可以更有效的得出我们所关注的信息。这四篇论文提出的算法,在与其他相关算法的比较中,均显示出了较强的优越性。

   1.CrossMine:在连接传播过程中,采用的是有控制的传播,有些比较弱的连接不考虑,这样,能在很好保持准确率的情况下,大大提高时间效率。在Relation少的时候,这种优势不明显,但当Relation多时,显示了强大的优越性。

   2.User-Guided Clustering:类似于半监督的学习,用户提供认为重要的特征,然后再分类。这里把整个feature的一列作为特征考虑。而这个提供的特征只是作为soft hint,作为一种参考,我们还需要考虑其它的因素。

   3.LinkClus:可以通过人们发的paper,找出各个会议间的相关性。同一个author发的不同会议间的联系强。原有的算法时间效率很差,这里利用了power law distribution of links。找出密集的links,因为密集的links比较少,所以只分析这些会有很大的效率提高。同时,绝大多数的性息被包含在这些密集的links中了,所以准确率也很好。

   4.同名人发的paper怎么区分?特别是中国人,名称翻译成英文后,重名的很多,如王伟,有14个之多,如何区分他们,成了问题。这边用到了论文中合作者的信息(共同作者),首先训练的是那些很难重名的人,作为clean data。从他们出发,分类其它的。

    最后讲了Xiaoxin Yin最近的研究方向:辨别网页上信息的真假。利用的是这样一个假设,真的信息只有一个,假的信息千变万化。

    最后,再次向牛人致敬!

    贴一下讲座的摘要,以及韩老的简历:

ABSTRACT
Algorithms like PageRank and HITS have been developed in late 1990s to
explore links among Web pages to discover authoritative pages and hubs.
Links have also been popularly used in citation analysis and social network
analysis.  We show that the power of links can be explored thoroughly at
data mining in classification, clustering, information integration, and
other interesting tasks.  Some recent results of our research that explore
the crucial information hidden in links will be introduced, including (1)
multi-relational classification, (2) user-guided clustering, (3) link-based
clustering, and (4) object distinction analysis.  The power of links in
other analysis tasks will also be discussed in the talk.
------------------------
Short bio:
Jiawei Han, Professor, Department of Computer Science, University of
Illinois at Urbana-Champaign.  He has been working on research into data
mining, data warehousing, database systems, data mining from spatiotemporal
data, multimedia data, stream and RFID data, Web data, social network data,
and biological data, with over 300 journal and conference publications.  He
has chaired or served on over 100 program committees of international
conferences and workshops, including PC co-chair of 2005 (IEEE)
International Conference on Data Mining (ICDM), Americas Coordinator of
2006 International Conference on Very Large Data Bases (VLDB).  He is also
serving as the founding Editor-In-Chief of ACM Transactions on Knowledge
Discovery from Data.  He is an ACM Fellow and has received 2004 ACM SIGKDD
Innovations Award and 2005 IEEE Computer Society Technical Achievement
Award. His book "Data Mining: Concepts and Techniques" (2nd ed., Morgan
Kaufmann, 2006) has been popularly used as a textbook worldwide.

韩老的Home page:

http://www-faculty.cs.uiuc.edu/~hanj/

讲的四篇paper:

CrossMine: Efficient Classification from Multiple Heterogeneous Databases

Cross-Relational Clustering with User's Guidance

LinkClus: Efficient Clustering via Heterogeneous Semantic Links

Object Distinction: Distinguishing Objects with Identical Names by Link Analysis

他作的另一个演讲记录:

http://users.ir-lab.org/~bill_lang/blog10/archives/001166.html

 
在时间序列预测中,非平稳性是一个常见的挑战,表现为数据的统计特性(如均值、方差)随时间变化。传统的统计模型(如ARIMA)和机器学习方法通常假设时间序列是局部平稳的,但在实际应用中,这种假设往往难以成立。近年来,Transformer模型因其在建模长距离依赖关系上的优势而被广泛应用于时间序列预测任务,而**非平稳Transformer模型**则进一步增强了其在处理非平稳时间序列上的能力。 ### 非平稳Transformer模型的核心改进 标准的Transformer模型依赖于自注意力机制来捕捉序列中的全局依赖关系。然而,当面对非平稳时间序列时,其注意力机制可能难以有效捕捉动态变化的统计特性。为了解决这一问题,一些研究提出了专门针对非平稳特性的Transformer变体,主要改进包括: - **动态归一化机制**:为了应对时间序列的非平稳性,一些模型引入了动态归一化方法,如Moving Average Normalization(MAN)或Adaptive Layer Normalization(AdaNorm),以在输入序列中去除趋势和季节性成分[^1]。 - **位置编码的改进**:标准Transformer使用固定或学习的位置编码来表示时间顺序。在非平稳场景下,这些编码可能无法准确反映时间结构的变化。因此,有研究提出基于时间戳的动态位置编码方法,以更好地适应非平稳数据。 - **混合建模结构**:将Transformer与状态空间模型(State Space Models, SSMs)结合,利用SSM对非平稳成分进行建模,而Transformer负责捕捉长距离依赖关系。例如,Deep State Space Models(DSSMs)可以有效地建模时间序列的趋势和季节性变化[^2]。 ### 应用与优势 非平稳Transformer模型在多个时间序列预测任务中表现出色,特别是在具有复杂趋势和突变特征的数据集上。例如,在电力负荷预测、金融时间序列预测以及气象数据建模中,这些模型能够更准确地捕捉数据的动态变化趋势,从而提升预测精度。 - **长期依赖建模**:通过改进的注意力机制和归一化策略,非平稳Transformer能够更好地捕捉时间序列中的长期依赖关系。 - **鲁棒性增强**:相比传统模型,非平稳Transformer对数据中的噪声和突变具有更强的鲁棒性,适用于实际工业和金融场景。 ### 示例代码:非平稳Transformer的简化实现 以下是一个简化的非平稳Transformer模型的PyTorch实现,使用了自注意力机制和动态归一化: ```python import torch import torch.nn as nn class NonStationaryTransformer(nn.Module): def __init__(self, input_dim, model_dim, num_heads, num_layers, output_dim): super(NonStationaryTransformer, self).__init__() self.embedding = nn.Linear(input_dim, model_dim) self.positional_encoding = nn.Parameter(torch.randn(1, 1000, model_dim)) self.transformer = nn.Transformer( d_model=model_dim, nhead=num_heads, num_encoder_layers=num_layers, num_decoder_layers=num_layers ) self.fc = nn.Linear(model_dim, output_dim) def forward(self, src, tgt): src = self.embedding(src) + self.positional_encoding[:, :src.size(1)] tgt = self.embedding(tgt) + self.positional_encoding[:, :tgt.size(1)] output = self.transformer(src, tgt) return self.fc(output) # 示例输入 batch_size = 32 seq_len = 50 input_dim = 1 model_dim = 64 num_heads = 8 num_layers = 3 output_dim = 1 model = NonStationaryTransformer(input_dim, model_dim, num_heads, num_layers, output_dim) src = torch.randn(batch_size, seq_len, input_dim) tgt = torch.randn(batch_size, seq_len, input_dim) output = model(src, tgt) print(output.shape) # 输出形状: (32, 50, 1) ``` ### 挑战与未来方向 尽管非平稳Transformer在时间序列预测中展现出强大潜力,但仍面临一些挑战: - **计算复杂度**:Transformer的自注意力机制具有O(n²)的时间复杂度,限制了其在超长序列上的应用。 - **可解释性不足**:虽然Transformer模型在性能上表现出色,但其内部机制较为复杂,缺乏传统统计模型的可解释性。 - **领域泛化能力**:当前模型多在特定领域(如电力、金融)训练,如何提升其跨领域泛化能力仍是一个开放问题。 未来的研究方向可能包括: - **轻量化Transformer结构**:设计更高效的注意力机制或结合CNN与Transformer的优点,以降低计算开销。 - **可解释性增强**:引入可视化工具和解释性模块,帮助用户理解模型决策过程。 - **跨模态建模**:将时间序列与其他模态(如文本、图像)结合,构建多模态预测系统。 ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值