Canonical Trends 论文理解

本文提出一种简单高效的方法,用于检测网络数据中的趋势引领者。通过分析一系列网站的时间序列特征,预测不同网站间的资讯传播。实验基于真实科技新闻数据验证了方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文题目:Canonical Trends: Detecting Trend Setters in Web Data 

摘要:网络给我们提供了大量的信息,其中某一些信息被广泛的复制,转载或改述,这种现象被称之为趋势。web数据挖掘背景下的核心问题就是发现那些能够首次引领趋势的网络资源(如某一新闻事件)。论文中提出了一种简单,高效的方法来发现那些主导未来网络资源的趋势性资源,或者赶在其他网站之前识别那些发布与之相关的信息的网络资源。作者从有影响力的科技新闻提要中收集的真实数据,并验证了其方法。

1.介绍:

方法简述:首先从各个web 网站中抽取一系列时间序列的特征项,然后对于每一个web资源在特征空间中学习学习一个卷积,这个卷积能够预测所有其他感兴趣的web资源的内容。

我们在每个网站上提取一系列的bag-of-word 特征,然后仅仅利用某一个web source在之前t-ξ时刻的信息来预测所有新闻网站在时刻t的全部信息。我们发现某一些网站能够较好的预测未来科技新闻范围的时间动态,而其他的网站不行。预测的表现可以表征为某一个网站在多大程度上被认作是trend setter,从而可以利用这一标准来对网站进行排名:一个网站越能预测出其他网站的未来信息,它就越有影响力。

2.相关工作

在这里论述了几个关于web数据图形时间动态分析的可选方法, (Sun et al., 2007)论文中利用通信网路图中的时间动态来把图中的节点部分分离,并形成多个组。该方法在不同的时间点抽取图的邻接矩阵,然后试图压缩时间序列的连接。这是通过发现时间上相同的连接模式并组合来实现的。该方法和本文中的方法不同,不能直接对比。但是有一个共同点值得注意:如果一个web source 能过完美的预测其他网站的内容,那么我们就可以只关注此节点,忽略网络中的其他web source节点。从而本文中方法的表述可以看做是另一种完美的压缩图的方法。

其他关于网络数据图的方法研究了重要事件的扩散,所以称之为病毒(Leskovec et al., 2009; Yang
& Leskovec, 2010; Gomez Rodriguez et al., 2011)。
在(Leskovec et al., 2009; Yang & Leskovec, 2010)中,作者侧重于博客和新闻媒体的N-gram 的扩散。其中讲到的方法跟我们的有点类似,我们的目标就是发现某一节点,它能够最大化其他所有web source的解释方差(explained variance)。我们使用的是线性模型,一个确定性的优势是我们把它扩展到了非线性依赖。

本文方法的假设是:我们独立的分析单一web source的动态变化。

本文中的方法利用所有的数据集,自动学习相关特征。另外,它也充分考虑到了不同特征之间的依赖关系,并建立了web sources 之间的完整的多远时空动态模型。

其他读者给该paper的评论:http://icml.cc/discuss/2012/623.html


资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在 IT 领域,文档格式转换是常见需求,尤其在处理多种文件类型时。本文将聚焦于利用 Java 技术栈,尤其是 Apache POI 和 iTextPDF 库,实现 doc、xls(涵盖 Excel 2003 及 Excel 2007+)以及 txt、图片等格式文件向 PDF 的转换,并实现在线浏览功能。 先从 Apache POI 说起,它是一个强大的 Java 库,专注于处理 Microsoft Office 格式文件,比如 doc 和 xls。Apache POI 提供了 HSSF 和 XSSF 两个 API,其中 HSSF 用于读写老版本的 BIFF8 格式(Excel 97-2003),XSSF 则针对新的 XML 格式(Excel 2007+)。这两个 API 均具备读取和写入工作表、单元格、公式、样式等功能。读取 Excel 文件时,可通过创建 HSSFWorkbook 或 XSSFWorkbook 对象来打开相应格式的文件,进而遍历工作簿中的每个 Sheet,获取行和列数据。写入 Excel 文件时,创建新的 Workbook 对象,添加 Sheet、Row 和 Cell,即可构建新 Excel 文件。 再看 iTextPDF,它是一个用于生成和修改 PDF 文档的 Java 库,拥有丰富的 API。创建 PDF 文档时,借助 Document 对象,可定义页面尺寸、边距等属性来定制 PDF 外观。添加内容方面,可使用 Paragraph、List、Table 等元素将文本、列表和表格加入 PDF,图片可通过 Image 类加载插入。iTextPDF 支持多种字体和样式,可设置文本颜色、大小、样式等。此外,iTextPDF 的 TextRenderer 类能将 HTML、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值