北大计算机系赖陆程,互联网信息摘要 - 北大计算机研究所.pdf

随着互联网数据量的急剧增长,信息摘要变得至关重要。它旨在从海量内容中提炼关键信息,提供简洁的摘要,以应对信息过载问题。文本信息摘要在新闻、文献、社交媒体等领域有广泛应用,如文献自动标引、新闻信息服务等。课程主要关注文本摘要,包括新闻文本和社交媒体文本的处理,关键词抽取作为其特例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

互联网信息摘要 - 北大计算机研究所.pdf

《互联网数据挖掘》本科生课程

互联网信息摘要

万小军

北京大学语言计算与互联网挖掘组

/lcwm

2016年11月8日

信息摘要概述

2

信息摘要的重要性

 我们进入一个信息爆炸的时代

 据IDC统计,互联网数据量已跃至ZB

级别(1ZB=240GB ),预计2020年

达到35ZB

 搜索引擎不能有效解决信息过载

的问题

 相关信息过多:冗余、片面、杂质

 移动设备的普及使用

 屏幕小、网络带宽低等特点需要新的

3

信息浏览与阅读方式

4

5

6

信息摘要任务定义

对海量数据内容进行提炼与总结 ,以简洁、

直观的摘要来概括用户所关注的主要内容,

方便用户快速了解与浏览海量内容。

数据

摘要机

50%

10% 100% 输出

输入

摘要

7

信息摘要的范畴

关系数据库

图像 音频

文本

数据

视频

摘要机

50%

10% 100% 输出

输入

摘要

8

信息摘要例子

 文献主题词

 新闻标题

 论文摘要

 图书摘要

 评论精选

 电视剧、电影预告片

 音乐节选/选听

 等等

9

文本信息摘要

 我们侧重讲解文本信息摘要

 处理的数据类型为文本

 新闻文本

 社交媒体文本

 关键词抽取可看做是文档摘要的一个特例

10

文本信息摘要应用

 文献自动标引

 新闻信息服务

 信息检索

 …

11

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值