首届中国大学生SNS大赛

此博客介绍了一项技术挑战,即检测并统计特定时间段内社交平台上与世界杯相关的用户生成内容。通过对用户发布的每条内容与预设关键词表进行比对,实现相关内容的自动筛选与计数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

初赛试题1:世界杯(四个题目任选其一即可)

  2010年南非世界杯期间,开心网推出了“世界杯竞猜”组件。通过这个组件,上千万球迷用户能够与好友一起酣畅的评球与竞猜,尽享足球带来的无穷乐趣。除参与这个组件之外,每天都有数百万网友在开心网上发布与世界杯相关的信息,如更改用户状态、记录与回复、转帖等等。世界杯结束后,开心网需要对世界杯期间所有开心网用户新增的内容进行分析,以检测和判定哪些内容与世界杯相关。
假设你是开心网的工程师,请你完成这项检测工作:
用一个已知的世界杯关键词词表扫描每一个待处理文档,如果文档中出现词表中的任意一个关键词,则该内容就被判定为与世界杯相关,计算文档中出现的关键词次数(同一个关键词多次出现按多次计算,没有出现任何关键词的输出0次。匹配时按照正向最大匹配,匹配过的内容不重复匹配。)。
 

输入:

  两个文本文件,一个是世界杯期间所有用户产生的内容,文件的每一行为一个待处理文档,每一行分为两个列,第一个列是文档编号,第二个列是文档内容,用制表符分隔;另一个输入项是一个词表,其中包含数千个与世界杯相关的词条,一行一个词。

输出:

  每一行输出一个文档的检查结果,格式为:文档编号 出现的关键词次数(以制表符分隔)。
  为了简化起见,默认所有输入均只需支持简体中文和英文内容,输入文件为GBK编码,不考虑汉语分词、繁简转换等深层特性,内容文件一行最长64K(65536字节)。
 

示例:

要检查的内容文件(content.txt):
1 梅西生日快乐,大力神杯在等待你~
2 送别五星巴西。送别卡卡 DON'T CRY ,KAKA 你的世界毁灭。我心痛不已
3 四年一度的世界杯即将于本周五拉开序幕,虽然足球不能成为A股股民生活的全部,但却能给A股股民以投资契机。那么,哪些行业将因世界杯的举行而受益?哪些世界杯概念股能够在目前相对弱势的行情中脱颖而出呢?
 

用于检查的词表文件(keyword.txt):
大力神杯
卡卡
梅西
巴西
KaKa
世界杯
 

得到如下结果:
1 2
2 3
3 3
 

提交代码要求:

Makefile生成的程序文件名必须为:ugc_stat,第一个接收参数为关键词文件,第二个接收参数为内容文件。在程序所在目录执行:./ugc_stat keyword.txt content.txt 可以得到结果。
 

为了供大家实验,我们提供了测试数据和测试数据的正确运行结果。大家可以下载测试、验证。
 

http://sns.kaixin001.com/contest/rule.php?type=7

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值