基于网络爬虫技术的网络新闻分析(二)

目录

2  系统需求分析

2.1 系统需求概述

2.2 系统需求分析

2.2.1 系统功能要求

2.2.2 系统IPO图

2.2 系统非功能性需求分析

3  系统概要设计

3.1 设计约束

3.1.1 需求约束

3.1.2 设计策略

3.1.3 技术实现

3.3 模块结构

3.3.1 模块结构图

3.3.2 系统层次图

3.3.3 面向对象设计UML图


前面内容请移步

基于网络爬虫技术的网络新闻分析(一)

资源下载+毕业论文+答辩

基于网络爬虫技术的网络新闻分析.rar

2  系统需求分析

        软件需求分析对软件系统提出了清楚、准确、全面而具体的要求,是对软件使用者意图不断进行揭示与准确判断的过程,它并不考虑系统的具体实现,而是严密地、完整地描述了软件系统应该做些什么的一种过程。

2.1 系统需求概述

        要求爬虫系统能完成对凤凰网新闻、网易新闻、新浪新闻、搜狐新闻等网站新闻数据的实时抓取,并正确抽取出正文,获取新闻的点击量,实现每日定时抓取。能将抓取回来的新闻进行中文分词,利用中文分词结果来计算新闻相似度,将相似的新闻合并起来,同时也合并点击率,最后一点,能将相似因为一段事件内的用户点击趋势以合适的形式展现出来。

        基于网络爬虫技术的网络新闻分析由以下几个模块构成:

                网络爬虫模块。

                中文分词模块。

                中文相似度判定模块。

                数据结构化存储模块。

                数据可视化展示模块。

2.2 系统需求分析

2.2.1 系统功能要求

        按照对系统需求调用的内容分析,系统功能划分为了一下五个模块:

数据采集模块:

        数据采集模块负责数据采集,即热点网络新闻数据的定时采集,以及数据的初步拆分处理。

(1)中文分词模块:

        中文分词模块能将数据采集模块采集到的热点网络新闻数据进行较为准确的中文分词。

(2)中文相似度判定模块:

        中文相似度判定模块通过将数据采集模块采集到的热点网络新闻数据结合中文分词模块的分词结果,进行网络热点新闻的相似度分析,并能够将相似新闻进行数据合并。

(3)数据结构化存储模块:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值