数据结构课设 词频统计

5-20 词频统计   (30分)

请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。

所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔符。

输入格式:

输入给出一段非空文本,最后以符号#结尾。输入保证存在至少10个不同的单词。

输出格式:

在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写,例如“PAT”和“pat”被认为是同一个单词。

随后按照词频递减的顺序,按照词频:单词的格式输出词频最大的前10%的单词。若有并列,则按递增字典序输出。

输入样例:

This is a test.

The word "this" is the word with the highest frequency.

Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

输出样例:(注意:虽然单词the也出现了4次,但因为我们只要输出前10%(即23个单词中的前2个)单词,而按照字母序,the排第3位,所以不输出。)

23
5:this
4:is

最后一个测试点过不了,听说是哈利波特的节选,不太懂为什么,求大神解答。

还有isdigit和isalpha函数居然用了就WA,不知是为什么。。。


用了map,学会了利用vector对map根据value值排序。。然而却没大用到哈希。。。


#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <cctype>
#include <vector>
#include <map>
using namespace std;
bool cmp(pair<string, int> a, pair<string, int> b) {
	if(a.second != b.second) return a.second > b.second;
	else return a.first < b.first;
}
vector<pair<string, int> > v; 
map<string, int> m;
int main(){
	char str[100];
	string word;
	map<string, int>::iterator it;
	int start = 0;
	char ch;
	while(ch = getchar()) {
		if(ch >= 'a' && ch <= 'z' || ch >= 'A' && ch <= 'Z' || ch >= '0' && ch <= '9' || ch == '_') {
			if(ch >= 'A' && ch <= 'Z') ch = ch - 'A' + 'a';
			str[start++] = ch;
		}
		else if(start > 0) {
			if(start >= 15) start = 15;
			str[start] = 0;
			start = 0;
			word = str;
			it = m.find(word);
			if(it != m.end()) {
				(it->second)++;
			}
			else {
				m[word] = 1;
			}
		}
		if(ch == '#') break;
	}
	for(it = m.begin(); it != m.end(); it++) {
		v.push_back(make_pair(it->first, it->second));
	}
	sort(v.begin(), v.end(), cmp);
	vector<pair<string, int> > :: iterator itv;
	cout << v.size() << endl;
	int ans = v.size() / 10;
	for(itv = v.begin(); itv != v.begin() + ans; itv++) {
		cout << itv->second << ':' << itv->first << endl;
	}
	return 0;
			
}


基于不同策略的英文单词词频统计和检索系统可以使用线性表、二叉排序树和散列表这三种不同的存储结构来实现。下面是对每种存储结构的简要介绍和相应的代码示例: 1. 线性表: 线性表是一种简数据结构,可以使用列表来实现。在词频统计和检索系统中,可以将每个单词作为线性表的一个元素,并记录该单词出现的次数。通过遍历线性表,可以统计每个单词词频,并且可以通过线性查找的方式进行单词的检索。 ```python word_list = [] # 线性表,用于存储单词 frequency = {} # 字典,用于存储单词词频 # 统计词频 def count_frequency(word): if word in frequency: frequency[word] += 1 else: frequency[word] = 1 # 检索单词 def search_word(word): if word in frequency: return frequency[word] else: return 0 ``` 2. 二叉排序树: 二叉排序树是一种有序的二叉树,可以使用类来实现。在词频统计和检索系统中,可以将每个单词作为二叉排序树的一个节点,并记录该单词出现的次数。通过二叉排序树的插入和查找操作,可以实现单词词频统计和检索。 ```python class TreeNode: def __init__(self, word): self.word = word self.frequency = 1 self.left = None self.right = None # 插入节点 def insert_node(root, word): if root is None: return TreeNode(word) if word == root.word: root.frequency += 1 elif word < root.word: root.left = insert_node(root.left, word) else: root.right = insert_node(root.right, word) return root # 查找节点 def search_node(root, word): if root is None or root.word == word: if root is None: return 0 else: return root.frequency if word < root.word: return search_node(root.left, word) else: return search_node(root.right, word) ``` 3. 散列表: 散列表是一种根据关键字直接访问内存位置的数据结构,可以使用字典来实现。在词频统计和检索系统中,可以将每个单词作为散列表的一个键,并将该单词出现的次数作为对应的值。通过散列表的键值对操作,可以实现单词词频统计和检索。 ```python word_dict = {} # 字典,用于存储单词词频 # 统计词频 def count_frequency(word): if word in word_dict: word_dict[word] += 1 else: word_dict[word] = 1 # 检索单词 def search_word(word): if word in word_dict: return word_dict[word] else: return 0 ``` 以上是基于线性表、二叉排序树和散列表三种不同存储结构实现的英文单词词频统计和检索系统的代码示例。根据具体的需求和数据规模,选择合适的存储结构可以提高系统的效率和性能。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值