统计词频的方法--java

该博客介绍了如何利用HashMap统计字符串中每个字符的出现频率,为哈夫曼压缩做前期准备。通过遍历字符串,将字符作为键,出现次数作为值存储在HashMap中,然后转换为整数数组。这种方法有效地统计了输入文本的基础信息,为后续的压缩步骤奠定了基础。

这里我将为接下来的哈夫曼压缩文件做前期工作

介绍一下我自己是如何统计词频的,这里我用到HashMap以及entrySet()以及字符串切割

public static  int[] getvalue(String s){
        HashMap<Character,Integer> map = new HashMap<>();
        for (int i = 0; i < s.length(); i++) {
            if(!map.containsKey(s.charAt(i))){
                map.put(s.charAt(i),1);
            }else {
                map.put(s.charAt(i),map.get(s.charAt(i))+1);
            }
        }
        Set<Map.Entry<Character,Integer>>  set = map.entrySet();
        int[] value = new int[set.size()];
        //获得所有权值
        int j = -1 ;
        for (Map.Entry<Character,Integer> k : set){
            value[++j] = Integer.parseInt(new StringBuilder(k.toString()).substring(2,k.toString().length()));
        }
        return value;
    }
### 头歌平台上的 Java 词频统计实现 在头歌平台上实现 Java词频统计功能,可以基于已有的算法逻辑进行设计。以下是完整的解决方案: #### 方法概述 通过读取文件中的内容或将字符串作为输入源,利用 `HashMap` 数据结构存储单词及其对应的频率计数。最后按照需求输出结果。 --- #### 完整代码示例 以下是一个典型的 Java 实现词频统计方法[^1]: ```java import java.io.*; import java.util.*; public class WordFrequencyCounter { private static Map<String, Integer> wordCountMap = new HashMap<>(); public static void main(String[] args) { String text = "This is a test. This test is only a test."; countWords(text); System.out.println("Number of unique words: " + wordCountMap.size()); for (Map.Entry<String, Integer> entry : wordCountMap.entrySet()) { System.out.println(entry.getKey() + ": " + entry.getValue()); } } public static void countWords(String inputText) { if (inputText == null || inputText.isEmpty()) { return; } // 将文本转换为小写并按空格分割 String[] words = inputText.toLowerCase().split("[\\s\\.\\,]+"); for (String word : words) { if (!word.isEmpty()) { wordCountMap.put(word, wordCountMap.getOrDefault(word, 0) + 1); } } } } ``` 上述代码实现了基本的词频统计功能,并支持大小写的忽略处理以及简单的标点符号过滤[^2]。 --- #### 文件读取扩展 如果需要从文件中读取数据,则可以通过如下方式扩展程序: ```java public List<String[]> getSortedWordGroupCount(String filename) throws IOException { BufferedReader reader = new BufferedReader(new FileReader(filename)); StringBuilder contentBuilder = new StringBuilder(); String line; while ((line = reader.readLine()) != null) { contentBuilder.append(line).append(System.lineSeparator()); } reader.close(); String fileContent = contentBuilder.toString(); countWords(fileContent); // 转换为列表以便排序 List<String[]> resultList = new ArrayList<>(); for (Map.Entry<String, Integer> entry : wordCountMap.entrySet()) { resultList.add(new String[]{entry.getValue().toString(), entry.getKey()}); } Collections.sort(resultList, (a, b) -> Integer.compare(Integer.parseInt(b[0]), Integer.parseInt(a[0]))); return resultList; } public void printSortedWordGroupCount(String filename) { try { List<String[]> result = getSortedWordGroupCount(filename); if (result == null) { System.out.println("No result"); return; } for (String[] sa : result) { System.out.println(sa[1] + ": " + sa[0]); } } catch (IOException e) { System.err.println("Error reading file: " + e.getMessage()); } } ``` 此部分代码展示了如何从指定文件中提取内容并完成词频统计的功能。 --- #### 注意事项 - **性能优化**: 对于大文件,应考虑分批加载和内存管理。 - **正则表达式调整**: 如果涉及更多特殊字符或复杂语法规则,需进一步完善正则表达式的定义。 - **多线程支持**: 可引入并发机制提升大规模数据集下的效率。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值