7-10 单词长度 (15分)(超详细讲解)

本文介绍了一款使用C语言实现的单词计数器程序,该程序能够读取一行文本,忽略连续空格,准确计算并输出每个单词的长度。通过对输入字符的逐个分析,程序能够有效地区分单词与空格,适用于多种字符组成的单词。

你的程序要读入一行文本,其中以空格分隔为若干个单词,以.结束。你要输出每个单词的长度。这里的单词与语言无关,可以包括各种符号,比如it’s算一个单词,长度为4。注意,行中可能出现连续的空格;最后的’.'不计算在内。

输入格式:
输入在一行中给出一行文本,以’.'结束
提示:用scanf("%c",…);来读入一个字符,直到读到.为止。

输出格式:
在一行中输出这行文本对应的单词的长度,每个长度之间以空格隔开,行末没有最后的空格。

输入样例:
It’s great to see you here.
输出样例:
4 5 2 3 3 4

分析:
所给样例不具备代表性。因此我们要先找一个具有一定代表性的样例,然后对此分析。因此我们首先修改样例如下:
(多个空格)It’s(多个空格)great to see you here(多个空格).
输出结果:
4 5 2 3 3 4(后面没有空格)
我们主要虑两个问题:(1)一个单词开始的标志。(2)一个单词的结束标志。
本人认为一个单词的开始也是上一个单词的结束。也就是说我们在统计某个单词的字符数时,也把空格暂时计入字符数中,当出现下一次输入不再是空格时,立即统计这个单词数(公式为:总字符数-空格数-1)然后开始下一次字符计数。

此处有几项主要注意点:(1)空语句时程序什么也不输出。(2)如果总字符数-空格数-1为零时,什么也不输出(解决开头多个空格问题)。(3)遇到’.’程序停止然后输出最后一次结果且后面没有空格。

代码展示如下

#include<stdio.h>

int main(void)
{
    int letter=0;
    int blank=0;
    char input=0;

    for(;;)
    {
        input=getchar();
        if(input==32)
            ++blank;
        ++letter;
        if(input==46) //解决遇到'.'问题
            {
                if(letter-blank==1) //此处解决空语句问题
                return 0;
                printf("%d",letter-blank-1);
                return 0;
            }
        if(input!=32&&blank>0) //当下一次读入不再是空格时,blank大于零保证上一个单词输入完成
        {
            if(letter-blank>1) //判断某个单词字符数大于零
                printf("%d ",letter-blank-1);
            blank=0;
            letter=1;
        }
    }
    return 0;
}

<think>好的,我现在需要回答用户关于hadoop-mapreduce-examples-3.1.4.jar中求单词长度的介绍。首先,我需要确认这个jar包中是否真的存在这样的例子。通常Hadoop的示例包括WordCount、排序、Grep等,但单词长度统计可能不是标准示例。不过用户可能是指自己实现的例子,或者我可能记错了。 假设用户是指如何用MapReduce计算每个单词长度,我应该解释基本思路。比如,Mapper读取文本,拆单词,然后以单词长度为键,计数为值输出。Reducer汇总相同长度的出现次数。或者,可能用户想统计每个单词本身的长度布,比如每个单词对应的长度,或者所有单词长度的频率。 需要明确的是,标准示例中没有现成的单词长度统计,但可以指导用户如何自己编写。可能需要步骤说明:Mapper将每个单词转换为长度,输出(length, 1),Reducer求和。同时要提到设置输入输出路径,运行命令等。 另外,需要注意代码结构,比如Map和Reduce类的实现,以及Job配置。可能还要提到输入输出的格式,比如TextInputFormat和TextOutputFormat。需要确保示例的正确性,比如正确处理大小写和标点,但用户可能只需要基本逻辑。 最后,是否需要提供示例代码片段?用户可能希望看到具体的代码示例,或者只是原理说明。根据问题描述,“介绍一下”可能偏向原理,但具体例子会更清楚。因此,应该给出一个简单的MapReduce程序框架,说明如何统计单词长度,并指出虽然标准jar包中可能没有,但可以自行实现。 同时,检查Hadoop 3.1.4的官方文档,确认示例列表,确保不误导用户。如果确实没有该示例,要明确说明,并指导如何创建。可能用户混淆了不同的示例,比如WordCount,稍作修改即可统计长度。需要强调修改Mapper输出的键为单词长度即可。 总结回答结构:首先说明标准示例中可能没有,但实现方法,然后步骤讲解Map和Reduce阶段,给出代码片段,最后说明如何打包运行。确保语言简洁,逻辑清晰,帮助用户理解MapReduce处理此类问题的方法。</think>Hadoop MapReduce 的 `hadoop-mapreduce-examples-3.1.4.jar` 中并未直接提供“求单词长度”的官方示例,但可以通过自定义 **MapReduce 程序**实现此功能。以下是实现逻辑和步骤说明: --- ### **1. 功能目标** 统计文本中**每个单词长度的出现频率**(例如:长度为3的单词共出现100次)。 --- ### **2. MapReduce 实现原理** #### **Mapper 阶段** - **输入**:逐行读取文本文件。 - **处理**:将每行拆单词,输出键值对 `(单词长度, 1)`。 ```java // 示例代码片段(Mapper) public static class TokenizerMapper extends Mapper<Object, Text, IntWritable, IntWritable> { private final static IntWritable one = new IntWritable(1); private IntWritable wordLength = new IntWritable(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String[] words = value.toString().split("\\s+"); // 按空格单词 for (String word : words) { word = word.replaceAll("[^a-zA-Z]", ""); // 去除非字母字符(可选) if (!word.isEmpty()) { wordLength.set(word.length()); context.write(wordLength, one); // 输出 (单词长度, 1) } } } } ``` #### **Reducer 阶段** - **输入**:接收相同单词长度的键值对集合(例如 `(3, [1, 1, 1])`)。 - **处理**:对值求和,输出 `(单词长度, 总次数)`。 ```java // 示例代码片段(Reducer) public static class IntSumReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable> { private IntWritable result = new IntWritable(); public void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); // 输出 (单词长度, 总次数) } } ``` --- ### **3. 运行步骤** 1. **打包程序**:将上述代码编译为 JAR 文件(例如 `wordlength.jar`)。 2. **输入数据准备**:将待统计的文本文件上传至 HDFS: ```bash hdfs dfs -put input.txt /user/hadoop/input ``` 3. **执行任务**: ```bash hadoop jar wordlength.jar WordLengthCount /user/hadoop/input /user/hadoop/output ``` 4. **查看结果**: ```bash hdfs dfs -cat /user/hadoop/output/part-r-00000 ``` 输出示例: ``` 1 50 2 120 3 200 ... ``` --- ### **4. 注意事项** - **去除非字母字符**:根据需求决定是否清理标点符号(如 `Hello!` 算作长度5)。 - **大小写处理**:可统一转为小写 `.toLowerCase()`,避免 `Hello` 和 `HELLO` 被识别为不同单词- **性能优化**:可通过 `Combiner` 减少网络传输(与 Reducer 逻辑相同)。 --- ### **5. 扩展应用** 此模式可用于析文本特征(如密码强度、关键词布)。若需统计**每个单词的具体长度**(而非频率),可调整 Mapper 输出为 `(单词, 长度)`。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值