蓝桥杯 2012 3 拼音字母

该博客介绍如何利用GBK编码方案计算汉字的拼音首字母。通过理解GB2312编码中一级汉字的排列顺序,可以找到对应拼音首字母。文章提供了C++处理汉字的示例,并给出了解决问题的思路,建议使用Pair存储两个字节进行搜索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键在于:对每个汉字必须能计算出它的拼音首字母。
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
GB2312编码方案对每个汉字采用两个字节表示。第一个字节为区号,第二个字节为区中的偏移号。为了能与已有的ASCII编码兼容(中西文混排),区号和偏移编号都从0xA1开始。
我们只要找到拼音a,b,c,…x,y,z 每个字母所对应的GB2312编码的第一个汉字,就可以定位所有一级汉字的拼音首字母了(不考虑多音字的情况)。下面这个表给出了前述信息。请你利用该表编写程序,求出常用汉字的拼音首字母。

a 啊 B0A1
b 芭 B0C5
c 擦 B2C1
d 搭 B4EE
e 蛾 B6EA
f 发 B7A2
g 噶 B8C1
h 哈 B9FE
j 击 BBF7
k 喀 BFA6
l 垃 C0AC
m 妈 C2E8
n 拿 C4C3
o 哦 C5B6
p 啪 C5BE
q 期 C6DA
r 然 C8BB
s 撒 C8F6
t 塌 CBFA
w 挖 CDDA
x 昔 CEF4
y 压 D1B9
z 匝 D4D1

【输入、输出格式要求】
用户先输入一个整数n (n<100),表示接下来将有n行文本。接着输入n行中文串(每个串不超过50个汉字)。
程序则输出n行,每行内容为用户输入的对应行的汉字的拼音首字母。
字母间不留空格,全部使用大写字母。
例如:
用户输入:
3
大家爱科学
北京天安门广场
软件大赛
则程序输出:
DJAKX
BJTAMGC
RJDS


此题一定要用GBK编码文本
推荐使用Windows中文操作系统进行调试
##一.基础知识
1.字节 byte
最常用的单位
什么KB,MB,GB,TB里面的B就是字节
在C语言中,用sizeof()查看所占字节数

#include <bits/stdc++.h>
using namespace std;
int main()
{
	cout << sizeof(char) << endl;
	cout << sizeof(int) << endl;
	cout << sizeof(long long) << endl;
}

如下程序 输出 1 4 8
说明字符类型char1个字节

2.位 bit
这个读 比特, 表示二进制一位
上面Byte的读"拜特"

3.ASCII
American Standard Code for Information Interchange
请读做 A-S-C-I-I码 不要读 啊克斯二码
我不知道哪位仁兄这么教我的,搞得我读习惯了,现在要改
一般是7位, 0 ~ 127.键盘上能按的字符都有了.
我看也有8位的扩展说法.

记住:
1Byte = 8Bit
1字节 = 8比特

4.GBK
GB是什么意思?国标.
虽然ASCII只用了7位,还有1位,不过8位也只有256个.剩下的128个全给中国人用也装不下辣么多汉字.
所以我们搞了GBK.(当然了,这道题说是GB2312了.一样的.)
GBK用两个字节来存汉字编码.
两个字节就16位了.
可以存2^16=65536
汉字虽然很多,不过也没6万多个.两字节当然够了
一般Windows下记事本默认编码就是这个.

##二.试验
新建一个txt,就输入一个字,回车都不要
这里写图片描述
这里写图片描述

一看真是2字节

看一下C++处理汉字的情况.

#include <bits/stdc++.h>
using namespace std;
int main()
{
    freopen("in.txt", "r", stdin);
    string s;
    getline(cin, s);
    cout << s.size() << endl;
    cout << s << endl;
}

输出

2
啊

看来cout还是满机智的,可以输出中文
不过s.size() == 2,说明确实是两字节
具体来看看
printf("%X%X", s[0], s[1]);
这里补充printf的用法
一般常用的就是
%d int
%lld long long
%c char
%s char*
但是还有
%o 8进制
%x 16进制(字母小写)
%X 16进制(字母大写)

总之输出
FFFFFFB0FFFFFFA1
前面6个F不管了
反正确实出现了B0A1正是题目的的表示
这样这个问题就基本解决了

##三.解答
用个Pair来存两个字节,然后搜索就是了,注意一下lower_bound需要判断是否完全相同,不要用错了

#include <bits/stdc++.h>
using namespace std;
typedef pair<char, char> Pair;
vector<Pair> a;
string b = "ABCDEFGHJKLMNOPQRSTWXYZ";
void init()
{
    string s = "啊芭擦搭蛾发噶哈击喀垃妈拿哦啪期然撒塌挖昔压匝";
    for (int i = 0; i < s.size(); i += 2) a.push_back(make_pair(s[i], s[i + 1]));
    //for (int i = 0; i < a.size(); i++) printf("%c %X %X\n", b[i], a[i].first, a[i].second);
}
void solve()
{
    string s;
    getline(cin, s);
    for (int i = 0; i < s.size(); i += 2) {
        auto ch = make_pair(s[i], s[i + 1]);
        int j = lower_bound(a.begin(), a.end(), ch) - a.begin();
        j += ch == a[j];
        cout << b[j - 1];
    }
    cout << endl;
}
int main()
{
    //freopen("in2.txt", "r", stdin);
    init();
    int n;
    scanf("%d\n", &n);
    while (n--) solve();
}

##四.赠送
1.测试数据 输入 in.txt

6
好好学习天天向上
建设社会主义新农村
欧洲
给我一个支点我可以撬动地球
怎
啊芭擦搭蛾发噶哈击喀垃妈拿哦啪期然撒塌挖昔压匝

2.管道
Linux Windows通用
加上可执行程序是main(Linux), 或是 main.exe(Windows)
Linux: ./main < in.txt > output
Windows main < in.txt > output
这样可以把in.txt变成标准(键盘)输入, 把output文件变成标准(屏幕)输出

3.答案 std.txt

HHXXTTXS
JSSHZYXNC
OZ
GWYGZDWKYQDDQ
Z
ABCDEFGHJKLMNOPQRSTWXYZ

4.文本比较
Linux下用diff命令
Windows下用fc命令
来比较文本内容是否相同
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值