如何利用boost_1_43_0正则识别汉字

本文介绍了如何使用正则表达式从字符串中匹配中文字符,并将其转换为对应的英文字符,包括代码实现和示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#include "Node.h"
#include "WordMap.h"
#include <iostream>
#include<boost/algorithm/string.hpp>
#include <boost/regex.hpp>
using namespace boost;
using namespace std;
void MatchWords(wstring wsToMatch)
{
	wregex wrg(L"([\u4e00-\u9fa5])");
	wsmatch wsm;
	vector<string>singleCharacter;
	regex_search(wsToMatch, wsm, wrg );
	std::wstring::const_iterator start = wsToMatch.begin(); 
	std::wstring::const_iterator end = wsToMatch.end(); 
	while ( boost::regex_search(start,end, wsm, wrg) )
	{
		std::wstring msg(wsm[0].first, wsm[0].second); 


		int iLen= wcstombs( NULL, wsm[1].str().c_str(), 0 );
		char *lpsz= new char[iLen+1];
		int i= wcstombs( lpsz, wsm[1].str().c_str(), iLen );
		lpsz[iLen] = '\0';
		string sToMatch(lpsz);
		delete []lpsz;
		singleCharacter.push_back(sToMatch);
		start = wsm[0].second;
	}
	for (int i=0;i<singleCharacter.size();i++)
	{
		cout<<singleCharacter[i]<<endl;
	}
}
int main(int argc, char *argv[])
{	
	std::string sToMatch = "我:是 :中国人:民";
	setlocale( LC_CTYPE, "" );


	int iWLen= mbstowcs( NULL, sToMatch.c_str(), sToMatch.length() );
	wchar_t *lpwsz= new wchar_t[iWLen+1];
	int i= mbstowcs( lpwsz, sToMatch.c_str(), sToMatch.length() );
	wstring wsToMatch(lpwsz);
	delete []lpwsz;
	MatchWords( wsToMatch );
	return 0;
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值