es默认使用utf8, perl也默认使用utf8,但是并不代表perl可以透明支持es的中文检索。
这里涉及三个和中文有关的问题,中文数据的插入,中文数据的输出和中文数据的检索。其中问题1和问题3是一样的。
输入的时候,取决于数据的来源,一般来说,取决于源程序的编码格式。一般的编辑器默认为asc模式,可以转换为utf8.
输出的时候,一般是输出到终端,所以取决于终端的编码格式。windows cmd和低版本的crt都是asc模式,putty和高版本的crt可以支持utf8格式。
如果源代码格式为asc, 使用低版本crt
#/usr/bin/env perl
#测试es的中文支持
#中文入
#中文搜索
#客户端为asc(crt)
#客户端为utf(putty)
use 5.010;
use Data::Dumper;
use JSON;
use Search::Elasticsearch;
use Encode;
my $es = Search::Elasticsearch->new(nodes => "192.168.6.150:9200");
#写入
$es->index(
index => 'test',
type => 'chn',
id => 2,
body => {
title => decode('gb2312',"中文")
}
);
#获取
my $doc = $es->get(
index => 'test',
type => 'chn',
id => 2
);
my $title=encode("gb2312",$doc->{'_source'}{'title'}); #cmd正常
#my $title=encode("utf8",$doc->{'_source'}{'title'}); #putty正常
print "$title.\n";
#中文查询
my $results = $es->search(
index => 'test',
type => 'chn',
body => {
query => {
match => { title => decode('gb2312',"中文") }
}
}
);
#print Dumper($results);
my $res=encode("gb2312",$results->{'hits'}{'hits'}[0]{'_source'}{'title'});
print "$res.\n";
#结论,向ES写入的时候,需要utf8。
#向终端输出的时候,需要和终端匹配(和环境变量无关(只和文件名等有关))
如果源文件格式为utf8,使用putty
#/usr/bin/env perl
#测试es的中文支持
#中文入
#中文搜索
#客户端为asc(crt)
#客户端为utf(putty)
use 5.010;
use Data::Dumper;
use JSON;
use Search::Elasticsearch;
use Encode;
my $es = Search::Elasticsearch->new(nodes => "192.168.6.150:9200");
#写入
$es->index(
index => 'test',
type => 'chn',
id => 2,
body => {
title => decode('utf8',"中文")
}
);
#写入
#文件类型,入终端类型,读终端类型,编码模式,是否乱码
#u8,crt/putty putty decode('utf8',"中文") 否
#ascii crt/putty putty decode('gb2312',"中文") 否
#结论 写入只和文件(字符串来源)有关
#获取
my $doc = $es->get(
index => 'test',
type => 'chn',
id => 2
);
#my $title=encode("gb2312",$doc->{'_source'}{'title'}); #正常
my $title=encode("utf8",$doc->{'_source'}{'title'}); #crt正常
print "$title.\n";
#结论,输出只和终端的字符集有关
#中文查询
#中文查询
my $results = $es->search(
index => 'test',
type => 'chn',
body => {
query => {
match => { title => decode('utf8',"中文") }
}
}
);
my $res=encode("utf8",$results->{'hits'}{'hits'}[0]{'_source'}{'title'});
print "$res.\n";