[es]perl操作es中文处理

本文探讨了Perl在Elasticsearch中处理中文数据的方法,包括数据的插入、输出及检索过程中的编码问题,并提供了具体的实现代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

es默认使用utf8, perl也默认使用utf8,但是并不代表perl可以透明支持es的中文检索。

这里涉及三个和中文有关的问题,中文数据的插入,中文数据的输出和中文数据的检索。其中问题1和问题3是一样的。

输入的时候,取决于数据的来源,一般来说,取决于源程序的编码格式。一般的编辑器默认为asc模式,可以转换为utf8.

输出的时候,一般是输出到终端,所以取决于终端的编码格式。windows cmd和低版本的crt都是asc模式,putty和高版本的crt可以支持utf8格式。

如果源代码格式为asc, 使用低版本crt

#/usr/bin/env perl
#测试es的中文支持
#中文入
#中文搜索
#客户端为asc(crt)
#客户端为utf(putty)
use 5.010;
use Data::Dumper;
use JSON;
use Search::Elasticsearch;
use Encode;

my $es = Search::Elasticsearch->new(nodes => "192.168.6.150:9200");



#写入
 $es->index(
         index   => 'test',
         type    => 'chn',
         id      => 2,
         body    => {
              title   => decode('gb2312',"中文")
         }
 );    
 



#获取
 my $doc = $es->get(
         index   => 'test',
         type    => 'chn',
         id      => 2
     );

my $title=encode("gb2312",$doc->{'_source'}{'title'});  #cmd正常
#my $title=encode("utf8",$doc->{'_source'}{'title'});   #putty正常
print "$title.\n";
    



#中文查询
my $results = $es->search(
        index => 'test',
         type    => 'chn',
        body  => {
            query => {
                match => { title => decode('gb2312',"中文") }
            }
        }
    );
    

#print Dumper($results);   
my $res=encode("gb2312",$results->{'hits'}{'hits'}[0]{'_source'}{'title'});  
print "$res.\n";

#结论,向ES写入的时候,需要utf8。
#向终端输出的时候,需要和终端匹配(和环境变量无关(只和文件名等有关))

 

如果源文件格式为utf8,使用putty

#/usr/bin/env perl
#测试es的中文支持
#中文入
#中文搜索
#客户端为asc(crt)
#客户端为utf(putty)
use 5.010;
use Data::Dumper;
use JSON;
use Search::Elasticsearch;
use Encode;

my $es = Search::Elasticsearch->new(nodes => "192.168.6.150:9200");



#写入
 $es->index(
         index   => 'test',
         type    => 'chn',
         id      => 2,
         body    => {
             title   => decode('utf8',"中文")
         }
 );    
 

#写入
#文件类型,入终端类型,读终端类型,编码模式,是否乱码
#u8,crt/putty   putty    decode('utf8',"中文")    否
#ascii  crt/putty    putty    decode('gb2312',"中文")  否        
#结论 写入只和文件(字符串来源)有关 


#获取
 my $doc = $es->get(
         index   => 'test',
         type    => 'chn',
         id      => 2
     );

#my $title=encode("gb2312",$doc->{'_source'}{'title'});  #正常
my $title=encode("utf8",$doc->{'_source'}{'title'});    #crt正常
print "$title.\n";

 
#结论,输出只和终端的字符集有关


#中文查询

#中文查询
my $results = $es->search(
        index => 'test',
         type    => 'chn',
        body  => {
            query => {
                match => { title => decode('utf8',"中文") }
            }
        }
    );
    

 
my $res=encode("utf8",$results->{'hits'}{'hits'}[0]{'_source'}{'title'});  
print "$res.\n";



 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值