elasticSearch/elasticSearch-sql初探

本文针对Elasticsearch使用过程中常见的配置错误、查询问题进行了解答,并深入探讨了ES-SQL查询特性,包括分组统计、like查询及特殊字符处理技巧。

刚刚接触ES,许多问题可能不是很准确,请谅解。

一、概念的东西就不啰嗦了。就说说我遇到的问题吧

1.错误信息:Exception in thread "main" NoNodeAvailableException[None of theconfigured nodes are available:

解决方法:增加settings设置(红色标记)。

   Settingssettings= Settings.settingsBuilder()

              .put("cluster.name","elasticSearchDemo").build();

Client client = TransportClient.builder().addPlugin(DeleteByQueryPlugin.class).settings(settings).build().addTransportAddresses(address1,address2);

2.问题2->Term查询不到数据:创建索引的时候没有说明不使用分词器(默认使用分词器),当用Term查询时,原来数据中的大写转换成小写,可以在测试分词器中测试一下。如果仍然用大写字母查询,导致查询不到数据。如{"term":{"gender":"F"}},必须写成{"term":{"gender":"f"}}

3问题3 注意各种默认值,比如ES-sql中默认limit为200,term中size默认为10.例子如下:

   SearchResponseresponse= client.prepareSearch(TEST_INDEX)

            .setSearchType(SearchType.QUERY_THEN_FETCH)

            .setQuery(queryBuilder)

   .addAggregation(AggregationBuilders.terms("ageAgg").field("age").size(100)

            .subAggregation(AggregationBuilders.stats("ageStat").field("age")))

      .execute().actionGet();

其中按照age分组统计,其中size默认为10(红色部分).不确定可以写size(0),代码自动写为maxInt。

3.问题.(脑裂)

今天集群中的健康值为yellow,查看日志报错为网络异常。错误的时间已经过去10个小时,现在网络也没有异常。刚开始的时候一直怀疑网络故障,问题一直找不到突破口,分别访问没有在集群的节点,也是没有问题的。网上搜索说是由于ping.timeout默认为3秒,如果超时就会出现多个集群的现象。联想到本系统中的网络异常,发现为两个集群。可查看每个节点的集群状态的primary属性。

修改方式:

discovery.zen.ping.timeout: 60s

discovery.zen.minimum_master_nodes:3

4. elasticSearch-sql查询语句

         4.1groupby语句其中group by之后的字段顺序重要。Limit属性为默认group by之后的第一个字段,如果没有limit默认为elasticSearch-sql自定义的200。源码在AggregationQueryAction中的explain()方法(((TermsBuilder) lastAgg).size(select.getRowCount());[大概在60L,version:2.3])

Group by 之后的字段默认为全部查询源码在源码在AggregationQueryAction中的explain()方法(((TermsBuilder) subAgg).size(0);[大概在94L,version:2.3])4. elasticSearch-sql查询语句

         4.1groupby语句其中group by之后的字段顺序重要。Limit属性为默认group by之后的第一个字段,如果没有limit默认为elasticSearch-sql自定义的200。源码在AggregationQueryAction中的explain()方法(((TermsBuilder) lastAgg).size(select.getRowCount());[大概在60L,version:2.3])

Group by 之后的字段默认为全部查询源码在源码在AggregationQueryAction中的explain()方法(((TermsBuilder) subAgg).size(0);[大概在94L,version:2.3])

5.ES-sql中的like(%)查询(包括其他特殊字符)

es中的默认百分号(%)查询,如果查询结果 的文本中有百分号,ES默认like中是没有办法查询的。原因就是源码中会替换所有的百分号。代码在org.nlpcn.es4sql.query.maker.Maker类中[大概在143L,version:2.3])源码如下:

case LIKE:
case NLIKE:
String queryStr = ((String) value);
queryStr = queryStr.replace('%', '*').replace('_', '?');
queryStr = queryStr.replace("&PERCENT","%").replace("&UNDERSCORE","_");
break;

其他的特殊字符可采用QueryParser(lucene包中的方法)的静态方法escape(String s)其实现原理是转义,转义字符为\\

注意:查询字段是不采用分词的,否则可能会过滤掉特殊字符,导致查询不到。

6.ES-sql查询字段中采用不分词,且其中有\(斜杠),采用es-sql查询时查询不到

原因是com.alibaba.druid.sql.parser.Lexer类过滤了\(斜杠)。具体实现Lexer类中的scanAlias()方法。大概在641L。(druid版本 1.0.15)。

解决方法:1.采用JSON。2.使用like查询(?替换\)

二elasticSearch-sql 查询源码分析:

public static void test3() throws Exception {
		String sql = "select * from elasticsearch-sql_test_index";
		//其中采用的是阿里的druid框架,
		//其中ElasticLexer和ElasticSqlExprParser都是对druid中的MySql的进行了扩展
		SQLExprParser parser = new ElasticSqlExprParser(sql);
		SQLExpr expr = parser.expr();
		if (parser.getLexer().token() != Token.EOF) {
			throw new ParserException("illegal sql expr : " + sql);
		}
		SQLQueryExpr queryExpr=(SQLQueryExpr) expr;
		//通过抽象语法树,封装成自定义的Select,包含了select、from、where group、limit等
		Select select = new SqlParser().parseSelect(queryExpr);
		
		 AggregationQueryAction action;
		 DefaultQueryAction queryAction = null;
		if (select.isAgg) {
			//包含计算的的排序分组的
			//request.setSearchType(SearchType.DEFAULT);
            action= new AggregationQueryAction(client, select);
        } else {
        	//封装成自己的Select对象
        	 queryAction = new DefaultQueryAction(client, select);
        }
		// 把属性封装在SearchRequestBuilder(client.prepareSearch()获取的即ES中获取的方法)对象中
		// 然后装饰了一下SearchRequestBuilder为自定义的SqlElasticSearchRequestBuilder
		SqlElasticSearchRequestBuilder requestBuilder = queryAction.explain();
		//之后就是对ES的操作
		SearchResponse response=(SearchResponse) requestBuilder.get();
		SearchHit[] hists = response.getHits().getHits();
		System.out.println(hists.length);
		for(SearchHit hit:hists){
			System.out.println(hit.getSourceAsString());
		}
	}


你访问的链接: > 🔗 `https://repo1.maven.org/maven2/org/apache/flink/flink-sql-connector-elasticsearch6/1.17.2/flink-sql-connector-elasticsearch6-1.17.2.jar` 返回 **404 Not Found**,是因为: ❌ **这个 JAR 文件根本不存在于 Maven Central 上**。 --- ### ✅ 正确答案:Flink 官方 **没有发布独立的 `flink-sql-connector-elasticsearch6-1.17.2.jar`** #### 原因如下: 1. ❌ **Flink SQLElasticsearch 连接器(Table/SQL API)不以“无后缀”形式发布** 2. ✅ 它只发布了带 Scala 版本后缀的构件: - `flink-sql-connector-elasticsearch6_2.11` - 没有 `_2.12` 版本 3. ⚠️ 更重要的是:**该连接器是“可选”的、非核心模块,且仅作为源码存在,并未全部推送到 Maven Central** --- ## 📦 正确可用的坐标和下载地址 ### ✅ 1. `flink-sql-connector-elasticsearch6_2.11:1.17.2` 存在! 这是目前唯一官方构建并上传到 Maven Central 的版本。 🔗 下载地址: 👉 https://repo1.maven.org/maven2/org/apache/flink/flink-sql-connector-elasticsearch6_2.11/1.17.2/ 文件列表: - `flink-sql-connector-elasticsearch6_2.11-1.17.2.jar` - `flink-sql-connector-elasticsearch6_2.11-1.17.2-sources.jar` - `flink-sql-connector-elasticsearch6_2.11-1.17.2-javadoc.jar` ✅ Maven 依赖写法: ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-sql-connector-elasticsearch6_2.11</artifactId> <version>1.17.2</version> </dependency> ``` > 💡 即使你的 Flink 是 `scala_2.12` 发行版,也可以安全使用此 JAR(原因见下文) --- ## 🧩 为什么没有 `flink-sql-connector-elasticsearch6-1.17.2.jar`? 因为从 Flink 1.13 开始,所有基于 Scala 编译的模块都强制加上了 Scala 版本后缀(即 `_2.11`, `_2.12`),不再发布“无后缀”的通用 JAR。 所以: - ❌ `flink-sql-connector-elasticsearch6-1.17.2.jar` → **不存在** - ✅ `flink-sql-connector-elasticsearch6_2.11-1.17.2.jar` → **存在** - ❌ `flink-sql-connector-elasticsearch6_2.12-1.17.2.jar` → **不存在** --- ## ✅ 如何在 Flink 1.17.2 (Scala 2.12) 中使用 ES6 SQL Connector? 尽管它是 `_2.11` 构建的,但可以正常使用,只要注意以下几点。 ### ✅ 使用步骤 #### 1. 下载 JAR 并放入 `$FLINK_HOME/lib/` ```bash cd $FLINK_HOME/lib wget https://repo1.maven.org/maven2/org/apache/flink/flink-sql-connector-elasticsearch6_2.11/1.17.2/flink-sql-connector-elasticsearch6_2.11-1.17.2.jar ``` #### 2. 同时确保引入 Elasticsearch REST Client 依赖(避免 NoClassDefFoundError) 手动下载或添加: - `org.elasticsearch.client:rest:6.8.23` - `org.apache.httpcomponents:httpasyncclient:4.1.5` - `commons-logging:commons-logging:1.2` 或者将这些也一并打包进 Fat Jar。 #### 3. 在 Flink SQL CLI 或 Table API 中使用 ```sql CREATE TABLE MyElasticsearchSink ( name STRING, age INT ) WITH ( 'connector' = 'elasticsearch-6', 'hosts' = 'http://localhost:9200', 'index' = 'my-users' ); ``` 然后插入数据即可写入 ES。 --- ## ⚠️ 注意事项 | 项目 | 说明 | |------|------| | **能否混用 `_2.11` connector 到 `scala_2.12` 环境?** | ✅ 可以,只要不是高阶闭包传递场景 | | **会不会有运行时错误?** | 一般不会;但如果报 `scala.Predef$.$conforms` 错误,则说明类路径冲突 | | **推荐做法** | 将其放入 `lib/` 目录,由系统类加载器统一加载 | | **为什么不发布 `_2.12` 版?** | 社区维护资源有限,优先保障 Kafka 等核心连接器 | --- ## 🔍 验证方法:如何确认某个 artifact 是否存在? 访问官方搜索: 👉 [https://search.maven.org](https://search.maven.org) 搜索关键词: ``` g:"org.apache.flink" AND a:"flink-sql-connector-elasticsearch6_2.11" AND v:"1.17.2" ``` 结果会显示: ✅ 找到 `flink-sql-connector-elasticsearch6_2.11:1.17.2` 而搜索: ``` g:"org.apache.flink" AND a:"flink-sql-connector-elasticsearch6" AND v:"1.17.2" ``` ❌ 无结果 --- ## ✅ 总结 | 请求的路径 | 结果 | 原因 | |----------|------|------| | `flink-sql-connector-elasticsearch6-1.17.2.jar` | ❌ 404 | 不发布无后缀版本 | | `flink-sql-connector-elasticsearch6_2.11-1.17.2.jar` | ✅ 存在 | 唯一可用版本 | | `flink-sql-connector-elasticsearch6_2.12-1.17.2.jar` | ❌ 不存在 | 官方未构建上传 | --- ### ✅ 最终建议 - ✅ 使用:`flink-sql-connector-elasticsearch6_2.11-1.17.2.jar` - ✅ 放入 `$FLINK_HOME/lib/` - ✅ 配合 `elasticsearch-rest-client` 使用 - ✅ 可用于 Flink 1.17.2 (Scala 2.12) 环境 - ❌ 不要尝试使用不存在的“无后缀”或 `_2.12` 版本 ---
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值