Solr批量导入数据

1、从solr 4.10.3 的dist 下 所需Jar包复制一份到 solr_home的索引库(db1 是我自己新建的索引库)下lib下 如果没有就新建

2、在索引库(db1)的核心配置文件(solrconfig.xml)中 添加请求处理器。

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
      <str name="config">data-config.xml</str>
     </lst>
  </requestHandler>

3、创建data-config.xml 配置对应所需配置 该文件用来连接数据库,用于导入时完成数据库字段和域的映射。

<?xml version="1.0" encoding="UTF-8" ?>  
<dataConfig>   
<dataSource type="JdbcDataSource"   
		  driver="com.mysql.jdbc.Driver"   
		  url="jdbc:mysql://localhost:3306/test"
		  user="root"   
		  password="1234"/>   
<document>   
	<entity name="product" query="SELECT id,title FROM tb_spu">
		 <field column="id" name="id"/> 
		 <field column="title" name="newtitle"/>  
	</entity>   
</document>   
 
</dataConfig>

4、在schema 中 添加field配置  与data-config.xml 中 fileld一致即可。

 <field name="newtitle" type="text_ik" indexed="true" stored="true"/>

5、测试:

### 使用 DeepSeek 进行批量数据导入 对于批量数据导入操作,DeepSeek 平台提供了多种方法来处理大规模的数据集并将其高效地迁移到目标存储位置。考虑到平台的设计理念以及架构特点,在执行此类任务时可以借鉴一些通用的最佳实践。 #### 配置 Solr 以支持批量导入 为了使Solr能够接收来自外部源的大规模记录输入,需调整`solrconfig.xml`文件配置如下所示[^2]: ```xml <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler> ``` 此设置允许通过指定路径访问自定义的`data-config.xml`文档,该文档用于描述待导入数据库的具体连接参数及其他必要选项。 #### 数据湖对象作为最终目的地 当涉及到大量流式传输过来的日志条目或者其他形式的时间序列信息时,应当考虑采用专门构建的数据结构——即所谓的“数据湖对象”,它被设计成理想的终点站,用来容纳源自不同渠道的信息片段[^1]。 #### 利用并行化提升性能 针对特别庞大的数据集合,建议启用多线程模式或是分布式计算框架来进行分割后的子任务分配给不同的处理器核心乃至物理节点完成。这种方法不仅有助于充分利用现代硬件资源(如CPU、GPU),而且还能显著提高整体吞吐量水平[^3]。 #### 实际案例中的应用实例 假设存在两个用户表单`users_1`和`users_2`,其中包含了诸如姓名、地址等个人信息字段。如果想要找出两者之间的潜在匹配项,则可以通过创建一个新的DataFrame `matches` 来保存比较结果,并利用索引列`uid_1` 和 `uid_2` 记录原始表格的位置关系以便后续查询或分析工作[^4]. ```python import pandas as pd # 假设已经获取到了两个用户的DataFrame df_matches = pd.DataFrame({ 'first_name': ['Alice', 'Bob'], 'address_1': ['Street A', 'Street B'], 'address_2': ['', 'Apt 2B'], 'marriage_status': [True, False], 'date_of_birth': ['1987-05-21', '1990-08-15'] }) print(df_matches) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值