过往项目经验整理(搜索&存储)

本文总结了多个大数据相关项目经验,涉及图书搜索、存储优化、故障修复、版权对接、跨境商品发布、商品搜索性能提升、监控与选型等。采用的技术包括SimHash、Elasticsearch、Faiss、Kafka、Flink、Blink、Redis、DRDS等,旨在提升系统效率和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1,防书籍重复入库,反作品抄袭;

   A,SimHash特征,计算海明距离,相对于标准向量计算余弦距离计算量小;

   B,基于Elastic Search的书库存量章节关键段落检索;

   C,基于Faiss的竞品章节向量检索;

   D,基于IP代理后的爬虫对百度搜索结果进行检索,并计算相似度;

2,资金结算平台沙箱环境,变更可回溯性追踪;

   背景:出现过这样的Case:在生产环境进行试算,并将试算数据发布出去;

   A,隔离环境细节。沙箱环境ECS服务器,ECS配置对DB的隔离访问策略,服务Init感知环境并判断链接正确性;

   B,数据同步?从线上全库同步数据;

   C,验证过程?沙箱环境部署代码,跑结算任务,并根据结果进行判定;

3,章节阅读故障问题闭环自动修复;

   背景:章节上架链路冗长,链路中数据冗余,领域模型定义不清晰,状态含义不明确,服务调用没考虑最终一致性,流程在链路中某些节点中断的情况;

   A,端上对章节阅读故障上报事情,Kafka原始日志—>Flink日志清洗—>Kafka阅读故障,监听消息并触发章节重新上架流程;客诉量下降95%+;

   B,服务领域拆分,领域模型重新定义,状态码含义定义,明确服务约定,服务调用重试机制;从长条形链路重构成中心化服务,消除数据冗余,减少数据同步;从面向业务过程升级到面向领域服务;

4,版权方合作对接外部API可配置化;

   背景:对接100+书籍供应版权方,需要调用对方提供的OpenAPI接口,拉取书籍入库。接入效率较低;

   A,抽象对接流程,书籍列表—书籍基本信息—章节列表—章节基本信息。OOP的方式抽象定义处理过程,并提供默认实现覆盖80%的情况,20%

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值