过往项目经验整理（搜索&存储）

最新推荐文章于 2025-01-16 09:49:46 发布

lxb_champagne

最新推荐文章于 2025-01-16 09:49:46 发布

阅读量917

点赞数

CC 4.0 BY-SA版权

分类专栏：架构设计分布式系统搜索引擎文章标签： big data java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lxb_champagne/article/details/122471949

本文总结了多个大数据相关项目经验，涉及图书搜索、存储优化、故障修复、版权对接、跨境商品发布、商品搜索性能提升、监控与选型等。采用的技术包括SimHash、Elasticsearch、Faiss、Kafka、Flink、Blink、Redis、DRDS等，旨在提升系统效率和稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1，防书籍重复入库，反作品抄袭；

A，SimHash特征，计算海明距离，相对于标准向量计算余弦距离计算量小；

B，基于Elastic Search的书库存量章节关键段落检索；

C，基于Faiss的竞品章节向量检索；

D，基于IP代理后的爬虫对百度搜索结果进行检索，并计算相似度；

2，资金结算平台沙箱环境，变更可回溯性追踪；

背景：出现过这样的Case：在生产环境进行试算，并将试算数据发布出去；

A，隔离环境细节。沙箱环境ECS服务器，ECS配置对DB的隔离访问策略，服务Init感知环境并判断链接正确性；

B，数据同步？从线上全库同步数据；

C，验证过程？沙箱环境部署代码，跑结算任务，并根据结果进行判定；

3，章节阅读故障问题闭环自动修复；

背景：章节上架链路冗长，链路中数据冗余，领域模型定义不清晰，状态含义不明确，服务调用没考虑最终一致性，流程在链路中某些节点中断的情况；

A，端上对章节阅读故障上报事情，Kafka原始日志—>Flink日志清洗—>Kafka阅读故障，监听消息并触发章节重新上架流程；客诉量下降95%+；

B，服务领域拆分，领域模型重新定义，状态码含义定义，明确服务约定，服务调用重试机制；从长条形链路重构成中心化服务，消除数据冗余，减少数据同步；从面向业务过程升级到面向领域服务；

4，版权方合作对接外部API可配置化；

背景：对接100+书籍供应版权方，需要调用对方提供的OpenAPI接口，拉取书籍入库。接入效率较低；

A，抽象对接流程，书籍列表—书籍基本信息—章节列表—章节基本信息。OOP的方式抽象定义处理过程，并提供默认实现覆盖80%的情况，20%

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。