1,防书籍重复入库,反作品抄袭;
A,SimHash特征,计算海明距离,相对于标准向量计算余弦距离计算量小;
B,基于Elastic Search的书库存量章节关键段落检索;
C,基于Faiss的竞品章节向量检索;
D,基于IP代理后的爬虫对百度搜索结果进行检索,并计算相似度;
2,资金结算平台沙箱环境,变更可回溯性追踪;
背景:出现过这样的Case:在生产环境进行试算,并将试算数据发布出去;
A,隔离环境细节。沙箱环境ECS服务器,ECS配置对DB的隔离访问策略,服务Init感知环境并判断链接正确性;
B,数据同步?从线上全库同步数据;
C,验证过程?沙箱环境部署代码,跑结算任务,并根据结果进行判定;
3,章节阅读故障问题闭环自动修复;
背景:章节上架链路冗长,链路中数据冗余,领域模型定义不清晰,状态含义不明确,服务调用没考虑最终一致性,流程在链路中某些节点中断的情况;
A,端上对章节阅读故障上报事情,Kafka原始日志—>Flink日志清洗—>Kafka阅读故障,监听消息并触发章节重新上架流程;客诉量下降95%+;
B,服务领域拆分,领域模型重新定义,状态码含义定义,明确服务约定,服务调用重试机制;从长条形链路重构成中心化服务,消除数据冗余,减少数据同步;从面向业务过程升级到面向领域服务;
4,版权方合作对接外部API可配置化;
背景:对接100+书籍供应版权方,需要调用对方提供的OpenAPI接口,拉取书籍入库。接入效率较低;
A,抽象对接流程,书籍列表—书籍基本信息—章节列表—章节基本信息。OOP的方式抽象定义处理过程,并提供默认实现覆盖80%的情况,20%