当你发现系统把"主板短路排查指南"和"主板演员演技分析"混为一谈时,就该意识到这锅得Embeddings来背。这玩意儿就像川菜里的郫县豆瓣酱,用好了封神,用砸了直接翻车。咱们今天不扯公式,直接上祖传炼丹炉。
一、模型选型:别在起跑线就崴了脚
1.1 开源模型的修罗场
去年我拿某国产模型处理电子元器件文档,结果"电容"和"电溶"(客户手滑打错的词)相似度高达0.92,差点酿成生产事故。现在我的选型三板斧:
- 中文场景:无脑冲
BAAI/bge-large-zh-v1.5
,记得打开instruction
开关 - 跨语言检索:
intfloat/e5-multilingual-instruct
能让你少掉50%头发 - 垂直领域:拿
text-embedding-3-large
在专业语料上微调