24. BI - 一篇文章带你详细理解特征工程核心:Embedding

本文为 「茶桁的 AI 秘籍 - BI 篇 第 24 篇」

在这里插入图片描述


Hi,你好。我是茶桁。

上一节课上,咱们学习了基于内容做推荐的一些内容,就着一个酒店的案例,将整个基于内容做推荐的流程跑了一遍,在其中我们还讲解了 N-Gram 方法,这其实算是咱们一个 NLP 的方法。

推荐系统和 NLP 结合场景多吗?其实还是挺多的。推荐系统分几个引擎,内容推荐一般是文本内容,这个跟 NLP 结合的非常多。这是在内容推荐的基础上主要做相似度推荐。所以推荐系统它是一个综合性的应用场景。

现在直播很火对吧?抖音直播,淘宝直播,京东直播,还有各种大大小小的直播平台。那直播里可能经常会上一个货架,不知道大家有没有去遇到主播进行直播的时候把连接上错的情况。好像以前老罗还是谁就干过这种事。

那直播带货没有没有上错连接呢?有这种可能性的,如果上错损失还是非常严重的,我以前就见到过一个。

那直播里可以有一个算法来帮你去做标签的匹配,就是帮你做链接匹配。

怎么做?主播在去穿某一个衣服或者擦某一个口红,你都可以去通过图像的方式来做识别,识别以后去做一个链接的一个匹配。所以推荐系统里面其实也可以对图像来去做一些结合,也就是咱们的 CV 部分。

除了直播之外,跟图像相关可以做推荐的还有什么?那大家逛淘宝的时候有一个拍照识别的场景,不知道大家有没有人用过。你并不知道商品名称,也不知道商品到底是在哪里可以找到,只有一张这个商品的图片,上面包含了一些基本特征。这个时候我们就可以把这张照片上传上去,让淘宝给你推荐跟他类似的商品,也很有可能是完全一致。如果不是,某些特征尽量一致也 OK。所以淘宝上也有一个是拍照识别推荐。

所以回到推荐系统,它是一个综合性的应用场景。文字有需求,图片也有需求,用户行为也有需求。所以不同的场景可能需要不同的

(rag_env) C:\Users\Lenovo\rag_scrapydb\src>python -c "from rag_utils import update_vector_store; update_vector_store()" 2025-07-05 13:54:57,200 - INFO - 📁 数据目录已设置为: C:\Users\Lenovo\rag_scrapydb\src\rag_data 2025-07-05 13:55:03,646 - INFO - 📥 正在从数据库获取新闻文章... 2025-07-05 13:55:04,079 - INFO - ✅ 成功获取 226 条记录 2025-07-05 13:55:04,079 - INFO - 📊 开始预处理数据... 🔄 处理条目: 100%|████████████████████████████████████████████████████████████████| 226/226 [00:00<00:00, 18835.82it/s] 2025-07-05 13:55:04,094 - INFO - ✅ 共准备 177 条有效文档 2025-07-05 13:55:04,095 - INFO - 🧠 加载 Embedding 模型... 2025-07-05 13:55:04,095 - INFO - 🧠 加载 Embedding 模型: GanymedeNil/text2vec-large-chinese 2025-07-05 13:55:22,759 - INFO - Load pretrained SentenceTransformer: GanymedeNil/text2vec-large-chinese 2025-07-05 13:55:24,392 - WARNING - No sentence-transformers model found with name GanymedeNil/text2vec-large-chinese. Creating a new one with mean pooling. 2025-07-05 13:55:33,629 - INFO - 📦 正在加载现有 FAISS 数据库: C:\Users\Lenovo\rag_scrapydb\faiss_index 2025-07-05 13:55:33,642 - INFO - Loading faiss with AVX2 support. 2025-07-05 13:55:33,742 - INFO - Successfully loaded faiss with AVX2 support. 2025-07-05 13:55:33,765 - INFO - Failed to load GPU Faiss: name 'GpuIndexIVFFlat' is not defined. Will not load constructor refs for GPU indexes. This is only an error if you're trying to use GPU Faiss. 2025-07-05 13:55:34,419 - ERROR - ❌ 增量更新向量数据库时出错: 💥 Embedding 维度不一致:当前模型输出 1024 维,但 FAISS 索引期望 384 维 2025-07-05 13:55:34,420 - ERROR - Traceback (most recent call last): File "C:\Users\Lenovo\rag_scrapydb\src\rag_utils.py", line 105, in update_vector_store raise ValueError(f"💥 Embedding 维度不一致:当前模型输出 {actual_dim} 维,但 FAISS 索引期望 {expected_dim} 维") ValueError: 💥 Embedding 维度不一致:当前模型输出 1024 维,但 FAISS 索引期望 384 维
最新发布
07-06
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

茶桁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值