语言模型：文本表征&词嵌入技术调研

最新推荐文章于 2025-04-20 09:19:59 发布

xieyan0811

最新推荐文章于 2025-04-20 09:19:59 发布

阅读量1.1k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xieyan0811/article/details/140067073

1 文本表征

文本表征是自然语言处理中的关键部分，尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题，结合外部数据显得尤为重要。

为了便于存储和检索，除了保存纯文本外，还需要将文本转换为数组形式，以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。

我最近在优化本地知识存储，调研了一些文本表征方法，包括：文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合，以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分，将在之后的 8 天内在公众号连载。本文作为开篇，先给出收获和总结。(下文中 Embedding 与嵌入同义)

关键字：embedding-based retrieval，RAG，Information Retrieval

2 问题与解答

在调研之前，我一直有以下一些疑问。在研读过程中，我得到了答案和启发。以下是我目前的个人理解，可能并不完全正确。

2.1 问题一

本地知识库是否必须使用深度学习表示？

目前，知识表示的主要方法包括：基于规则的方法、统计方法和基于神经网络的方法。

现在常说的 Embedding 一般指的是基于深度学习神经网络的稠密向量存储。它对文本理解的效果是目前最好的，但在存储、转换和索引过程中占用的资源和复杂度也更大。

是否需要使用 Embedding 主要取决于使用场景。如果多数情况下只做关键字搜索和模糊搜索，使用基于规则或者统计的方法即可，无需 Embedding。但是，如果想基于本地知识做问答系统，涉及较多文本理解和对话上下文，则需要 Embedding。

其核心逻辑是：Embedding 可以理解字面意思以外的深层意思。

2.2 问题二

除了知识库，文本表示的主要应用场景有哪些？

可以说，有文字并且需要整理、预测或决策的地方都能用到文本表示。

从几篇关于 Embedding 应用的较新论文可以看出，在电子商务、信息提取、社会网络中

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄17年

626
原创

2539
点赞

7198
收藏

4920
粉丝

关注

私信

热门文章

分类专栏

大模型 47篇
论文阅读 96篇
深度学习 46篇
前端 1篇
机器学习 40篇
研究思考 1篇
算法实战 28篇
Pytorch 14篇
时序 3篇
Docker 4篇
股票数据分析 9篇
大数据 30篇
少儿编程 3篇
移动开发 112篇
linux 34篇
工具 47篇
搭建网站和服务 9篇
Arduino 18篇
Python 27篇
图形图像 20篇
区块链
随笔 9篇
自然语言处理 29篇
未发 1篇

展开全部收起

上一篇：: 使用辅助编程的一些思考

下一篇：: NLP 中文本表示和嵌入技术的调研

最新评论

Obsidian_安装
:)网上邻居: /usr/share/applications/obsidian.desktop中，第一行漏掉了“[”，应该修改为“[Desktop Entry]”
Django的异步任务队列管理_Celery
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。通过 funboost web manager 全方位可视化管理和查看你的函数运行情况，无需看文件日志。 https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html pip install funboost
论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_Search-R1_大模型+搜索引擎
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
grub无法正常启动的解决方法
llililala: 解决了么QAQ

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。