自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 LSTM理解 && 在NLP中使用的实例

LSTM通过遗忘门、输入门和输出门来动态选择保留哪些信息,抑制哪些信息,从而有效地解决长期依赖问题。遗忘门:决定丢弃多少历史信息输入门:决定存储多少新信息单元状态:累计记忆信息输出门:生成当前时间步的输出这种设计使LSTM在文本分类、机器翻译和情感分析等任务中表现出色。

2025-03-04 12:35:53 681

原创 大模型decode采样策略

是影响文本质量、创造性和稳定性的关键因素。这几种方法结合使用,可以更好地控制大模型的文本生成效果。在大模型(如 GPT)生成文本时,

2025-02-24 15:32:27 701

原创 大模型warm start vs cold start

相比 Cold Start,Warm Start 更适合实际应用,特别是在大规模深度学习模型(如 GPT、BERT、ViT)中。继续训练,而不是从零开始(Cold Start)。Warm Start 是大模型训练中的关键技术,,提高训练效率,并减少计算资源消耗。指的是在训练大模型时,

2025-02-24 15:28:17 413

原创 HMM生成模型 & CRF判别模型

简而言之,CRF和神经网络在模型类型、应用场景和优势上都有很大的不同。CRF擅长序列标注中的条件依赖建模,而神经网络擅长自动学习特征并处理复杂的非线性关系。在很多现代应用中,这两者往往被结合使用以发挥各自的优势。CRF(条件随机场)在序列标注任务中尤为常用,例如命名实体识别(Named Entity Recognition, NER)、词性标注(Part-of-Speech Tagging, POS)、拼写纠错等。

2024-10-14 11:30:56 1589

转载 softmax防止溢出

softmax如何防止指数上溢?什么是指数上溢,什么是下溢?该如何解决?

2024-10-14 11:23:34 271

原创 Qdrant BM42使用

BM42 是 Qdrant 提出的新型混合搜索算法,旨在结合经典的 BM25 和基于 Transformer 的语义搜索模型。BM42 通过保留 BM25 中最重要的部分——逆文档频率(IDF),并用 Transformer 的注意力机制取代词频来衡量词语在文档中的重要性,从而解决了现代检索系统(如 RAG)中短文档的局限性。以上是个人bm42使用经验,纯原创,不接受转载,也欢迎大佬们指认错误,各位大佬喜欢的也可以关注一下!3 第一步中的embedding为常规嵌入模型的结果。以上为bm42使用流程。

2024-09-05 18:08:47 1199 3

原创 AttributeError: module ‘ras_gradio‘ has no attribute ‘Blocks‘

是不是所有方法都试过了,uninstall + install,调版本。

2024-09-05 16:29:13 601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除