爱摸鱼的秃头哥-优快云博客

原创 LSTM理解 && 在NLP中使用的实例

LSTM通过遗忘门、输入门和输出门来动态选择保留哪些信息，抑制哪些信息，从而有效地解决长期依赖问题。遗忘门：决定丢弃多少历史信息输入门：决定存储多少新信息单元状态：累计记忆信息输出门：生成当前时间步的输出这种设计使LSTM在文本分类、机器翻译和情感分析等任务中表现出色。

2025-03-04 12:35:53 681

原创大模型decode采样策略

是影响文本质量、创造性和稳定性的关键因素。这几种方法结合使用，可以更好地控制大模型的文本生成效果。在大模型（如 GPT）生成文本时，

2025-02-24 15:32:27 701

原创大模型warm start vs cold start

相比 Cold Start，Warm Start 更适合实际应用，特别是在大规模深度学习模型（如 GPT、BERT、ViT）中。继续训练，而不是从零开始（Cold Start）。Warm Start 是大模型训练中的关键技术，，提高训练效率，并减少计算资源消耗。指的是在训练大模型时，

2025-02-24 15:28:17 413

简而言之，CRF和神经网络在模型类型、应用场景和优势上都有很大的不同。CRF擅长序列标注中的条件依赖建模，而神经网络擅长自动学习特征并处理复杂的非线性关系。在很多现代应用中，这两者往往被结合使用以发挥各自的优势。CRF（条件随机场）在序列标注任务中尤为常用，例如命名实体识别（Named Entity Recognition, NER）、词性标注（Part-of-Speech Tagging, POS）、拼写纠错等。

2024-10-14 11:30:56 1589

转载 softmax防止溢出

softmax如何防止指数上溢？什么是指数上溢，什么是下溢？该如何解决？

2024-10-14 11:23:34 271

原创 Qdrant BM42使用

BM42 是 Qdrant 提出的新型混合搜索算法，旨在结合经典的 BM25 和基于 Transformer 的语义搜索模型。BM42 通过保留 BM25 中最重要的部分——逆文档频率（IDF），并用 Transformer 的注意力机制取代词频来衡量词语在文档中的重要性，从而解决了现代检索系统（如 RAG）中短文档的局限性。以上是个人bm42使用经验，纯原创，不接受转载，也欢迎大佬们指认错误，各位大佬喜欢的也可以关注一下！3 第一步中的embedding为常规嵌入模型的结果。以上为bm42使用流程。

2024-09-05 18:08:47 1199 3

原创 AttributeError: module ‘ras_gradio‘ has no attribute ‘Blocks‘

是不是所有方法都试过了，uninstall + install，调版本。

2024-09-05 16:29:13 601

qq_45503218的博客