- 博客(7)
- 收藏
- 关注
原创 LSTM理解 && 在NLP中使用的实例
LSTM通过遗忘门、输入门和输出门来动态选择保留哪些信息,抑制哪些信息,从而有效地解决长期依赖问题。遗忘门:决定丢弃多少历史信息输入门:决定存储多少新信息单元状态:累计记忆信息输出门:生成当前时间步的输出这种设计使LSTM在文本分类、机器翻译和情感分析等任务中表现出色。
2025-03-04 12:35:53
681
原创 大模型decode采样策略
是影响文本质量、创造性和稳定性的关键因素。这几种方法结合使用,可以更好地控制大模型的文本生成效果。在大模型(如 GPT)生成文本时,
2025-02-24 15:32:27
701
原创 大模型warm start vs cold start
相比 Cold Start,Warm Start 更适合实际应用,特别是在大规模深度学习模型(如 GPT、BERT、ViT)中。继续训练,而不是从零开始(Cold Start)。Warm Start 是大模型训练中的关键技术,,提高训练效率,并减少计算资源消耗。指的是在训练大模型时,
2025-02-24 15:28:17
413
原创 HMM生成模型 & CRF判别模型
简而言之,CRF和神经网络在模型类型、应用场景和优势上都有很大的不同。CRF擅长序列标注中的条件依赖建模,而神经网络擅长自动学习特征并处理复杂的非线性关系。在很多现代应用中,这两者往往被结合使用以发挥各自的优势。CRF(条件随机场)在序列标注任务中尤为常用,例如命名实体识别(Named Entity Recognition, NER)、词性标注(Part-of-Speech Tagging, POS)、拼写纠错等。
2024-10-14 11:30:56
1589
原创 Qdrant BM42使用
BM42 是 Qdrant 提出的新型混合搜索算法,旨在结合经典的 BM25 和基于 Transformer 的语义搜索模型。BM42 通过保留 BM25 中最重要的部分——逆文档频率(IDF),并用 Transformer 的注意力机制取代词频来衡量词语在文档中的重要性,从而解决了现代检索系统(如 RAG)中短文档的局限性。以上是个人bm42使用经验,纯原创,不接受转载,也欢迎大佬们指认错误,各位大佬喜欢的也可以关注一下!3 第一步中的embedding为常规嵌入模型的结果。以上为bm42使用流程。
2024-09-05 18:08:47
1199
3
原创 AttributeError: module ‘ras_gradio‘ has no attribute ‘Blocks‘
是不是所有方法都试过了,uninstall + install,调版本。
2024-09-05 16:29:13
601
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人