- 博客(132)
- 收藏
- 关注
原创 <论文>MiniCPM:利用可扩展训练策略揭示小型语言模型的潜力
本文介绍了论文《MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies》的主要研究内容。
2025-03-09 23:41:48
539
1
原创 <论文>通过频率分解MoE来增强时序预测能力
本文详细介绍了论文《FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts》的研究内容及核心创新点。
2025-02-13 09:51:05
1198
原创 <论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)
本文详细介绍了论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》的主要研究内容及创新点。
2025-02-07 18:30:48
3025
2
原创 DeepSeek中用到的Grouped-Query Attention技术是什么来头?
本文详细介绍了Grouped-Query Attention的概念、原理以及python实现。
2025-02-07 13:54:22
846
原创 DeepSeek中的Multi-head Latent Attention技术
本文详细介绍了DeepSeek大模型所用到的多头隐注意力机制的概念、核心原理及python实现。
2025-02-06 14:27:22
2539
原创 <论文>大模型可以在手机上运行?
本文介绍了论文《MiniCPM-V: A GPT-4V Level MLLM on Your Phone》的核心内容。
2025-01-23 16:11:05
877
原创 <论文>用于大语言模型去偏的因果奖励机制
本文介绍了论文《Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment》的主要研究内容。
2025-01-22 17:50:07
1266
原创 <论文>谷歌的时序大模型TimesFM
本文介绍谷歌团队发表于2023年的论文《译文:受自然语言处理(NLP)中大型语言模型最新进展的启发,我们设计了一种用于预测的时间序列基础模型,其在各种公共数据集上的开箱即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。我们的模型基于预训练一个带有输入分片的解码器风格注意力模型,使用一个包含真实世界和合成数据集的大型时间序列语料库。在一组多样化的先前未见过的预测数据集上的实验表明,该模型可以在不同领域、预测范围和时间粒度上产生准确的零样本预测。
2025-01-17 11:47:26
868
原创 <论文>如何将RAG和时序大模型相结合?
本文介绍了论文《Retrieval Augmented Time Series Forecasting》及其提出的RAG增强方法。
2025-01-15 17:58:43
849
原创 python实战(十四)——Bert-BiLSTM-CRF命名实体识别
本文使用人民日报BIO标注数据集进行了基于Bert-BiLSTM-CRF的命名实体识别建模实践。
2025-01-15 17:54:11
2827
5
原创 <论文>时序大模型如何应用于金融领域?
本文简要介绍了论文《Financial Fine-tuning a Large Time Series Model》。
2025-01-13 16:59:41
885
原创 <论文>LoRA是什么?
本文介绍了论文《LoRA: Low-Rank Adaptation of Large Language Models》的主要研究内容,并介绍了LoRA技术的基本思路。
2025-01-12 10:15:13
511
原创 <论文>什么是胶囊神经网络?
本文简要介绍了论文《Dynamic Routing Between Capsules》及其提出的胶囊神经网络核心要点。
2025-01-08 15:38:40
1259
1
原创 <论文>大模型也能做时间序列预测?
本文介绍了论文《UnderstandingDifferentDesignChoicesinTrainingLargeTimeSeriesModels》的核心研究内容。
2025-01-07 16:49:55
899
原创 python实战(十三)——基于Bert+HDBSCAN的微博热搜数据挖掘
本文使用微博热搜词条数据,展示了文本数据分析及python无监督文本挖掘的过程。
2025-01-07 09:36:47
2116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人