
文献简录
文章平均质量分 91
记录人工智能领域文献的研究内容以及核心创新点。
CM莫问
码龄7年,算法吗喽,工作方向包括且不限于NLP、数据挖掘、AIGC
展开
-
谷歌最新发布Gemma3大模型:小规模高性能
本文介绍了谷歌发布的Gemma 3系列大模型的技术要点。原创 2025-03-20 14:24:08 · 287 阅读 · 0 评论 -
<论文>MiniCPM:利用可扩展训练策略揭示小型语言模型的潜力
本文介绍了论文《MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies》的主要研究内容。原创 2025-03-09 23:41:48 · 539 阅读 · 0 评论 -
<论文>通过频率分解MoE来增强时序预测能力
本文详细介绍了论文《FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts》的研究内容及核心创新点。原创 2025-02-13 09:51:05 · 1205 阅读 · 0 评论 -
<论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)
本文详细介绍了论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》的主要研究内容及创新点。原创 2025-02-07 18:30:48 · 3029 阅读 · 1 评论 -
<论文>大模型可以在手机上运行?
本文介绍了论文《MiniCPM-V: A GPT-4V Level MLLM on Your Phone》的核心内容。原创 2025-01-23 16:11:05 · 877 阅读 · 0 评论 -
<论文>用于大语言模型去偏的因果奖励机制
本文介绍了论文《Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment》的主要研究内容。原创 2025-01-22 17:50:07 · 1266 阅读 · 0 评论 -
<论文>谷歌的时序大模型TimesFM
本文介绍谷歌团队发表于2023年的论文《译文:受自然语言处理(NLP)中大型语言模型最新进展的启发,我们设计了一种用于预测的时间序列基础模型,其在各种公共数据集上的开箱即用零样本性能接近于每个单独数据集的最先进监督预测模型的准确性。我们的模型基于预训练一个带有输入分片的解码器风格注意力模型,使用一个包含真实世界和合成数据集的大型时间序列语料库。在一组多样化的先前未见过的预测数据集上的实验表明,该模型可以在不同领域、预测范围和时间粒度上产生准确的零样本预测。原创 2025-01-17 11:47:26 · 868 阅读 · 0 评论 -
<论文>如何将RAG和时序大模型相结合?
本文介绍了论文《Retrieval Augmented Time Series Forecasting》及其提出的RAG增强方法。原创 2025-01-15 17:58:43 · 850 阅读 · 0 评论 -
<论文>时序大模型如何应用于金融领域?
本文简要介绍了论文《Financial Fine-tuning a Large Time Series Model》。原创 2025-01-13 16:59:41 · 885 阅读 · 0 评论 -
<论文>LoRA是什么?
本文介绍了论文《LoRA: Low-Rank Adaptation of Large Language Models》的主要研究内容,并介绍了LoRA技术的基本思路。原创 2025-01-12 10:15:13 · 511 阅读 · 0 评论 -
<论文>什么是胶囊神经网络?
本文简要介绍了论文《Dynamic Routing Between Capsules》及其提出的胶囊神经网络核心要点。原创 2025-01-08 15:38:40 · 1259 阅读 · 0 评论 -
<论文>大模型也能做时间序列预测?
本文介绍了论文《UnderstandingDifferentDesignChoicesinTrainingLargeTimeSeriesModels》的核心研究内容。原创 2025-01-07 16:49:55 · 900 阅读 · 0 评论 -
<论文>语言模型能进行少样本学习?看看GPT3的答案
本文介绍了GPT3模型的核心创新点。原创 2025-01-04 13:15:47 · 946 阅读 · 0 评论 -
<论文>聊聊初代LLaMA
本文介绍了论文《LLaMA: Open and Efficient Foundation Language Models》及其提出的初代LLaMA模型核心要点。原创 2025-01-03 20:54:07 · 1138 阅读 · 0 评论 -
<论文>双语预训练模型GLM-130B
本文简要介绍了论文《GLM-130B: An Open Bilingual Pre-trained Model》及其提出的模型GLM-130B核心要点。原创 2025-01-01 17:28:11 · 774 阅读 · 0 评论 -
<论文>通过知识蒸馏的方式来压缩大模型
本文介绍了论文《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》的主要工作。原创 2024-12-28 17:45:59 · 941 阅读 · 0 评论 -
<论文>用自回归空白填充技术训练一个GLM
本文介绍了论文《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》及其提出的GLM模型核心创新点。原创 2024-12-27 14:43:23 · 774 阅读 · 0 评论 -
<论文>语言模型可以进行无监督的多任务学习?
本文介绍了GPT2模型的源文《Language Models are Unsupervised Multitask Learners》的主要工作。原创 2024-12-26 13:21:54 · 1167 阅读 · 0 评论 -
<论文>通过解耦注意力来增强Bert
本文介绍了论文《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》及其提出的DeBERTa模型核心创新点。原创 2024-12-24 10:40:58 · 1572 阅读 · 0 评论 -
<论文>如何构建一个轻量级Bert?
本文简要介绍了论文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》的主要内容以及其提出的Albert模型主要创新点。原创 2024-12-21 09:28:59 · 805 阅读 · 0 评论 -
<论文>初代GPT长什么样?
本文介绍了论文《Improving Language Understanding by Generative Pre-Training》及其提出的GPT-1模型。原创 2024-12-19 09:04:37 · 1181 阅读 · 0 评论 -
<论文>如何构建一个更鲁棒的Bert?
本文简要介绍了论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》及其所提出的RoBERTa模型的核心创新点。原创 2024-12-18 11:13:02 · 745 阅读 · 0 评论 -
<论文>Bert是什么?
本文简述了《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文的研究内容,并介绍了其提出的Bert模型核心架构。原创 2024-12-15 10:57:56 · 1222 阅读 · 0 评论 -
<论文>什么是Transformer?
本文简要总结了论文《Attention is all you need》的主要研究内容,并介绍了其提出的Transformer模型主要组件。原创 2024-12-14 22:40:47 · 789 阅读 · 0 评论