大模型学习
文章平均质量分 86
记录学习主流大模型的学习过程,包括ChatGPT系列、DeepSeek、LLaMa、ChatGLM、QWen等。
cryptocxf
一个摘录个人学习笔记的地方(请尊重个人学习成果,转载或摘抄请注明出处或征得本人同意!)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek新手入门必看!技术小白简单理解底层技术原理(多头自注意力、MoE-FNN)是什么?
首先理解大模型的全生命周期包含了五个阶段:数据获取、数据预处理、模型训练、模型微调和模型推理。大模型在训练之前首先需要收集海量的多模态数据,这些数据多达数百亿个小文件,存储可能需要几TB、甚至几十TB;这些数据杂乱无章,可能包含重复数据或者广告内容,需要对这些数据进行预处理,使数据格式统一;然后将所有数据喂给大模型,经过海量算力进行模型训练形成基础大模型;为了让这个基础大模型能够应用到特定场景中,需要用特定场景的数据对模型进行二次训练,也就是模型微调;原创 2025-03-13 17:52:02 · 1354 阅读 · 0 评论 -
傻瓜都能看懂的DeepSeek使用指南:这个国产AI神器到底强在哪?
如果你听说过ChatGPT却总用不顺手,或者被其他AI的"胡言乱语"气到头疼,今天介绍的**DeepSeek(深度求索)**可能会改变你的认知——它就像一个随身携带的"理工科大学霸",特别适合解决代码、数学、算法这些烧脑问题。下次当你的代码"跑不起来又找不到原因"时,不妨把错误信息直接丢给DeepSeek。“那次服务器半夜宕机,DeepSeek通过日志里的‘oom_killer’关键词,不仅定位到是内存泄漏,还教我用。,就像给你的电脑配了一个会写代码、会解高数题、还能讨论量子力学的"天才同桌"。原创 2025-02-07 10:16:59 · 1724 阅读 · 0 评论
分享