大模型
文章平均质量分 65
fertiland
喜欢旅行,爬山,慢跑
电影,音乐
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入浅出DeepSeek V3 技术报告
DeepSeek-V3 就像一个“会省钱的最强学霸”,在多个领域都有亮眼表现。它的创新点: ✅ 高效的。原创 2025-02-07 11:09:21 · 1093 阅读 · 0 评论 -
深入浅出 DeepSeek V2 高效的MoE语言模型
首先,大家知道 GPT 和 BERT 是怎么工作的吧?它们每次都让所有的神经元都参与运算(简而言之,每个神经元都跑全程只让其中一部分专家参与工作,其他专家休息。你可以想象,MoE 就像是一场足球比赛,不是全员上场,而是根据不同的任务让最合适的球员上场。在训练过程中,模型根据输入数据的特性,选择几个“专家”来进行计算,这样大大提高了效率。🎯MoE 模型就像是挑选最合适的专家来处理任务,而不是让每个人都参与。优化了 MoE,使其在处理大规模数据时不仅更高效,而且还能大幅提升模型性能。应用场景。原创 2025-02-06 23:14:28 · 1067 阅读 · 0 评论 -
streamlit app demo
【代码】streamlit app demo。原创 2024-11-09 08:35:13 · 832 阅读 · 1 评论 -
基于本地大模型的应用系统设计
最近从本地运行大模型中,深刻折服于本地运行大模型的种种魅力,或许GPU的开销会让你止步,但某一些应用场景,比如知识库系统或文本集中的相关任务,用cpu也可以玩起来。学习大模型, 跟人类学习使用电话,甚至电灯一类一样,门槛其实没有那么高,大模型也并不像各大培训课程,或排满数学公式的的书籍,以及试图介绍深层神经网络的科普知识等讲得那么玄乎其技。原创 2024-08-11 12:21:18 · 535 阅读 · 0 评论
分享