最近中国的DeepSeek爆火,被誉为国运级AI,我也用了,确实好用。我经常说,不是知识没有用,是你学的不够。
DeepSeek创始人梁文锋1985年出生于广东省湛江市。2002年,17岁的梁文锋考入浙江大学电子信息工程专业,并在2010年获得信息与通信工程硕士学位。
在校期间,他对金融市场产生了浓厚兴趣。特别是在2008年全球金融危机爆发后,他曾带领团队使用机器学习技术分析市场数据,尝试实现全自动量化交易。这一经历为梁文锋积累了实践经验,也为他日后的职业生涯奠定了坚实的基础。
各位从这个简介,看出门道了吗?也就是说他原来是炒股的。然后你现在去搜一下美国AI股市。光英伟达就暴跌5000亿美元,什么概念?去搜一下阿里巴巴体量是多少?就清楚了。
如果我是DeepSeek创始人,我不会用DeepSeek提前预判吗?一定是会的。也就是DeepSeek创始人用阳谋降维狙击了美国AI市场。当然他会获利多少,我们不清楚。但确实牛,所以同学们,没事多学习。
我前几天发了两个视频,是我用DeepSeek把术数,也就是八字科学化,数学化的一个视频,很震惊。我之前写完《朴易天下》之后,我就想过做这个事情,也发过初步想法,有头条的网友评论我,痴人说梦。
我不知道他现在还会不会这样说,你们看了我的视频之后,也一定很震惊。几分钟就给你搞出来了,你说这个惊人不。
不过搞出来了,其实才是开始。因为给出的科学化和数学化要加入一个迭代公式和损失公式,说白了,就是要你建 立数据库去修正这个方程。而这个数据库起步10万加八字案例。
我虽然从业如此多年,但也没有把客户八字一一记录,形成一个庞大的反馈数据。所以我说这个是方程有了,4乘以60的一个方程组,很牛吧。但是我怎么给它“喂数据”呢,这又是超级大工程。
DeepSeek厉害的原因主要有以下几点:
资金与算力支持
- 资金雄厚:DeepSeek的创始人梁文锋创立的幻方量化对冲基金,通过全自动量化交易积累了巨额财富,为DeepSeek提供了充足的资金,使其专注于技术研发。
- 算力保障:幻方量化早期购买了数千张英伟达A-100芯片,提供了一定的算力基础,同时还会租借云计算厂商的算力,弥补自身算力的不足。
技术创新与积累
- 架构创新:自研MLA架构和DeepSeek MOE架构,有效降低了模型的训练成本,还解决了大规模稀疏MoE模型的性能难题,使训练出的模型更高效、更准确。
- 算法优化:以Transformer架构为基础,采用了优化的算法,如在训练中通过改进技术,节省了算力和数据量,用相对少的算力和数据达到了较好的性能。
- 预训练技术:通过在海量的高质量语料数据上进行预训练,并且经过监督微调、人类反馈的强化学习等进行对齐,让模型积累了丰富的知识,能够更好地理解和处理各种自然语言任务。
开源与社区支持
- 开源共享:将核心代码和训练逻辑免费公开,吸引了全球众多开发者参与和贡献,促进了技术的创新和发展,也能在短时间内迅速提升其性能和影响力。
- 社区协作:开源使得DeepSeek能够受益于全球开发者的智慧,开发者们可以共同发现问题、解决问题,不断优化模型,推动技术的快速进步。
成本与性能优势
- 成本较低:一次完整训练只需要550万美元左右,每次生成只需要激活相对较少的参数,降低了对计算资源的需求,提高了计算效率,调用DeepSeek - R1接口的成本也只是OpenAI相关模型的几十分之一。
- 性能卓越:在数学、代码、自然语言推理等任务上,性能比肩OpenAI的o1模型正式版,其系列模型在多种基准测试中表现优异,在一些任务上超越了部分闭源模型。