马斯克携2个华人成员及Grok 3险胜DeepSeek,疯狂启动钞能力,压力给到OpenAI

2月18日,被马斯克称为“地球上最聪明的人工智能”Grok 3推理模型亮相。发布会直播现场,他和带队工程师分坐两旁,将C位留给了两位主要负责模型研究的华人科学家。

四人中唯一身穿浅色上衣的年轻人(图中右二),引起了很多人的关注。他就是来自杭州的95后学霸——吴宇怀。

发布会直播截图

马斯克AI公司联合创始人之一

是杭州95后学霸

吴宇怀是是名95后,xAI的联合创始人,建德人,初中就读于杭州建兰中学,随后转到加拿大读高中,后来进入多伦多大学就读于人工智能专业并获得博士学位。随后在斯坦福大学师从两位著名教授Percy Liang和Jay McClelland,完成了博士后研究。

吴宇怀曾在DeepMind和OpenAI实习,吴宇怀的主要研究方向是打造具备推理能力的机器,是自训练增强推理模型STAR、语言模型Minerva、定理证明器Alpha Geometry等项目的作者或核心贡献者,在国际顶会发表过诸多论文,比如在《Nature》上发表论文《Solving Olympiad Geometry Without Human Demonstrations》。这篇论文详细描述了Alpha Geometry项目的设计和成效。论文讨论了如何通过合成大量的定理和证明来训练AI模型,以解决高难度的几何问题,标志着AI在数学推理领域的一个重要突破。2018年,吴宇怀在母校建兰中学和自己的数学老师陆韵合影 图片由受访者提供据任课老师们回忆,吴宇怀在初中时各方面就非常优秀,各门功课都拔尖。

建兰中学校长陆韵当时担任吴宇怀的数学老师。“他的数学非常好,学习很会思考,也很轻松。”陆校长记得,初中时,吴宇怀研究一道数学难题,“死磕”了一天后成功解出。当时,他加了八条辅助线。比较有意思的是,吴宇怀在初中时语文也非常出色,是语文课代表。

吴宇怀曾在一次分享中介绍,他立志于创造一个善于推理的人工智能,用于解决所有数学难题,他以数学作为研究推理的起点,目标是创造一个自动化的AI“数学家”。此前,他的部分研究被《Quanta Magazine》《纽约时报》报道。

发布会现场的另一位华人科学家Jimmy Ba(图中左二),他在多伦多大学完成本科、硕士及博士学习。

他的研究重点是深度神经网络的高效学习算法开发,还涉足强化学习、自然语言处理和人工智能等领域。他是训练深度学习模型的首选算法之一Adam optimizer的开发者。Adam optimizer即自适应矩估计优化器,是深度学习常用算法,由Jimmy Ba和另一名科学家在2014年提出。

2016年,Jimmy Ba获得了Facebook机器学习研究生奖学金;2023年2月,荣获斯隆研究奖。

越来越多华人

成为这一轮AI浪潮的有力推动者

眼下在AI领域,越来越多华人正在展示自己的实力,成为这一轮人工智能浪潮的有力推动者。据橙柿互动此前报道,算上吴宇怀和Jimmy Ba,xAI创始团队12人中,就有5张华人面孔。

比如张国栋,本科就读于浙江大学信息工程专业,大学时连续三年排名专业第一,拿了三年的国家奖学金,还获得过全国大学生数学建模竞赛一等奖,美国大学生数学建模竞赛一等奖。大二时,他对人工智能产生了浓厚兴趣,投入到计算机视觉领域的研究中;大三暑假,跟着全球著名计算机视觉专家朱松纯从事相关研究。

另一位联合创始人杨格出生在湖南,本硕就读于哈佛大学数学系,大学时期的导师是数学家丘成桐。在加入xAI前,他是微软的高级研究员。

还有一位戴子航,本科就读于清华大学工商管理学,硕博就读于卡内基梅隆大学计算机科学学院。他曾在网易、百度深度学习研究所、谷歌有过实习经历,2020年成为谷歌大脑的研究科学家。

看到张栋梁的身影,有位浙大的创业者调侃:说好的全球AI竞争,咋变浙大内部PK了呢?也是在2月18日,DeepSeek发布全新论文,提出了一种新的注意力机制——NSA,发布两个小时,就有近30万的浏览量。毕业于浙大的创始人梁文锋也是作者之一。

难怪圈子里有人表示:“马一龙这个AI的含华(人)量还挺高,应该能成。”

Grok团队成员还透露,Grok-3的语音交互功能是通过原生语音交互模型实现的,模型将能够直接理解用户语音,然后生成对应的语音回复,是一个端到端的过程,无需语音转文字、文字转语音作为中间环节。

  马斯克称,未来他们将会进一步加大数据中心的建设力度,xAI的下一个计算集群会成为世界上最强大的集群,能耗达到1.2GW,相当于数十万户家庭1年的用电量。

### Grok3DeepSeek 大型语言模型的特性与性能对比 #### 特性分析 Grok系列由埃隆·马斯克旗下的xAI团队开发,专注于高性能和多功能性的大型语言模型。Grok3继承了其前代产品的优势,在多模态处理能力方面表现出色,能够高效地处理图像、音频以及文本等多种数据形式[^1]。相比之下,DeepSeek则是一组由DeepSeek公司推出的开源大型语言模型,主要目标是通过开放源代码的方式促进社区参与和技术进步。DeepSeek模型家族包括多个变体,如DeepSeek0、DeepSeek1等,这些模型在不同应用场景下各有侧重。 在功能多样性上,Grok3因其强大的上下文理解能力和实时交互优化设计而闻名,特别适合于复杂任务指令的理解与执行。例如,它可以轻松完成涉及多步逻辑推理的任务,并且具备较高的对话连贯性和准确性。与此同时,DeepSeek虽然也支持复杂的自然语言处理任务,但由于其开源性质,可能更倾向于满足广泛的开发者需求而非单一极致体验。这使得它在某些特定领域内的表现或许不及闭源商业产品那样精细打磨,但在灵活性和可定制化程度上有一定优势。 #### 性能评估 就计算效率而言,两款模型都经过精心调优以适应大规模部署环境下的资源约束条件。然而,由于具体实现细节未完全公开,很难给出绝对意义上的量化比较结果。但从已知信息来看,Grok3得益于特斯拉硬件生态系统的紧密集成,在GPU加速等方面可能会占据一定先机;而对于希望减少依赖专有技术栈的企业来说,采用标准接口定义并广泛兼容主流框架的DeepSeek可能是更好的选择。 另外值得注意的是安全性考量——鉴于敏感行业对于数据隐私保护日益增长的关注度,任何一款成功的AI解决方案都需要妥善应对潜在风险因素。在这方面,尽管两者均承诺遵循严格的数据治理原则来保障用户信息安全,但考虑到背后运营主体的不同背景及其各自所处监管环境差异,实际操作层面仍可能存在细微差别值得进一步探讨研究。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM def load_model(model_name): tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) return tokenizer, model tokenizer_grok, model_grok = load_model("xai/grok3") # Hypothetical loading process for Grok3 tokenizer_deepseek, model_deepseek = load_model("deepseek/deepseek-large") text_input = "Explain the difference between Grok3 and DeepSeek." input_ids_grok = tokenizer_grok.encode(text_input, return_tensors='pt') output_grok = model_grok.generate(input_ids_grok) print(tokenizer_grok.decode(output_grok[0], skip_special_tokens=True)) ``` 上述代码片段展示了如何加载两个不同的LLM进行测试生成响应的过程。需要注意的是,“xai/grok3”仅为示意名称,因为目前官方并未发布具体的Hugging Face Models Hub路径链接地址。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值