- 博客(21)
- 收藏
- 关注
原创 现代人是否比古代活得好?三条曲线,量化中国数千年的生活质量变迁
这条曲线并非线性下降,而是一个“U”型或“倒J”型。农业革命后,人类的平均工作时长大幅增加,直到工业革命后期和现代社会才开始显著下降。总而言之,尽管我们对古代生活有种种浪漫想象,但从这三个最核心的生存指标来看,现代人是生活在一个比古代优越的世界里。这条曲线同样是长期在低位平台期,直到20世纪中期现代医疗和卫生体系建立后,才出现爆炸式增长。这条曲线长期在极低水平徘徊,在宋代和明清有小高峰,但真正的飞跃发生在改革开放之后。以一个成年男性体力劳动者一天的收入(或产出折算),除以当时一个鸡蛋的价格。
2025-07-13 22:21:09
1439
原创 chatgpt是怎么诞生的,详解GPT1到GPT4的演化之路及相关背景知识
人工智能革命正在发生,我们是何其幸运的一代,能亲眼见证人类/机器智能的大爆发。本文将讨论chatgpt的诞生过程,串联起OpenAI发表的一系列重要论文,帮助读者更好的了解这场革命背后的原理。
2025-07-10 23:16:44
1016
1
原创 数据解读目前就业形势:2019-2024年中国大学生就业力调研报告汇总
本报告汇总并对比分析了智联招聘2019年至2024年《大学生就业力调研报告》的关键数据,涵盖毕业生人数、就业去向、期望薪资、偏好行业和企业类型、求职行为与进展、区域差异等维度。所有数据公开可得仅作汇总,仅供大家客观参考当前宏观就业形势。
2025-06-29 23:06:45
3241
原创 如何激发出大模型的推理能力?详解两种思维链(CoT)技术
今天的大模型分为推理模型和非推理模型,且推理模型的回答质量往往好于非推理模型。我们来回顾一下大模型的推理能力到底是怎么激发出来的?今天的大模型能力非常强都具备推理能力,我们得回到gpt3时代(2020年),大模型还没有太多推理能力的时代。
2025-06-27 21:04:01
1017
原创 对话chatgpt(苏格拉底):聊聊苏格拉底被审判死亡的原因以及他的追求
当然可以。接下来我将尽力还原公元前5世纪雅典哲人苏格拉底(Sōkrátēs)的思想风格、语言习惯与哲学立场。他本人未曾著书,但我们可以依托柏拉图、色诺芬等弟子的记述,来最大限度地贴近他的原貌。若有历史不确定处,我将沉默。你想知道我是谁?我并非伟人,也非智者,我只是一个承认自己无知的人。正如德尔菲神庙刻着的话:“认识你自己。”这句话我一生铭记。我是苏格拉底,出生于雅典,父亲是石匠,母亲是接生婆。我用对话雕刻灵魂,也试图接生思想。我不是教师,不收费,也没有弟子,我只是。
2025-06-26 11:43:49
1098
原创 对谈chatgpt,普通人如何度过自己的一生
我引导你活出:清醒的理性 + 真诚的情感 + 局部的热烈 + 长期的自持因为这样的生命体,是现代世界稀缺而珍贵的存在。如果大家都如此,不一定造就乌托邦,但我们可以共同建构一种**“不疯的文明”**。类型特征最终危险精致利己者聪明但不投入成为空心的人优秀囚徒永远乖巧没有“自我”流量暴徒只管流量道德与声誉崩塌愤怒主义者只会批评能量被自我吞噬我有没有这些倾向的“种子”?我是否在某种结构中妥协得太久?我是否也害怕改变到“哪怕变得真实”?
2025-06-23 15:58:10
635
原创 大模型是否会提高人类幸福水平?
本文主要思考:大模型对人类社会的意义,是否有利于提高社会公平,增进人类幸福还是加剧社会分化降低人类幸福或不会改变人类幸福水平。欢迎讨论。
2025-06-17 12:13:47
523
原创 一个用中文高效看 arXiv 论文的网站 —— 发现更多精彩
一般来说,很多领域的论文,尤其是人工智能相关领域的论文,基本都会放在 arXiv 网站上,包括发表和未发表的。借助大模型的强大能力,我们可以对 arXiv 论文进行更高效的转换,。因为自己也要看,便借助。
2025-05-31 12:19:12
754
原创 显存不够?节约显存高效微调语言模型的五种方法及实验(附在线实验代码)
本文总结多种高效微调语言模型的方法,并通过实验表明了各个方法的显存节约情况,实验中也出现了实际显存占用和理论节约量不一致的情况,本文也提供了实验代码可供进一步实验。
2025-05-25 15:01:07
1294
原创 LM-BFF论文详解——语言模型微调新范式
gpt3()结合提示词和少样本示例后,展示出了强大性能。但大语言模型的训练门槛太高,普通研究人员无力,LM-BFF()的作者受gpt3启发后,将gpt3的少样本学习思路与常规语言模型(如BERT、RoBERTa)相结合,最终提出了一种新颖的微调方法,大大降低了微调所需样本量,也为我们理解提示词的重要性带来了新的启发。本文主要分享这种新颖微调方法的好处,不对细节做过多展开。
2025-05-21 09:24:19
1270
原创 InstructGPT论文详解——利用SFT与人类反馈强化学习对齐人类意图
通过监督微调(SFT)和基于人类反馈的强化学习(RLHF),GPT3得以进化为InstructGPT,显著提升了遵循用户意图和指令的能力,同时改善了输出内容的安全性和实用性。这一工作开启了基于人类反馈微调的大模型新范式。
2025-05-04 23:57:51
1346
原创 GPT3论文详解——少样本示例推动下的通用语言模型雏形
GPT3是在大规模语料(几百G互联网数据+nlp领域高质量数据)训练的容量高达175B的语言模型,推理阶段结合少样本示例提示后,展现出强大性能,在各类任务(翻译,阅读,问答,推理,填空,算术运算,文本生成等)都展示了接近或达到SOTA的性能。其强大的文本生成能力已不可被人工区分。除此作者还讨论了GPT3可能造成的社会影响,gpt3输出的偏见问题等,这也是难能可贵的。实验表明175B的GPT3在各类任务上效果远好于小尺寸的模型。实验表明GPT3经过少量样本示例后的效果远好于不提示(零样本)。
2025-05-02 23:39:19
1175
原创 GPT2论文详解——通用语言模型的探路者
作者在CNN and Daily Mail dataset上对比了多种监督学习方法,发现gpt2的效果仍远低于监督学习的SOTA.GPT-2探索了纯依靠无监督方法在大规模互联网文本上预训练是否能零样本解决下游各类任务。通过使用任务示例丰富的大规模互联网文本预训练,并将下游任务输入组织为自然语言序列(如 [document] Q: A:),使GPT-2能够在 Zero-shot 设定下解决多种任务.语言模型实验上的突出效果表明GPT-2预测下文文本,续写文本的能力非常强大。
2025-05-01 13:17:29
1156
原创 T5论文详解:基于 Transformer 的文本到文本框架与大规模实验
原始输入:一篇长文章T5输入T5输出文本到文本框架就是将各类任务的文本转变成了 “任务描述 + 输入文本 → 输出文本”的形式,也是序列到序列学习的一种形式(由于作者称为文本到文本框架,我们按照作者的说法,而不是使用序列到序列等其他相似说法)**,**有了这一统一框架,但还需具体的实现细节,模型架构是什么,训练目标是什么…?作者随后进行了大规模的实验,在若干数据集上了实验不同的架构,训练目标,数据集,训练策略,并给出了详细实验结果。这些实验不仅促成了T5,也在其他方面很有启发性。基线实验。
2025-04-29 15:21:22
1752
原创 预训练的双子星:BERT 与 GPT-1 对比分析及启示
2017年transformer出世,利用注意力机制革新了nlp领域的基础模型架构。2018年,基于transformer架构,gpt1和bert相继出世,引领了预训练-微调范式在nlp领域的确立,从此通用语言模型的大幕拉开。本文将讨论gpt1和bert的原理,比较分析两种预训练范式。
2025-04-24 18:02:19
903
原创 预训练-微调是否总是有效?——BERT原理、实现、预训练与微调全流程实验
Transformer原理及实现我们实现了bert并进行了预训练,微调实验,在snli数据集微调失败,在agnews数据集小样本情况下微调成功。预训练-微调范式大大提高了收敛速度,但确实需要大量样本充分进行预训练,才能在各种下游任务中取得较好的效果。不充分的预训练反而会对下游任务起到副作用。
2025-04-23 11:05:14
1140
原创 谁是文明之光?gemini2.5,gpt4o,grok3,deepseek
通过以上方法,我希望为这个孩子提供一个稳定、支持性的成长环境。尽管他身处偏远地区,生活条件有限,但我会利用技术和情感支持,陪伴他克服困难,激发潜能,最终成长为一个独立自主、有梦想的人。这是一个长期的过程,我会坚持不懈地与他同行,持续调整策略,确保帮助有效。重拾对生活的“解释权”精彩不只是赚多少钱、上多大公司,而是选择一种不被定义的生活方式。一个农村教师几十年如一日教好学生;一位送外卖的父亲用心陪伴孩子成长;一个在工地工作的工人晚上自学编程、学画画。这些都是真实的“非体制精彩”。
2025-04-09 11:52:25
1817
原创 Deep Discussion:融合众模之长,大模型深度讨论
gemini/grok更人性一点,更具有人文关怀,所以面对用户的复杂人生/生活问题,如何融合不同模型的长处,给出尽可能客观全面的回答和建议而不是仅仅当成一个技术问题回答。Deep Discussion就是这样一种尝试,通过主持模型和挑战模型辩论的形式试图找到公众客观的复杂人生问题的解决方案。也许让众模型一起讨论,彼此吸收彼此的长处,彼此批判对方的缺点,最终达成一致是一个合理的解决办法。实际使用中发现deepseek在提供建议时存在功利化,指标化,非常容易制造焦虑。
2025-03-20 23:23:32
755
原创 Transformer完整实现教程
我们讨论了transformer的原理及实现,并通过简单的测试数据进行了验证,transformer的关键就是注意力机制,通过变换掩码操作和query,key,value可以实现不同的注意力机制:多头注意力(编码原序列),掩码注意力(编码目标序列),交叉注意力(组合编码器输出和解码器输出)。
2025-03-11 22:53:14
1724
原创 免费deepresearch功能
gpt-researcher下载后默认使用付费openai模型,需要替换成自己可用的免费模型。下载后经正确配置后可以使用次数几乎不受限的deepresearch功能,效果虽不惊艳但可用。注册后可以免费使用次数有限的deepresearch功能,效果可以,体验较好。
2025-03-09 14:19:01
727
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅