大模型时代程序员应有的正确姿势，零基础入门到精通，收藏这篇就够了-优快云博客

过去的一年中，最炙手可热的是以扩散模型和大语言模型为代表的 AIGC 技术的普及，在可预见的未来，这种热度仍将持续下去。无论主观上是否愿意，AIGC已经在重构我们的工作流程，重构人与人、人与机器、机器与机器的关系，上一次类似的技术变革还是上个世纪 90 年代末，互联网走向普通大众的时代。

那也是一个软件英雄辈出的时代，求伯君、丁磊、王江民、梁肇新、洪以容、张小龙皆以一己之力做出了风靡全国的产品。后面由于软件架构的日益复杂，特别是 B/S 以及移动端开发的日益复杂，2010年后小团队创业成功的案例已经很少了。

正如互联网时代，网络增进了人与人之间的联系，"网聚人的力量"释放出了巨大的生产力。在 AIGC 的时代，计算机的能力得到了极大的增强，人与机器、机器与机器之间的协作构成了新的工具杠杆，加之开源软件的广泛应用使得个体、小团队重新获得了竞争优势，在 AIGC 的时代又出现了小团队拥有巨量用户的示例。

如果说二十五年前的互联网革命个体进入门槛是编程的能力，AIGC时代则在编程能力之外还增加了对熟练开发或应用 AI 的能力。

提起程序员转型到 AI ，很多人的直觉是：搞AI啊，那数学得好吧，从高等数学、集合论、概率论、测度论、线性代数、泛函分析、凸优化整起。对于非数学专业和多数工科背景的人这个要求足以劝退。

但是在实践中，除了做 AI 编译器、优化器搞模型训练，绝大多数工作并不需要这些数学知识，以 Resnet 为例，设计这一网络架构只需要信息论的相关的知识就足够了，正如我们开汽车并不需要了解如何最优化发动机、电动机的工况。

定量的理性认知固然很好，但是很多场景下，宏观的感性认知已经足以指导我们日常的决策。

以最新的论文《Top in Chinese Data Processing: English Code Models（arxiv_2401.10286)》为例，其提出对于特定的中文应用（eg. RAG，检索增强生成）语言模型中受限的中文知识反而有助于降低幻觉。

这种现象的真实原因仍有待进一步研究，但是现有的部分中文大语言模型其 Tokenizer 部分是存在缺陷的，简单讲，中文历史上存在单字成词的传统，理论上在 Tokenizer 中除了单字和成语，不应该出现常见字的两字组合（鸳鸯、麒麟、凤凰等是特例），更进一步的，如果字出现的频率不高，单字也可以不出现（回退到 OpenAI 的方案）。

考虑到现实的算力限制，并不是每个程序员都有机会从头训练大语言模型，但是我们仍然需要对大语言模型的工作原理以及其工作方式的可能解释进行研究，因为创新往往需要通过观察事物并深入了解其原理后才能产生。

例如，在过去的一年多，多方Prompt 进行了广泛的研究，提出了 CoT, ToT 等一系列 Prompt 方法，从大语言模型的原理出发，应该怎样科学的研究 Prompt 的制作才不至于沦为“玄学"、“咒语”？

又如，大语言模型内置了大量的知识，这使得用户经常混淆其能力的来源，是来自预置知识、类比还是真实推理，以及更一般的这些知识如何增删改（CRUD)。

再如，大语言模型能够借助其参数量模拟多种不同的人格，并预测对应人格在不同环境下可能的反馈，这有助于我们在不违反医学伦理的情况进一步的探索人类的认知。

在程序员的视角看，大语言模型的出现给程序开发带来了下面若干新问题。

应用是否应该引入大语言模型，是采用 API 接入还是本地推理？

大语言模型的局限在哪里？

某类任务是否适用于大语言模型？有哪些设计模式？

如何筛选当前任务合适的大语言模型？

如何设计合适的测试、验证任务？特别在大语言模型可能已经"偷看"过公开测试集的情况

如何设计对大语言模型有效的验证方法？

如何设计、优化指示大语言模型工作的 Prompt ?