在人工智能的发展历程中,早期的逻辑推理和专家系统为后来的技术进步奠定了基础。专家系统是一种智能的计算机程序,能运用专家的知识与经验进行推理、判断和决策,具有启发性、透明性和灵活性等特点。例如,专家系统可以在特定领域内,如医疗、金融和交通等,辅助专业人员进行决策。以医疗领域为例,基于 AI 大模型的智能辅助诊断系统可以通过分析患者的医学影像和病历数据,辅助医生进行癌症诊断、肺炎诊断等复杂疾病的诊断。
随着机器学习和深度学习的发展,大模型时代逐渐崛起。机器学习是一种人工智能技术,通过让机器对过去已知大量数据的学习,逐渐有能力从数据中发现接近现实的规律,并通过这些规律对未来的某些状况进行预测。而大模型,尤其是自然语言处理领域的大模型,如 GPT-3、BERT 等,是利用机器学习,特别是深度学习技术训练出来的。
大模型的发展历程可以追溯到 2006 年深度学习技术开始受到关注,到 2012 年 AlexNet 模型在 ImageNet 竞赛中取得压倒性胜利,为大模型的发展注入了新的动力。2018 年,OpenAI 和 Google 分别发布了 GPT-1 与 BERT 大模型,意味着预训练大模型成为自然语言处理领域的主流。2020 年,OpenAI 公司推出了 GPT-3,模型参数规模达到了 1750 亿,成为当时最大的语言模型。
大模型的出现,展示了机器学习,特别是深度学习在处理复杂任务上的巨大潜力。它们的成功激励着研究者探索更大、更强大的模型,也推动了机器学习算法和技术的进一步发展。同时,大模型拓展了机器学习的应用领域,具有强大的语言理解和生成能力,可以应用于问答、对话、摘要、翻译等多种自然语言处理任务。
前排提示,文末有大模型AGI-优快云独家资料包哦!
二、大模型的现状扫描
(一)国内外发展态势良好
2023 年,全球大模型发展迅速,国外以 OpenAI 的 ChatGPT 为代表,引发了社交网络的广泛关注,标志着大模型行业的加速发展。据统计,截止 2023 年 5 月,中国已成功发布超过 79 个拥有 10 亿以上参数的基础大语言模型,美国发布数量达到 100 个。全球范围内累计推出的 10 亿以上参数大语言模型总数为 202 个,中美两国所发布的模型总数占比近 90%。国内的百度文心一言、科大讯飞的星火、清华智谱的 ChatGLM4 以及商汤的 “日日新 SenseNova5.0” 等,都展现出了接近 GPT-4 的性能。开源模型和多模态模型的快速发展,预示着大模型将成为我们日常生活中的重要助手。
(二)应用场景多元化
大模型的应用场景日益多元化。在教育领域,学而思旗下的 MathGPT 模型旨在解决大型语言模型在解决数学问题时的准确性、稳定性和清晰度方面的问题,并可以提供稳定且清晰的解题步骤,提供个性化的解释。在医疗领域,百川智能专注于探索人工智能在医疗问诊领域的应用,并计划于明年推出首款应用产品。在金融领域,美国银行的招聘中,约 40% 的空缺职位是与人工智能相关的职位,例如数据工程师和量化分析师,以及合规、道德治理等职位。国内 AI + 金融同样进入应用阶段,叠加近期数据政策支持,有望于金融领域实现应用发展水平的追赶。此外,大模型在智能客服、智能推荐、情感分析等常见领域也发挥着重要作用,为各行各业提供了智能化的解决方案。
(三)技术创新持续涌现
国内大模型开发过程中技术创新不断涌现。针对大模型训练过程中的效率问题,研究人员提出了多种优化算法和并行计算技术,显著提高了训练速度和效率。年末百度发布的分别基于自研昆仑芯以及华为昇腾打造的两款 AI 实例,升级 AI 异构计算平台百舸 3.0,适配国内外主流 AI 芯片等举措极大推动了有效训练时间的进步。同时,针对大模型的推理速度问题,诸如模型压缩以及模型蒸馏技术的出现实现了减小模型大小和计算需求的目标,并从而提高模型的部署速度和实时性能。类似技术将不断互相补充,相关技术创新将进一步促进大语言模型发展。
(四)跨模态大模型深入发展
跨模态大模型能够处理不同模态的数据,为人工智能应用提供了更加丰富的可能性。对于具备云计算与技术积累的互联网大厂,腾讯、百度以及阿里云,分别在 CogView2、M6 以及 ERINE 4.0 模型上实现特定任务的突破性进展,展现了在文本与图像生成方