AI大模型认知(一)

一、认识AI。

1、什么是AI?

AI英文名称(Artificial Intelligence)中文简称(人工智能)。

AI是通过计算机系统模拟人类智能的技术,涵盖机器学习、深度学习、自然语言处理、计算机视觉等领域。AI系统能够执行通常需要人类智能的任务,如学习、推理、问题解决和语言理解。
简单来说: 可以将人的思想量化形成可执行的策略或者从本质上模仿人脑的思想行为。

2、AI带来哪些便利?

  1. 自动化
    • 工业:自动化生产线提高效率,减少人力成本。
    • 办公:自动化工具处理重复性任务,如数据录入、邮件分类。
  2. 医疗
    • 诊断:AI辅助医生更快、更准确地诊断疾病。
    • 药物研发:加速新药研发,降低成本。
  3. 交通
    • 自动驾驶:提升驾驶安全,减少交通事故。
    • 交通管理:优化交通流量,缓解拥堵。
  4. 金融
    • 风险评估:帮助银行和金融机构更精准评估风险。
    • 交易:高频交易算法提升交易效率。
  5. 零售
    • 个性化推荐:根据用户行为推荐商品,提升购物体验。
    • 库存管理:优化库存,减少浪费。
  6. 教育
    • 个性化学习:根据学生需求提供定制化学习内容。
    • 智能辅导:实时解答学生问题,提供反馈。
  7. 娱乐
    • 内容推荐:根据用户喜好推荐电影、音乐等。
    • 游戏:创造更智能、更具挑战性的游戏体验。
  8. 家居
    • 智能家居:通过语音或手机控制家电,提升生活便利。
    • 家庭安全:智能监控系统实时监控家庭安全。
  9. 语言翻译
    • 实时翻译:打破语言障碍,促进全球交流。
  10. 环境保护
    • 气候预测:提高气候预测准确性,助力应对气候变化。
    • 资源管理:优化资源使用,减少浪费。

总之: AI在多个领域带来显著便利,提升了效率、安全性和生活质量。随着技术进步,AI的应用将更加广泛,进一步改变我们的生活和工作方式。

3、AI进程及分类。

3.1、AI进程。

在这里插入图片描述

  • ENIAC(Electronic Numerical Integrator and Computer); 于1946年第一台通用计算机诞生。它由美国宾夕法尼亚大学的**约翰·莫奇利(John Mauchly)普雷斯珀·埃克特(J. Presper Eckert)**设计。

  • 1997年,IBM的超级计算机深蓝(Deep Blue)战胜了当时的国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov),这是人工智能和计算机科学领域的一个重要里程碑。

  • 2016年,AlphaGoDeepMind 开发围棋类的人工智能程序,结合了深度学习和蒙特卡洛树搜索等技术。战胜了世界顶级围棋选手 李世石(Lee Sedol),这是人工智能领域的又一重大突破。

  • 2010s年代,语音识、图像识别技术从实验室走向日常生活,广泛应用于智能助手、安防、医疗、零售、自动驾驶等领域。

    语音技术普及
    1. 智能助手:
      • Apple Siri(2011年推出):苹果公司推出的语音助手。
      • Amazon Alexa(2014年推出):亚马逊的语音助手,广泛应用于智能家居控制。
      • Microsoft Cortana(2014年推出):微软的语音助手,集成在Windows设备中。
      • Google Assistant(2016年推出):谷歌的语音助手,支持更复杂的对话和任务执行。
    2. 语音输入法:
      • 智能手机和电脑上的语音输入功能逐渐普及,通过语音快速输入文字,提升了效率。
    3. 语音翻译:
      • 谷歌翻译等工具支持实时语音翻译,帮助用户跨越语言障碍。
    4. 车载语音系统:
      • 汽车中的语音控制系统通过语音指令导航、播放音乐或拨打电话,提高了驾驶安全性。
    图像技术普及
    1. 人脸识别
      • 智能手机解锁:苹果的Face ID(2017年推出)和安卓设备的人脸解锁功能,利用人脸识别技术提供安全的生物识别认证。
      • 安防监控:人脸识别技术被用于公共场所的安防系统,帮助识别可疑人员。
    2. 社交媒体
      • 自动标注:Facebook等社交媒体平台利用图像识别技术自动识别照片中的人物并建议标签。
      • 滤镜和特效:Snapchat、Instagram等应用通过图像识别技术实现实时滤镜和AR特效。
    3. 医疗影像分析
      • 图像识别技术被用于分析医学影像(如X光片、CT扫描),辅助医生诊断疾病。
    4. 自动驾驶
      • 自动驾驶汽车利用图像识别技术识别道路、行人、交通标志等,实现安全驾驶。
    5. 零售和支付
      • 无人商店:亚马逊的Amazon Go利用图像识别技术实现“拿了就走”的购物体验。
      • 二维码和条形码识别:智能手机摄像头通过图像识别技术快速扫描二维码或条形码,用于支付和信息获取。
    6. 增强现实(AR)
      • 图像识别技术被用于AR应用,如Pokémon GO(2016年推出)和IKEA Place(家具虚拟摆放)
3.2、AI分类。

​ 人工智能(AI)根据其能力和应用范围可分三大类:

弱人工智能(ANI): 英文Artificial Narrow Intelligence。是目前最常见一种人工智能,它在很多领域都有着广泛的应用。

  • 定义: 弱人工智能是指专门设计用于执行特定任务的 AI 系统。它只能在预先定义的范围内运行,无法超越其编程限制。
  • 场景:语音助手 :如Siri、Alexa、Google、Assistant。
  • 推荐系统 :如 Netflix、Amazon 的个性化推荐。
  • 自动驾驶 :如 Tesla 的自动驾驶系统。
  • 图像识别:如人脸识别、医学影像分析。

强人工智能(AGI): 英文Artificial General Intelligence。是我们追求得目标;但实现起来非常困难过程。

  • 定义: 强人工智能是指具备与人类相当或超越人类智能的 AI 系统。它能够理解、学习和执行任何智力任务,并具备自我意识和推理能力。
  • 场景: 强人工智能尚未实现,目前仍处于理论和研究阶段。

超级人工智能(ASI): 英文Artificial Super Intelligence。 是一个充满未知的领域,既让我们兴奋又让我们担忧。

  • 定义: 超级人工智能是指远远超越人类智能的 AI 系统。它不仅能够执行所有人类能做的任务,还能在速度、效率和创造性上远超人类。
  • 场景: 目前仅存在于科幻作品和理论探讨中。
类别能力范围自我意识现状例子
弱人工智能 (ANI)特定任务已广泛应用Siri、自动驾驶、推荐系统
强人工智能 (AGI)通用任务尚未实现理论中的通用 AI
超级人工智能 (ASI)超越人类的所有任务仅存在于理论科幻作品中的超级 AI

4、AI版本时代

4.1、AI 1.0时代 :

AI1.0(20 世纪 50 年代 - 21 世纪初)时代;

通常指的是人工智能的早期阶段,这个阶段的人工智能主要是基于规则的系统和早期的机器学习算法。

  1. 基于规则的 AI
    • AI 系统主要依赖预定义的规则和逻辑,通过专家系统(Expert Systems)解决特定问题。
    • 例如:医疗诊断系统 MYCIN(1976 年)和国际象棋程序 Deep Blue(1997 年)。
  2. 局限性
    • 需要人工编写大量规则,难以处理复杂和模糊的任务。
    • 缺乏学习能力,无法从数据中自动改进。
  3. 应用领域
    • 主要用于科学研究、工业自动化和简单的决策支持系统。
  4. 技术基础
    • 逻辑推理、符号主义(Symbolic AI)和早期机器学习算法(如决策树)。
4.2、AI 2.0 时代:

AI2.0(21 世纪初 - 至今)时代;

指的是人工智能技术的现代阶段,这个阶段以深度学习、大数据和云计算的兴起为标志。可以人机协同、局部自动和全程自动。

  1. 数据驱动的 AI
    • AI 系统通过大量数据进行训练,利用机器学习(尤其是深度学习)自动学习模式和规律。
    • 例如:AlphaGo(2016 年)、ChatGPT(2022 年)。
  2. 强大的学习能力
    • 能够从数据中提取特征,无需人工设计规则。
    • 通过神经网络(如卷积神经网络 CNN、循环神经网络 RNN)处理复杂任务。
  3. 广泛应用
    • 渗透到日常生活的方方面面,如语音助手、推荐系统、自动驾驶、医疗诊断等。
  4. 技术基础
    • 深度学习、强化学习、自然语言处理(NLP)、计算机视觉(CV)等。
  5. 计算能力
    • 依赖高性能计算(如 GPU、TPU)和大规模云计算资源。
4.3、AI版本区别
方面AI 1.0AI 2.0
核心技术基于规则、符号主义数据驱动、深度学习
学习能力无学习能力,依赖人工规则自动学习,从数据中提取模式
数据处理处理结构化数据处理非结构化数据(如图像、语音、文本)
应用范围狭窄,主要用于特定任务广泛,渗透到日常生活和各行各业
计算需求计算资源需求较低依赖高性能计算和大规模云计算
代表性成果Deep Blue(国际象棋)、MYCIN(医疗)AlphaGo(围棋)、ChatGPT(自然语言)

二、大模型与通用人工智能。

1、LLM。

大模型,全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。

简单来说: 是一种通过大规模数据训练的语言模型,能够理解和生成人类语言。

在这里插入图片描述

  1. GPT模型(OpenAI):如 GPT-3、GPT-4。

    ​ 英文名称:Generative Pre-trained Transformer。

    ​ 是一种基于Transformer架构的生成式预训练模型。以其强大的文本生成和理解能力闻名。

  2. BERT模型(Google):

    ​ 英文名称: Bidirectional Encoder Representations from Transformers。

    ​ 是一种预训练的语言模型,专注于语言理解。BERT的核心思想是通过双向Transformer

    ​ 编码器来捕捉文本中的上下文信息,从而生成更丰富的语言表示。

  3. T5模型(Google):支持多种 NLP 任务。

    ​ 英文名称: Text-To-Text Transfer Transformer。

    ​ 是一种将所有自然语言处理(NLP)任务统一为文本到文本(Text-to-Text) 的形式,即将

    ​ 各种NLP任务转化为对输入文本进行变换,从而得到对应的输出文本。‌

  4. PaLM模型(Google):大规模多任务语言模型。

    ​ 英文名称:Pathways Language Model。

    ​ 是由Google的DeepMind团队开发的一种超大语言模型。该模型基于Pathways分布式训练

    ​ 架构,旨在通过高效的训练架构和庞大的参数量实现强大的自然语言处理(NLP)能力。

    ​ PaLM 是 Google 在语言模型领域的最新成果之一,展示了其在多任务学习和通用人工智能

    ​ (AGI)方向上的探索。

2、AGI。

AGI(Artificial General Intelligence,通用人工智能)

简称AGI,指的是一种智能,能够理解、学习和应用知识和技能,在任何人类智能能够执行的广泛任务上表现得和人类一样好,甚至更好。AGI是一个未来的目标,目前尚未实现,它需要能够处理极其广泛的问题和环境,具有很高的适应性、自主性和创造性。

案例: 人形机器人(宇树科技)

2.1、LLM与AGI的联系。
  • 研究基础:当前的大模型是通向AGI的一种可能的研究途径。通过开发和训练大模型,研究者可以探索智能行为的各种方面,包括语言理解、问题解决和学习能力。例如,通过改进算法、增加模型的泛化能力,以及探索更有效的学习方法,大模型可以逐步接近AGI的特性。
  • 技术搭桥:大模型在处理复杂任务时展示的能力可能为发展通用人工智能提供技术基础。
  • 实验平台:大模型提供了一个实验平台,研究者可以在这些平台上测试不同的理论和方法,看它们在实际应用中的表现如何,这对于理解和创建AGI至关重要。
  1. 技术基础:LLM是AGI发展中的一部分,AGI可能需要整合LLM等多项技术。
  2. 能力差异:LLM擅长语言任务,而AGI则需具备跨领域的通用智能。
  3. 发展阶段:LLM是迈向AGI的重要步骤,但AGI的实现仍需更多突破。
2.2、国外GPT发展历程。

GPT-1

  • 发布时间: 2018年
  • 模型概述: **GPT-1是由OpenAI开发的首个GPT模型,基于Transformer架构。**它标志着使用大规模预训练模型在自然语言处理领域的一个重要转变。该模型通过无监督学习从大量文本中预训练语言模型,然后通过有监督学习进行特定任务的微调。
  • 关键特点: 该模型展示了通过预训练和微调相结合的方法,可以在多个自然语言理解任务上实现显著的性能提升。

GPT-2

  • 发布时间: 2019年
  • 模型概述: GPT-2在GPT-1的基础上显著扩展了模型大小和训练数据。具体来说,GPT-2使用了15亿个模型参数,远多于GPT-1的参数数量。
  • 关键特点: GPT-2显示了出色的语言生成能力,能够产生连贯和引人入胜的文本段落。此外,OpenAI最初由于担心潜在的滥用风险,选择了不完全开放模型的访问。

GPT-3

  • 发布时间: 2020年
  • 模型概述: GPT-3是一个进一步扩大的模型,拥有1750亿个参数。这一巨大的扩展使GPT-3成为当时最大的语言模型之一。
  • 关键特点: GPT-3的性能在多个自然语言处理任务上表现出色,包括翻译、问答和摘要等。GPT-3特别引入了“few-shot learning”,即模型能够在极少量的示例指导下快速适应新任务。

GPT-4

  • 发布时间: 2023年
  • 模型概述: GPT-4进一步增强了模型的复杂性和多样性,包括改进的训练技术和更广泛的数据集。
  • 关键特点: GPT-4在处理复杂的文本理解和生成任务时表现得更加精准,同时在逻辑推理和维持上下文连贯性方面也有显著改进。
版本参数量发布时间主要改进局限性
GPT-11.17 亿2018引入 Transformer 架构,基础文本生成能力生成能力有限,连贯性不足
GPT-215 亿2019零样本学习,生成质量提升生成内容可能存在偏见
GPT-31750 亿2020零样本/少样本学习,支持复杂任务成本高,生成内容可能不准确
GPT-3.5未公开2022指令微调,对话能力增强实时信息获取能力有限
GPT-4未公开2023多模态支持,逻辑推理和生成质量显著提升成本高,实时信息获取能力有限
2.3、国内LLM介绍。

在这里插入图片描述

序号简称公司全称大模型名称地区
1百度百度在线网络技术(北京)有限公司文心一言(ERNIE)北京
2阿里巴巴阿里巴巴集团控股有限公司通义千问杭州
3腾讯腾讯科技有限公司混元(hunyuan)深圳
4华为华为技术有限公司盘古深圳
5科大讯飞科大讯飞股份有限公司星火合肥
6字节跳动北京字节跳动科技有限公司云雀北京
7商汤科技商汤科技股份有限公司日日新上海
8智谱AI北京智谱华章科技有限公司ChatGLM北京
9深度求索深度求索人工智能基础技术研究有限公司DeepSeek杭州
10澜舟科技北京澜舟科技有限公司孟子北京
  1. 百度 - 文心一言(ERNIE):百度推出的通用大模型,具备强大的自然语言理解和生成能力。
  2. 阿里巴巴 - 通义千问:由阿里云和达摩院联合开发,支持多模态任务。
  3. 腾讯 - 混元:腾讯自研的大模型,主要用于内容生成和对话系统。
  4. 华为 - 盘古:华为推出的AI大模型,聚焦行业应用。
  5. 科大讯飞 - 星火:科大讯飞推出的语言模型,专注于语音和自然语言处理。
  6. 字节跳动 - 云雀:字节跳动内部研发的大模型,支持多种AI任务。
  7. 商汤科技 - 日日新:商汤科技推出的多模态大模型,支持图像和文本处理。
  8. 智谱AI - ChatGLM:开源的中英双语对话模型,由清华大学和智谱AI联合研发。
  9. 深度求索 - DeepSeek:深度求索公司推出的通用大模型,支持多种AI应用。
  10. 澜舟科技 - 孟子:澜舟科技推出的轻量化大模型,适合中小企业使用。
DeepSeek:小而美

首先来说说DeepSeek,这个模型就像是AI界的“技术宅”,虽然名气不大,但实力绝对不容小觑。它的特点主要有几个: 轻量化:模型体积小,运行速度快,特别适合手机端和低配设备。用起来感觉就像“小而美”的代表,特别适合追求效率的小伙伴。 精准度高:在特定任务上,比如文案生成、代码辅助,DeepSeek的表现简直惊艳,有时候甚至比那些大厂模型还要强。 开源友好:技术文档和API都写得特别清楚,对开发者来说简直是福音。如果你自己搞个小项目,用DeepSeek绝对是个不错的选择。 总结:DeepSeek就像是个低调的学霸,不张扬但实力在线,适合追求效率和精准度!

阿里通义千问:潮人玩家

阿里通义千问,这个模型就像是个“潮人”,总喜欢搞点新花样: 多模态能力:不仅能处理文字,还能玩转图片、视频,简直是AI界的“跨界达人”。 互动性强:聊天时特别会“撩”,用户体验感拉满,适合喜欢新鲜感的你。 技术前沿:经常推出新功能,但偶尔也会有点小bug,适合喜欢尝鲜的你! 总结:阿里通义千问就像是个爱折腾的潮人,有趣但偶尔不靠谱,适合追求新鲜感。

百度千帆:全能选手

这个模型就像是AI界的“全能选手”,啥都能干,但有时候也显得有点“笨重”: 功能全面:聊天、写诗、翻译、编程……样样精通,堪称AI界的“瑞士军刀”。 商业化成熟:已经广泛应用在各大产品中,技术稳定但创新性稍显不足。 总结:千帆是个经验丰富的老大哥,靠谱但有点“老派”,适合追求稳定性。

腾讯混元:实干家

这个模型就像是个“实干家”,专注于垂直领域: 行业深耕:在医疗、法律、金融等领域表现突出,特别适合专业人士使用。 数据安全:特别注重隐私保护,用起来更放心。 定制化强:可以根据需求定制模型,但门槛较高,适合企业用户。 总结:腾讯混元就像是个低调的实干家,专业但不够亲民,适合有特定需求。

3、LLM趋势和挑战。

3.1、LLM发展趋势。
  • 模型规模的进一步扩大:随着硬件技术的进步和训练技术的改进,预计大模型的规模将继续增长。更大的模型可能带来更强的计算能力和更好的任务泛化能力。
  • 模型效率的提升:大模型的能效和计算效率是未来的重要发展方向。通过算法优化、更高效的架构设计和更先进的硬件支持,模型将在消耗更少资源的同时提供更快的响应和更高的性能。
  • 定制化和专用化:预计将出现更多针对特定领域或特定任务优化的模型,如GPTs系列。这些模型将提供更精准的服务,满足特定行业的需求。
  • 多模态能力的增强:将文本、图像、音频等多种数据模态整合的多模态模型将是未来的一个重要发展方向,使模型能够更全面地理解和生成跨模态内容。
  • 可解释性和透明性的提升:随着模型应用的扩展,用户和监管机构对模型的可解释性和透明性的要求也在增加。未来的模型将需要提供更好的理解和解释其决策过程的能力。
3.2、LLM挑战。
  • 伦理和安全问题:随着模型能力的增强,如何确保它们的安全使用和防止滥用成为重大挑战。这包括数据隐私、偏见的减少和滥用风险的控制。
  • 资源消耗和环境影响:大模型的训练和部署需要大量计算资源,这带来了显著的能源消耗和环境影响。如何降低这些模型的碳足迹是未来发展的重要考量。
  • 数据和模型的治理:随着模型应用的广泛化,如何有效管理使用的数据、保护个人隐私、确保数据安全和合规是另一个挑战。
  • 技术普及的不均衡:大模型技术的高成本可能导致技术普及的不均衡,使得资源丰富的机构和国家能够获得更多的好处,而资源较少的地区则可能落后。
  • 人机协作的优化:随着AI能力的提升,如何设计机制使人与机器之间的协作更加高效和和谐,特别是在复杂和创造性的任务中,是一个持续的挑战。
3.3、LLM赋能行业分析。

在这里插入图片描述

3.4、LLM分类及案例。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

suenpeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值