算法工程师修仙之路:吴恩达机器学习(一)

本文介绍了吴恩达的机器学习课程,涵盖机器学习的定义及其在数据挖掘、自然语言处理和计算机视觉中的应用。文章区分了监督学习与无监督学习,探讨了回归、分类等任务,并列举了Arthur Samuel和Tom Mitchell对机器学习的不同定义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

吴恩达机器学习笔记及作业代码实现中文版

第一章 绪论:初识机器学习


什么是机器学习

  • Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  • 机器学习被用于数据挖掘的原因之一是网络和自动化技术的增长,这意味着,我们有史上最大的数据集。比如说,大量的硅谷公司正在收集 web 上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。

  • 大部分的自然语言处理和大部分的计算机视觉,都应用了机器学习。学习算法还广泛
    用于自定制程序,软件能给这些自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。

  • 第一个机器学习的定义来自于 Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。

  • 由 Tom Mitchell 定义的机器学习是,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。

  • 目前存在几种不同类型的学习算法,主要的两种类型被我们称之为监督学习和无监督学习。监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。

监督学习

  • 监督学习指的就是我们给学习算法一个数据集。 这个数据集由“正确答案”组成。

  • 监督学习的基本思想是:我们数据集中的每个样本都有相应的“正确答案”, 再根据这些样本作出预测。

    • 回归问题:即通过回归来推出一个连续的输出。
    • 分类问题:其目标是推出一组离散的结果。

无监督学习

  • 无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。

  • 我们没有给算法正确答案来回应数据集中的数据,这就是无监督学习。

  • 垃圾邮件问题:如果你有标记好的数据,区别好是垃圾还是非垃圾邮件,我们把这个当作监督学习问题。

  • 新闻事件分类的例子:可以用一个聚类算法来聚类类型相同或相似的文章到一起,所以是无监督学习。

  • 细分市场的例子:可以当作无监督学习问题,因为只是拿到算法数据,再让算法去自动地发现细分市场。

内容概要:《中文大模型基准测评2025年上半年报告》由SuperCLUE团队发布,详细评估了2025年上半年中文大模型的发展状况。报告涵盖了大模型的关键进展、国内外大模型全景图及差距、专项测评基准介绍等。通过SuperCLUE基准,对45个国内外代表性大模型进行了六大任务(数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、幻觉控制)的综合测评。结果显示,海外模型如o3、o4-mini(high)在推理任务上表现突出,而国内模型如Doubao-Seed-1.6-thinking-250715在智能体Agent和幻觉控制任务上表现出色。此外,报告还分析了模型性价比、效能区间分布,并对代表性模型如Doubao-Seed-1.6-thinking-250715、DeepSeek-R1-0528、GLM-4.5等进行了详细介绍。整体来看,国内大模型在特定任务上已接近国际顶尖水平,但在综合推理能力上仍有提升空间。 适用人群:对大模型技术感兴趣的科研人员、工程师、产品经理及投资者。 使用场景及目标:①了解2025年上半年中文大模型的发展现状与趋势;②评估国内外大模型在不同任务上的表现差异;③为技术选型和性能优化提供参考依据。 其他说明:报告提供了详细的测评方法、评分标准及结果分析,确保评估的科学性和公正性。此外,SuperCLUE团队还发布了多个专项测评基准,涵盖多模态、文本、推理等多个领域,为业界提供全面的测评服务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值