机器学习(李鸿毅)第一天

1.回归案例分析

Step1:找模型

 x为进化前cp值,y为进化后的cp值

Step2:方法的好处

 

x轴为cp值,y轴为进化后cp值

 

loss function是在衡量w和b的好坏

{\hat{y}}^{n}为真正的数值,b+w\cdot x_{cp}^{n}为预测值,相减的平方为估测的误差

 越红代表数值越大,越偏蓝色代表结果越好,颜色代表误差大小,每个点代表一个结果

argminf(x)为取使得y最小的x

随机选取初始值w0

计算w=w0时的微分

 常数项\eta为learning rate 

微分是负数要增加w值,是正数要减少w值

T次更新值后达到极小值local optimal 

通过微分找极小值

 

 

 在线性回归中,损失函数L是凸的。没有局部最优

 

 e代表蓝点到红线的竖直距离 

将线性改为二次函数 

引入三次方

 引入四次方 ,测试数据变糟糕了,过拟合

五次方,也过拟合 

训练数据,avarage error变小

测试数据,avarage error变大

 这就是过拟合,模型不是越复杂越好,选合适的就行

 

 

不同特征的x,选择不同的y函数代入 

线性函数

 将不同特征的x都考虑到得到好的trainingdata,得到好的预测结果testingdata

 

有没有隐藏因素

 重新设计模型 

 为什么首选平滑函数?
如果一些噪音破坏了输入X;当测试时,一个更平滑的函数的影响更小。

 训练误差:\lambda越大,考虑的训练误差越小
我们喜欢平滑的函数,但不要太平滑。

 宠物小精灵:原始CP和物种几乎决定了进化后的CP 进化后(可能还有其他隐藏因素)

梯度下降法
讲座内容:理论与技巧
过度拟合和正则化

后续讲座:这些背后的更多理论
我们最终在测试数据上得到平均误差=11.1

另一组新数据如何?低估?高估了?
后续讲座:验证

"sgmediation.zip" 是一个包含 UCLA(加利福尼亚大学洛杉矶分校)开发的 sgmediation 插件的压缩包。该插件专为统计分析软件 Stata 设计,用于进行中介效应分析。在社会科学、心理学、市场营销等领域,中介效应分析是一种关键的统计方法,它帮助研究人员探究变量之间的因果关系,尤其是中间变量如何影响因变量与自变量之间的关系。Stata 是一款广泛使用的统计分析软件,具备众多命令和用户编写的程序来拓展其功能,sgmediation 插件便是其中之一。它能让用户在 Stata 中轻松开展中介效应分析,无需编写复杂代码。 下载并解压 "sgmediation.zip" 后,需将解压得到的 "sgmediation" 文件移至 Stata 的 ado 目录结构中。ado(ado 目录并非“adolescent data organization”缩写,而是 Stata 的自定义命令存放目录)目录是 Stata 存放自定义命令的地方,应将文件放置于 "ado\base\s" 子目录下。这样,Stata 启动时会自动加载该目录下的所有 ado 文件,使 "sgmediation" 命令在 Stata 命令行中可用。 使用 sgmediation 插件的步骤如下:1. 安装插件:将解压后的 "sgmediation" 文件放入 Stata 的 ado 目录。如果 Stata 安装路径是 C:\Program Files\Stata\ado\base,则需将文件复制到 C:\Program Files\Stata\ado\base\s。2. 启动 Stata:打开 Stata,确保软件已更新至最新版本,以便识别新添加的 ado 文件。3. 加载插件:启动 Stata 后,在命令行输入 ado update sgmediation,以确保插件已加载并更新至最新版本。4
《Hadoop大数据技术原理与应用》课后习题答案是一本围绕Hadoop大数据技术的基础知识问答书籍,详细介绍了Hadoop的基本概念、HDFS分布式文件系统、MapReduce分布式计算框架、Zookeeper分布式协调服务等核心知识点。 一、Hadoop基本概念 Hadoop是由Apache软件基金会维护的一个开源大数据处理框架。它分为开源社区版和商业版。社区版由Apache基金会直接维护,是官方的标准版本体系。商业版Hadoop则是由第三方商业公司在社区版基础上进行修改、整合及兼容性测试后发行的版本,例如Cloudera公司的CDH版本。 二、HDFS分布式文件系统 HDFS(Hadoop Distributed File System)是Hadoop框架中的分布式文件系统,由NameNode和DataNode组成。NameNode负责管理文件系统的元数据,DataNode则负责存储文件的实际数据。HDFS具备高可扩展性、高可靠性和高性能等特点。 三、MapReduce分布式计算框架 MapReduce是一种用于处理大规模数据的分布式计算框架,其计算过程分为Map阶段和Reduce阶段。在Map阶段,MapTask将输入数据分割成小块并执行计算任务;在Reduce阶段,ReduceTask将MapTask的输出结果进行合并,最终生成结果。 四、Zookeeper分布式协调服务 Zookeeper是一种分布式协调服务,用于管理分布式应用程序的配置信息和状态信息。它提供了分布式锁、队列、监控等功能,能够帮助开发者更便捷地构建分布式应用程序。 五、Hadoop 2.0新特性 Hadoop 2.0是Hadoop的一个新版本,相比Hadoop 1.x,它在性能和可扩展性上有显著提升。Hadoop 2.0引入了ResourceManager、NodeManager和Applicat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值