线性回归算法梳理

线性回归算法梳理

目录

文中肯定有许多描述不恰当、理解不到位的地方,希望大神们拍正。另外文中一些段落是在引用了一些其它博文的话的基础上的理解,如有侵犯,请指正

1. 基础知识

1.1 有监督学习

有监督又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。经历这个过程后,模型具有了预知能力。

1.2 无监督学习

无监督被称为“没有老师的学习”,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,也就是没有老师告诉你对错,全靠自己探索。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中也会用到无监督学习。

1.3过拟合与欠拟合

过拟合模型表现为在训练集上具有高方差和低偏差。
欠拟合模型表现为在训练集上具有低方差和高偏差。
过拟合会造成模型变得复杂,并尽可能拟合训练集,造成在训练集上的准确率特别高;欠拟合比较好理解就是模型简单或者说语料集偏少、特征太多,在训练集上的准确率不高,同时在测试集上的准确率也不高,这样如何训练都无法训练出有意义的参数,模型也得不到较好的效果

2. 线性回归的原理

线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。

优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据

3. 线性回归损失函数、代价函数、目标函数的概念

线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。
我们用X1,X2…Xn 去描述feature里面的分量,比如x1=房间的面积,x2=房间的朝向,等等,我们可以做出一个估计函数:
在这里插入图片描述
θ在这儿称为参数,在这的意思是调整feature中每个分量的影响力,就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1,就可以用向量的方式来表示了:
在这里插入图片描述
我们程序也需要一个机制去评估我们θ是否比较好,所以说需要对我们做出的h函数进行评估,一般这个函数称为损失函数(loss function)或者错误函数(error function),描述h函数不好的程度,在下面,我们称这个函数为J函数
在这儿我们可以认为错误函数如下:
在这里插入图片描述
这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数,前面乘上的1/2是为了在求导的时候,这个系数就不见了。

4. 一元线性回归的参数求解公式推导

在这里插入图片描述
在这里插入图片描述

5. 多元线性回归的参数求解公式推导

在这里插入图片描述
在这里插入图片描述

6. 线性回归的评估指标

衡量线性回归法的指标:MSE, RMSE和MAE
衡量线性回归法最好的指标 R Squared

7. 参考资料

https://blog.youkuaiyun.com/wx_blue_pig/article/details/79779500
https://blog.youkuaiyun.com/wx_blue_pig/article/details/79791906

Ymodem协议是一种在串行通信中用于数据传输的机制,起源于早期的Xmodem协议。该协议具备处理大容量数据文件的能力,支持数据校验、文件属性传递以及多文件批量传输。Qt是一个面向C++的跨平台开发框架,适用于构建图形界面程序及后台服务类应用。当结合Qt实现Ymodem协议时,能够开发出适用于多种设备的通信程序,包括桌面系统、嵌入式设备和移动终端。 在Qt中实现Ymodem协议,需要掌握Qt的信号与槽机制、串口通信模块(如QSerialPort)以及线程管理技术。实现过程中通常包含以下主要环节: 1. 连接初始化:在通信双方确认状态后,启动数据传输流程。 2. 数据块传输:协议支持多种数据块大小,如128字节或1024字节。每个数据块需包含数据内容、编号及校验信息。接收端需对数据进行校验以保证完整性。 3. 序列管理与响应机制:通过编号确保数据顺序,发送端在收到确认信号后继续下一块传输。若未收到有效响应,则需重传。 4. 文件元信息传输:在正式传输前,发送方需传递文件名称及大小等信息,以便接收方进行存储准备。 5. 批量传输模式:支持多个文件的连续传输,需在数据中区分不同文件的块。 6. 传输结束机制:通常通过发送空数据块来终止通信过程。 在Qt中实现Ymodem协议的代码,通常需要创建多个类来封装串口通信逻辑及协议处理功能,同时需考虑异常处理和数据恢复策略。代码涉及对QSerialPort的配置、数据流的监控、事件循环的管理等。此外,为提升用户体验,开发人员可能在代码中加入进度显示、传输速率计算等功能。 Qt的跨平台特性使得基于其开发的Ymodem协议实现具备良好的可移植性,可在不同操作系统上运行。开发此类程序需要开发者对Ymodem协议有深入了解,并熟悉Qt框架的使用,包括信号机制、多线程及串口通信等技术。高质量的代码实现能够确保协议在不同运行环境下的稳定性与可靠性。 Ymodem协议的实现常出现在开源项目中,为开发者提供了参考和借鉴,有助于技术交流与社区发展。根据文件名“SerialPortYmodem”推测,该文件可能用于处理与串口通信相关的Ymodem逻辑。开发者在使用时应仔细查阅文档,理解各模块功能,以便正确集成和应用。 综上,Qt实现Ymodem协议的开发涉及对协议机制与Qt框架的深入理解,能够构建出满足多种串行通信需求的程序。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
【更新至2024年】2007-2024年上市公司年报文本语气数据 1、时间:2007-2024年 2、来源:上市公司年报 3、指标:股票代码、会计年度、年报字数、年报词汇数、年报句子数、LM词典积极词汇数、LM词典消极词汇数、台大词典积极词汇数、台大词典消极词汇数、基于LM词典的TONE1、基于LM词典的TONE2、基于台大词典的TONE 4、范围:上市公司 5、参考文献:曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非” 王华杰,王克敏.应计操纵与年报文本信息语气操作研究 6、方法说明: 参照曾庆生等(2018)的研究,以 Loughran and McDonald(2011)提供的金融情感英文词汇列表为基础,依据有道词典和金山词霸对 LM 词典中的英文词汇进行了翻译,与曾庆生等(2018)保留一个英文词汇对应多个中文单词的情况不同,只保留与该英文词汇表达的中文情感最相关的中文词汇,最终的词汇列表包括 2080 个消极词,1076 个积极词。由此计算 LM_TONE1=(积极词汇数-消极词汇数)/年报词汇数,同时我们还提供 LM_TONE2=(积极词汇数- 消极词汇数)/(积极词汇数+消极词汇数),LM_TONE 值越大,表示当年年报文本信息语气越积极。 2)参照王华杰和王克敏(2018)的研究,使用台湾大学制作的《中文情感极性词典》,将诸如“积极”、“进步”、“高效”等积极属性词语集作为积极情绪词语列表;将诸如“低迷”、“暗淡”、“不利”等消极属性词语集作为消极情绪词语列表。基于此,计算文本信息语气 NTUSD _TONE=(积极词汇数量-消极词汇数量)/(积极词汇数量+消极词汇数量),NTUSD_TONE 值越大,表示当年年报文本信息语气越积极。 7、指标说明: [LM词典积极词汇数]-基于LM词典计算年报文本中的积极词汇数 [LM词典消极
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值