heda3
拥有超过10年的嵌入式开发经验,新一代信息技术工程师/人工智能博士,已申请发明专利15项,其中8项成功获批授权,并在中英文期刊上发表多篇高水平学术论文。在嵌入式系统、算法开发与技术管理领域,积累了丰富的实践经验,并持续在技术社区分享在嵌入式驱动、操作系统、上位机软件、算法优化等开发过程中遇到的关键问题、创新解决方案以及深刻的技术洞察。持续跟随行业前沿,探索嵌入式开发中的最新动态与突破性技术,共同推动技术进步与创新!
展开
-
Kmeans++ 算法对随机数据样本聚类
该文章介绍Kmeans++的基本原理及计算流程,核心思想是每个簇内的样本之间的相似度要尽可能的大,而不同簇之间的相似度要尽可能的小,以及对算法的优缺点进行对比;在产生的随机数据上使用Kmeans++算法得到不错的聚类效果原创 2023-05-07 23:15:51 · 753 阅读 · 1 评论 -
心血管疾病预测--逻辑回归实现二分类
该文章通过逻辑回归算法实现心血管疾病的二分类任务,采集的特征为生理指标(性别、年龄、体重、身高等)、 医疗检测指标(血压、血糖、胆固醇水平等)和患者提供的主观信息(吸烟、饮酒、运动等),其中关键特征为:['age', 'height', 'weight', 'ap_hi', 'ap_lo', 'cholesterol', 'gluc', 'smoke', 'active'];在验证集上实现的验证效果为:准确率72%,验证集样本10467个原创 2023-04-29 19:17:02 · 3284 阅读 · 0 评论 -
计算目标函数的全局最小值-遗传算法求解
该文章介绍了利用遗传算法求解目标函数的全局最小值,通过种群初始范围的设定可增加搜索空间的多样性,有利于找到全局最小值,以及介绍了遗传算法的一些参数设置说明原创 2023-03-26 23:59:14 · 3236 阅读 · 0 评论 -
遗传算法原理及案例解析
该文章介绍遗传算法的基本思想(进化论)、算法的应用(涉及最优化搜索问题例如特征选择、求目标函数极值等)、计算的步骤(种群初始化、计算适应度函数、选择、交叉、变异)、参数设置(4)、算法的特点、旅行商问题的解决方式原创 2023-03-19 11:49:50 · 4128 阅读 · 2 评论 -
线性回归--乐高玩具价格预测
数据描述:页面的解析建立模型预测原创 2020-02-09 00:22:24 · 2257 阅读 · 1 评论 -
回归分析及实际案例:预测鲍鱼年龄
采用多种回归分析方法进行预测,涉及线性回归/、局部加权线性回归、/岭回归、改进回归分析方法等原创 2020-01-28 22:42:58 · 12143 阅读 · 2 评论 -
逻辑回归(LR)算法预测患有疝气病症病马的死亡率
数据描述:数据集来源Horse Colic Data Set数据预处理:经过缺失值处理以及数据的类别标签整理后,实际使用的特征为20个,类别标签为存活和未存活 1和0缺失值特征使用0值填充,原因是下面将要使用逻辑回归分类器,零值特征不影响回归系数训练更新(该特征不改变回归系数)分类器:逻辑回归分类参见博文:逻辑回归(LR)--分类算法的优点是:...原创 2020-01-05 23:38:18 · 730 阅读 · 0 评论 -
朴素贝叶斯进行--垃圾邮件分类、新闻分类、个人广告获取区域倾向的解读
关联文章:统计学习--最大似然和贝叶斯估计的联系统计学习-朴素贝叶斯算法(Naive Bayes)一、垃圾邮件分类:流程:1)中文或英文的分词 中文的分词:用到了第三方分词组件jieba参考https://github.com/fxsjy/jieba 安装过程:关联文章:Anaconda 安装第三方工具包 英文的分词:使用正则表达式切分 im...原创 2019-10-03 15:36:41 · 876 阅读 · 0 评论 -
构建云服务器平台(jupter notebook)运行算法
出发点:本地电脑只有4个核心,8G内存,算法的参数选择比如网格搜索选取参数,训练速度慢且出现任务无法合并到worker的情况解决方案:1、购买云服务器(基于之前使用的阿里云平台)选取按流量计费2、在服务器上安装运行环境2.1安装anaconda(包管理软件)下载列表:https://repo.continuum.io/archive/Anaconda3-20...原创 2019-09-27 23:14:49 · 956 阅读 · 0 评论 -
统计学习-朴素贝叶斯算法(Naive Bayes)
关联文章:统计学习--最大似然和贝叶斯估计的联系解决问题监督学习模型,属于生成模型,非线性基于条件独立假设条件描述:对于给定的训练数据集,基于特征条件独立假设学习联合概率分布,其次基于此模型对新的输入x,利用贝叶斯定理求出后验概率最大的输出y(类别)模型:策略:算法公式解条件独立假设:贝叶斯定理:全概率公式:朴素贝叶斯公式及分类器...原创 2019-09-14 21:01:20 · 368 阅读 · 0 评论 -
统计学习-感知机算法
解决问题:二分类、线性分类(不能解决异或问题)感知机(perceptron):有监督学习、判别模型,SVM的基础模型:输入:输出:模型 参数为w和b策略:数据集满足线性可分性学习一个能将正类和负类完全正确分开的分离超平面1)依据误分类的点数(不是参数wb的连续可导函数,不易优化)2)误分类点到超平面S的总距离任意一点到超平面的距离:(...原创 2019-09-14 19:13:06 · 265 阅读 · 0 评论 -
统计学习--最大似然和贝叶斯估计的联系
概率和统计的区别概率是已知模型和参数,推数据;统计是已知数据,推模型和参数最大似然估计为点估计:利用数据样本信息在参数Theta下数据集X发生的概率最大贝叶斯估计为分布估计:利用数据样本信息和先验知识也即是在数据集X发生的情况下,哪一个参数yi发生的概率最大,称为后验概率,测试结果下,结果是真实的概率一个较好的例子:1、掷硬币实验...原创 2019-08-18 21:17:08 · 1188 阅读 · 0 评论 -
机器学习特征选择-t检验
在特征选择的过程中通过计算检验统计量值,比较特征之间的统计量的大小,并降序排列,选取统计值较高的特征,从而起到去除差别小的特征(此差别小的特征难以区分不同的额类别)的目的。以t检验(Student's t test)为例:假设检验通过比较两类样本的随机变化,通过计算其p值决定是否拒绝零假设,也即是说:通过计算p值,若p值小于某一阈值则认为两个样本具有显著差异,两个样本是不同的,此时拒绝...原创 2019-07-14 22:18:40 · 6491 阅读 · 0 评论 -
LDA推导
LDA是一种:有监督、线性有预测函数:y=wx (寻找最佳投影向量w)优化目标: 转化为求解特征值求解算法:QR算法数学原理:而LDA是选择投影后使得类内方差小而类间方差大的方向来投影,用到了类别信息参考:https://blog.youkuaiyun.com/shenziheng1/article/details/60467527...原创 2019-03-16 16:48:00 · 577 阅读 · 0 评论 -
决策树分类算法(包含隐形眼镜分类的代码)
决策树-(Detection Tree)首先它是一个有监督学习算法 、属于判别模型 、非线性分类优缺点:优点:(1)能够处理数值型和类别型数据(2)不需要先验知识和参数假设(3)适合高维数据(4)准确性高,计算量小缺点:(1)决策树的结果不太稳定,数据很小变化会导致生成一个完全不同的树(2)决策树学习基于启发式,每次寻找每个节点的局部最优就决策,无法保证全局最优(3)...原创 2018-10-11 23:32:38 · 1903 阅读 · 0 评论 -
机器学习结果指标评估
第一种:ROC(Receiver Operating Characteristic)目的:(1)分类结果往往不是0和1 而是0-1之间的连续变量 为此需要设定一个阈值线进行分类(2)accuracy评价方式已经满足不了。也即是引入:类不平衡问题,链接其主要分析工具是一个画在二维平面上的曲线——ROC curve。横坐标是false positive rate(FPR),纵坐标是...原创 2019-01-04 23:04:56 · 2204 阅读 · 0 评论 -
机器学习路线
python基础知识、常用的结构官方:https://docs.python.org/3/library/stdtypes.html#mapping-types-dict基础教程:菜鸟教程http://www.runoob.com/python/python-pass-statement.html库:numpy官方:https://docs.scipy.org/doc/nump...原创 2019-01-04 23:13:14 · 225 阅读 · 0 评论 -
支持向量机(SVM)
SVM是有监督学习、属于判别模型(决策函数),非线性,有预测函数,有优化目标,有求解算法(SMO) 支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。一般SVM有下面三种:硬间隔支持向量机(线性可...原创 2019-03-05 13:16:58 · 1409 阅读 · 0 评论 -
线性回归(Linear regression)算法
归类:属于有监督学习、判别模型、有预测函数、有优化目标,有优化求解算法应用:股票价格预测(依据过去的数据预测将来的状态)分类:回归按照输入变量的个数可分为:一元回归和多元回归按照输入变量和输出变量的关系可分为:线性回归和非线性回归回归可称为函数的拟合:选择一条函数曲线能很好的拟合过去的数据并且能够预测将来的数据回归:用观察使认知接近真值的过程,回归本源。参考:各种回归都...原创 2019-01-05 22:13:53 · 1872 阅读 · 0 评论 -
数据集划分方式(误差的评估方法)
数据集的划分:训练数据和测试数据(注意两者应该是互斥的) 其中训练数据可再分为:训练集和验证集 验证集用来进行模型选择和调参 ;测试数据为实际中可能会遇到的所有数据。 训练集和测试集的划分方式留出法(hold out):(注意数据的划分应该保持样本类别比例一致)(1)采用分层采样操作:先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行...原创 2019-01-06 21:18:58 · 1695 阅读 · 0 评论 -
二、模型评估
1、区别欧式距离和余旋距离?这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程...原创 2019-03-04 23:04:03 · 327 阅读 · 0 评论 -
一、特征工程
问题:1、常用的特征工程方式?答:引用图形:参考:七种常用的特征工程https://www.cnblogs.com/peizhe123/p/7412364.html总结的很好1.对于不同的特征该如何进行特征工程? (1)对于数值型特征,采用特征归一化,目的是将所有的特征统一到大致相同的我数值区间 (2)对于类别型特征,先处理成数值型特征,具体可以采用序号编码(处理...原创 2019-03-04 23:16:46 · 209 阅读 · 0 评论 -
逻辑回归(LR)--分类
逻辑回归(logistic regression)属于有监督学习,判别模型,线性分类,不支持多分类,有预测函数,优化目标,求解算法。描述:从模型,损失函数,优化算法来描述,那就是:一种假设数据服从伯努利分布,通过极大似然作为优化目标,使用梯度下降算法进行模型参数求解的二分类模型。 应用场景:比较常用: 医生病理诊断,信用评估,垃圾邮件分类 线性回归的回顾:参考上一篇文章:线性回归...原创 2019-03-06 16:03:40 · 707 阅读 · 0 评论 -
主成分分析-PCA
PCA(principal component analysis )主成分分析无监督、线性、 有预测函数、 有优化目标、求解算法预测函数:y=wx w为投影向量(可看成是一组新基)优化目标:Se=e 求解最佳的投影向量 ,以实现映射,求解算法:QR算法构建模型:依据最大化投影方差,最小平方误差,两种思路推导优化目标:1)最大投影方差转化优化目标(通过引入拉格...原创 2018-10-19 23:59:03 · 345 阅读 · 0 评论 -
PCA推导
第二种思路:原创 2019-03-16 16:40:35 · 190 阅读 · 0 评论 -
K近邻算法(KNN)(包含手写体识别、约会类型识别的代码)
K近邻:KNN-(k-nearest neighbor classification)是有监督学习、属于判别模型 、支持多分类以及回归、非线性、有预测函数、无优化目标、无优化求解算法。(算法地图)对应每个训练数据xi有对应的标签yi--监督学习;优缺点:优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。简单描述...原创 2018-10-02 21:54:01 · 624 阅读 · 0 评论