
人工智能
文章平均质量分 90
包含学校的人工智能理论/实验课, 台大课, 西瓜书笔记, 以及所做人工智能相关项目记录.
lagoon_lala
越开源, 越幸运
展开
-
归因分析笔记21 可解释的机器学习-李宏毅讲座
视频链接:课件链接:作业链接:Interpretable与explainable的差异Interpretable本身就可解释的(线性模型, 单颗浅层决策树)explainable本身不可解释的模型赋予其解释(深层决策树/随机森林)原创 2023-02-21 19:50:32 · 804 阅读 · 0 评论 -
迁移学习笔记6 综述A Survey on Transfer Learning
在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布。然而,在许多现实的应用案例中,这个假设可能不会成立。.比如,我们有时候在某个感兴趣的领域有个分类任务,但是我们只有另一个感兴趣领域的足够训练数据,并且后者的数据可能处于与之前领域不同的特征空间或者遵循不同的数据分布。.这类情况下,如果知识的迁移做的成功,我们将会通过避免花费大量昂贵的标记样本数据的代价,使得学习性能取得显著的提升。....翻译 2022-08-18 20:11:07 · 1389 阅读 · 0 评论 -
迁移学习笔记5 MMDE
迁移学习解决的问题是如何利用源域中的大量标记数据来解决目标域中相关但不同的问题,即使训练和测试问题具有不同的分布或特征。在本文中,我们考虑了通过降维的转移学习。为了解决这个问题,我们学习了一个低维的潜在特征空间,其中源域数据和目标域数据之间的分布相同或接近。在这个潜在的特征空间上,我们将数据投影到相关领域,在那里我们可以应用标准学习算法来训练分类或回归模型。因此,潜在特征空间可以被看作是将知识从源域传递到目标域的桥梁。我们的主要工作是提出了一种。......翻译 2022-08-15 09:26:17 · 1908 阅读 · 0 评论 -
迁移学习笔记4:ACML-Sinno Jialin Pan
迁移学习的使用场景监督学习的假设迁移学习的假设迁移学习与主动学习, 半监督学习的区别不同的迁移学习设置(settings)四种类型的迁移方法基于样本基于特征TCA为例介绍第一种方法MMD如何计算隐空间中源域与目标域概率分布距离如何学习核矩阵TCA思想用于DNN基于参数基于关系...原创 2022-08-12 12:52:36 · 1580 阅读 · 0 评论 -
论文写作笔记7 大纲outline写作方法
构建大纲最重要的是整理归纳,把自己的写作思路整理清楚,一目了然,方便自己写作和修改。原创 2022-07-23 21:24:00 · 2332 阅读 · 0 评论 -
论文写作笔记5 JBHI相关信息
您的摘要应简要概述所进行的研究,得出的结论以及这些结论的潜在影响。一个强大的摘要还将1.由一个最多250个单词的段落组成,具有正确的语法和明确的术语2.自给自足;没有缩写、脚注、参考文献或数学方程式3.突出作品中的新颖之处4.包括3-5个描述研究的关键字或短语,以帮助读者找到您的文章大多数作者最后写摘要,并在文章发表前多次编辑,以确保它准确地捕获整篇文章。IEEE建议您不要在文章标题或摘要中包含数学符号,因为它们可能无法正确显示。...翻译 2022-07-23 21:05:16 · 6109 阅读 · 5 评论 -
论文写作笔记4 期刊选择-医学&计算机
本次有两个目标1.整理人工智能和医学结合的好的期刊列表选投哪个期刊2.整理每个期刊主要发哪一类的文章,审稿周期/平均录用进度(这个在梅斯医学可以查到,就不标在此处了)原创 2022-07-14 20:47:07 · 9340 阅读 · 0 评论 -
数据处理笔记11 类别不平衡处理-抽样方法
目录分层抽样分层抽样示例上采样下采样分层比例/定额抽样原理, 参考:按比例分层抽样和定额抽样的区别? - 知乎(比例)分层抽样是概率抽样的一种,是指先分层再按总体群种中各层的比例随机抽样。定额抽样是非概率抽样的一种,是指分层并事先设定各层的主观配额比例,再进行抽样。举例:调查某高中学生的作息状况,该校高中1000人,高一350人,高二330人,高三320人。比例分层抽样:抽样100,高一35人,高二33人,高三32人。定额抽样(主观因素:调查者可能认为高三作息问题更严重,因此将更多配额事先给了高三):抽样1原创 2022-07-08 16:10:52 · 3421 阅读 · 0 评论 -
迁移学习笔记3: TCA, Finetune, 与Triplet Network(元学习)
MotivationTCA, Finetune, Triplet NetworkTCAFinetuneTriplet Network方法对比总结迁移学习基于特征的迁移学习方法 (Feature based)基于模型的迁移学习方法 (Model based)元学习(multi-task)元学习(Meta Learning)与迁移学习(Transfer Learning)的区别联系元学习特点元学习种类原创 2022-04-22 19:38:47 · 3718 阅读 · 7 评论 -
HDLSS笔记2进化森林Evolutionary Forest
目录数据情况DemoDemo尝试EF参数Evolutionary Forest "自动特征构建框架(Evolutionary Forest)-可解释性机器学习对比随机森林和Evolutionary Forest直接分类使用Evolutionary Forest构建的特征改进随机森林和XGBoost性能" scikit-learn中的“diabetes”442条样本,特征值10项 Evolutionary Forest:http...转载 2022-04-18 15:16:27 · 653 阅读 · 0 评论 -
归因分析笔记13 特征重要度正确性的验证
目录SHAP原论文引言第五节 计算和用户研究实验5.2 符合人类直觉5.3 解释分类差异引用文献验证方法总结SHAP原论文A Unified Approach to Interpreting Model Predictions《解释模型预测的统一方法》相关介绍:https://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.htmlpaper原创 2022-04-14 13:09:18 · 1543 阅读 · 1 评论 -
归因分析笔记10 PCA特征重构
PCA逆转换实验创建pcaInverseDemo.py进行尝试先试一下调包, 然后对比手刻的代码sklearn的逆转换建立简单矩阵, PCA转换, 输出值 import numpy as np from sklearn import decomposition # 建立简单矩阵 X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) # 将含有2个特征的数据经过PCA压原创 2022-03-19 21:04:30 · 4465 阅读 · 4 评论 -
归因分析笔记6:SHAP包使用及源码阅读
突然发现这篇文章居然被百度文库给盗了, 举报侵权还要我自己打印保证函, 最逗的是, 上传保证函图片还要求开启flash,其心昭然若揭.安装使用示例shap_values()KernelExplainer返回值使用KernelExplainer可视化SHAP医学解释相关论文项目实践堆叠热力图汇总SHAP值原创 2022-03-10 09:35:48 · 16821 阅读 · 4 评论 -
归因分析笔记5:机器学习可解释性
可解释的机器学习电子书《可解释的机器学习(Interpretable Machine Learning)》。在线阅读https://christophm.github.io/interpretable-ml-book/index.htmlGitHub:https://github.com/christophM/interpretable-ml-book该书认为特征被认为是可解释的,比如给定一天的温度或一个人的身高。特征的可解释性是一个很大的假设。但是,如果很难理解输入特征,那么就更难原创 2022-02-24 21:19:41 · 6676 阅读 · 2 评论 -
归因分析笔记4:PCA逆变换
PCA转回原特征例1参考:https://www.cnpython.com/qa/81148sklearn的PCA 转换是怎样手算, 如何执行反变换。pca对象的哪个字段包含反变换的相关系数?如何计算反变换?具体来说,我指的是sklearn.decomposition.PCA package中提供的PCA.inverse_transform()方法调用:如何使用PCA计算的各种系数重现其功能? 1)transform不是data * pca.components_。原创 2022-02-23 08:53:06 · 6952 阅读 · 6 评论 -
归因分析笔记3:视觉词袋-特征提取
Bag of Visual Words目录Matlab文档使用视觉词袋进行图像分类第1步:设置图像类别集第2步:创建特征袋第3步:用视觉词袋训练图像分类器第4步:对图像或图像集分类联系因果正则化论文作者目前的问题是, 这篇论文里所有特征都是01, 他都处理了.模型输入的特征不知道实际意义, 但是他最后还是能还原到图片上.作者回信:这篇文章当时是采用了Bag of Visual Words的特征提取方式,每张图片被抽象成了M维的词袋向量,每一维特征代表一个特定的原创 2022-02-20 13:57:35 · 2865 阅读 · 0 评论 -
归因分析笔记2:因果正则化学习论文
因果正则化学习Matlib代码https://github.com/Silver-Shen/Causally-Regularized-Learning论文https://dl.acm.org/doi/10.1145/3240508.3240577估计变量对输出的因果影响基于观测数据的因果推理,有代表性的方法有倾向得分匹配或加权[2,3,15]、马尔可夫毯子[13,25]和混杂均衡[1,12,14]思想他们在做了那种先因果推理,再进行模型构建的, 没有这种联合优化效果好原创 2022-02-17 20:33:09 · 2383 阅读 · 1 评论 -
归因分析笔记1:计算特征重要程度方法汇总
目录思路来源论文SHAP对机器学习模型解释对transformers模型解释归因问题attribution problem因果推理思路来源论文参考之前看到的论文:https://doi.org/10.1093/jamiaopen/ooab008基于机器学习的儿科器官移植受者健康结果预测利用Shapley加性解释(Shapley additive explanations)提高DL模型的可解释性(Interpretability)XAI作用介绍:基于DL算法原创 2022-02-17 18:14:40 · 2801 阅读 · 0 评论 -
数据处理笔记9:缺失值-多变量插补
目录Missforestycimpute安装使用MissingpySKlearn论文启发:https://doi.org/10.1093/jamiaopen/ooab008缺失值填充: MissForest及其算法流程由于我们的数据集包括分类变量和数值变量的混合,因此我们使用MissForest推算方法. MissForest受益于RF算法中处理缺失值的内置例程[38,39]。在这种推算方法中,对于每个变量,都会考虑对缺失值的初始猜测。然后,根据变量的缺失值数量从原创 2022-02-16 11:37:49 · 3394 阅读 · 0 评论 -
JAMIA-肝移植1.住院情况预测
目录总结摘要背景和意义方法和材料患者UNOS数据数据预处理利用Shapley加性解释提高DL模型的可解释性结果预测模型使用Shap解释DL模型讨论医学变量心理社会变量局限性和未来方向结论总结1.基于机器学习的儿科器官移植受者健康结果预测论文主题Machine learning–based prediction of health outcomes in pediatric organ transplantation recipi翻译 2022-02-04 17:00:28 · 906 阅读 · 3 评论 -
西瓜书笔记16-2:逆强化学习
目录逆强化学习概述强化学习与逆强化区别逆向强化学习分类学徒学习学徒学习思想相关定义算法描述学徒算法找最优策略\( \tilde{\pi} \)逆强化学习概述参考: https://zhuanlan.zhihu.com/p/26682811强化学习与逆强化区别强化学习是求累积回报期望最大时的最优策略,在求解过程中立即回报是人为给定的。人在完成具体任务时, 指定回报函数的方法是从人的示例中学到隐形的回报函数逆向强化假设: 专家在完成某项任务时,其决策往往是原创 2022-01-25 01:55:32 · 7115 阅读 · 1 评论 -
肝移植笔记8:对比实验_降维
固定缺失值处理看效果先对之前的缺失值填充部分, 把效果不好的都弃用, 只留术式改为0/1特征. 用原来的填充方法跑一遍. 改值 # 术式(经典1背驮2)处理成术式(经典1背驮0) tabel_new.loc[:,'术式(经典1背驮2)'] = tabel.loc[:,'术式(经典1背驮2)'].replace(2,0) tabel=tabel_new.copy() 改列名 # 改变列名 术式(经典1背驮2)->术式(经典1...原创 2022-01-09 21:28:59 · 711 阅读 · 0 评论 -
迁移学习笔记2:类别总结
什么是迁移学习迁移学习定义:利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。迁移学习的核心问题: 找到新问题和原问题之间的相似性找到才可以顺利地实现知识的迁移。比如天气问题中,那些北半球的天气之所以相似,是因为它们的地理位置相似;而南北半球的天气之所以有差异,也是因为地理位置有根本不同常用符号 符号 含义 $$ \mathcal{D}_{s}= \left\{\mathbf{原创 2022-01-05 22:47:41 · 1889 阅读 · 0 评论 -
统计学习笔记2: HMM
目录基本概念HMM的定义HMM三要素HMM的两个基本假设例子HMM的3个基本问题概率计算算法直接计算法前向算法例子后向算法前向后向算法学习算法监督学习求A求B求π无监督学习1. 确定完全数据的对数似然2. E步:求Q函数\( Q(\lambda, \bar \lambda) \)3. M步:求模型参数, 使极大化这个期望, 即Q函数.鲍姆-韦尔奇算法流程预测算法近似算法维特比算法维特比算法流程例子原创 2021-12-08 17:03:21 · 2887 阅读 · 3 评论 -
数据处理笔记3: 分层采样-k折交叉验证
Demo调试实作交叉验证, 参考:https://github.com/apachecn/hands-on-ml-2e-zh/blob/master/docs/3.mdStratifiedKFold参考: https://blog.youkuaiyun.com/weixin_44110891/article/details/95240937StratifiedKFold用法类似Kfold,但是它是分层采样,确保训练集,验证集中各类别样本的比例与原始数据集中相同。因此一般使用StratifiedKFold原创 2021-12-06 18:23:00 · 3469 阅读 · 0 评论 -
数据处理笔记1:类别不平衡-上采样
类别不平衡imblance problem查找一些资料样本不均讨论:https://blog.youkuaiyun.com/sp_programmer/article/details/48047101上采样、下采样、代价敏感代价敏感:设计objective function的时候给不同misclassification的情况不同的relative weights。也就是说给从小数量的样本被分成大数量的样本更大的penalty正样本样本绝对数很小。需要扩散正样本方法Synthetic Mi原创 2021-11-29 21:22:20 · 4653 阅读 · 0 评论 -
统计学习笔记1:提升方法(boosting)
什么是提升方法AdaBoost代码实践 Boosting主要算法提升树(boosting tree)模型梯度提升XGBoost原创 2021-11-15 16:07:55 · 1437 阅读 · 0 评论 -
HDLSS笔记1:高维小样本上用GP多分类
注意看数据特点适应的方法创新找两篇和项目相似的看数据量极少的怎么做的(心电图),和特征工程理论是否能用到高维小样本上用遗传编程(GP)多分类T. Wei, W. -L. Liu, J. Zhong and Y. -J. Gong, "Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming," inIEEE Transactions on Emerging T.翻译 2021-11-09 13:05:49 · 1437 阅读 · 5 评论 -
肝移植笔记3:相关论文汇总
找计算机方面,医学方面的好期刊发表交叉学科论文医学方面期刊cell, cancer, lancet, journal of clinical medicine国内去知网看看,带中国、中华开头的杂志都不错, 就找肝相关的杂志,分泌、内科相关的搜一下论文pdf寻找可以去学校图书馆里找找,或者谷歌学术小样本的搜下关键字,看下都有啥期刊计算机方面的在dblp搜:dblp: computer science bibliographyhttps://www.sciencedirect原创 2021-11-03 09:43:26 · 1429 阅读 · 1 评论 -
肝移植笔记2:论文阅读-肝移植辅助决策研究
摘要目标:预测分类问题难点:肝移植的样本数据集很小而特征空间很大。机器学习方法用于小样本,特征空间很大的医疗数据集时存在着预测准确率低,精确率和召回率不高等问题方法:对北京某医院提供的医疗数据,通过迁移成分分析TCA进行特征空间的映射与降维,再使用机器学习的方法进行分析,构建肝移植术后并发症预测模型,并挖掘对术后发生并发症有重要影响的医学指标特征。1.绪论肝移植失败的主要原因:不再是排斥反应,而是术后感染术前终末期肝病模型(Model for end-stage liver dise原创 2021-10-29 20:21:21 · 1334 阅读 · 1 评论 -
肝移植笔记1:论文阅读-对率回归预测移植物失功概率
数据情况摘要引言材料和方法A. 二分回归模型结果与讨论肝移植(LT)是儿童急、慢性终末期肝病的最后治疗选择。目前,移植后一年内存活率在90-95%以上,五年内存活率在70%以上。术后主要并发症(complications)与移植物功翻译 2021-10-24 16:09:11 · 769 阅读 · 1 评论 -
TCA笔记4:TCA代码笔记
目录调用流程与各函数作用TCA计算过程X归一化计算L矩阵计算中心矩阵矩阵H计算核矩阵K计算矩阵的特征值和特征向量求特征变换矩阵A求样本X在隐空间映射的点本文为对TCA开源代码的详细阅读分析.TCA代码的调试见:https://blog.youkuaiyun.com/lagoon_lala/article/details/120514427TCA计算过程的公式见:https://blog.youkuaiyun.com/lagoon_lala/article/details/12原创 2021-10-16 16:40:18 · 5182 阅读 · 47 评论 -
核函数与核方法整理
目录SVM回顾严格线性可分问题近似线性可分严格非线性可分核函数什么是核函数如何使用核函数为什么要用核函数核⽅法常用符号KLDASVMKPCAMMDE原创 2021-10-05 03:52:46 · 8206 阅读 · 1 评论 -
TCA笔记3:TCA论文阅读
Transfer Component Analysis属于边缘分布自适应方法目录摘要1.引言DA方法2.其他方法梗概与基本引理2.1Domain Adaptation其他方法梗概2.2 Hilbert Space Embedding of Distributions2.2.1 MMD2.2.2 HSIC2.3 Embedding Using HSIC摘要Domain adaptation allows knowledge from a source原创 2021-09-27 18:45:25 · 5280 阅读 · 36 评论 -
TCA笔记2:TCA代码调试
Transfer Component Analysis属于边缘分布自适应方法本次尝试跑王晋东在GitHub的开源TCA代码学习过程中参考:https://github.com/jindongwang/transferlearning-tutorialhttps://zhuanlan.zhihu.com/p/63026435https://zhuanlan.zhihu.com/p/110594052https://zhuanlan.zhihu.com/p/26764147尝试跑原创 2021-09-27 18:15:54 · 6794 阅读 · 20 评论 -
TCA笔记1:MMD
MMD最大均值差异求两堆数据在 RKHS 中的均值的距离参考https://zhuanlan.zhihu.com/p/163839117随机变量的矩描述随机变量高维的随机变量,无法给出分布函数. 则用随机变量的矩来描述一个随机变量,比如一阶中心矩是均值,二阶中心矩是方差等.MMD的基本思想如果两个随机变量的任意阶矩都相同,则分布一致。两个分布不相同的话,那么使得两个分布之间差距最大的那个矩被用来作为度量两个分布的标准.衡量两个分布(随机变量)的差异MMD常被用来度转载 2021-09-25 17:05:39 · 1530 阅读 · 1 评论 -
迁移学习笔记1:简明手册笔记
本文主要参考:https://github.com/jindongwang/transferlearning-tutorial/tree/master/markdown第 1 章介绍了迁移学习的概念,重点解决什么是迁移学习、为什么要进行迁移学习这两个问题。第 2 章介绍了迁移学习的研究领域。第 3 章介绍了迁移学习的应用领域。第 4 章是迁移学习领域的一些基本知识,包括问题定义,域和任务的表示,以及迁移学习的总体思路。特别地,我们提供了较为全面的度量准则介绍。度量准则是迁移学习领转载 2021-09-17 09:09:26 · 2352 阅读 · 2 评论 -
李宏毅ML笔记14:降维/无监督-线性方法
无监督学习介绍无监督学习聚类K-means层次聚类HAC降维降维有助于学习的原因如何降维PCA数学推导降到1维降到多维空间求解PCA-拉格朗日乘子法计算w1计算w2去相关性PCA算法原理重建组件PCA所得W最小化 重建误差证明自编码器原创 2021-09-14 19:42:49 · 991 阅读 · 1 评论 -
西瓜书笔记9: 聚类
9.1 聚类任务9.2 性能度量外部指标内部指标9.3 距离计算有序属性的距离无序属性的距离属性距离变形9.4 原型聚类k均值算法学习向量量化(LVQ)高斯混合聚类E步M步9.5 密度聚类9.6 层次聚类原创 2021-08-15 13:19:49 · 1149 阅读 · 4 评论 -
gensim官方文档实践笔记
文档document语料库Corpus语料库作用语料库预处理词汇编号向量Vector方法1: 特征向量(vector of features)方法2: doc2bow模型Model语料库和向量空间字符串转向量语料库流Corpus Streaming语料库保存与NumPy/SciPy相互转换主题和转换创建转换转换向量转换方法相似性查询创建语料库相似性接口执行查询Word2Vec 模型词袋翻译 2021-08-10 16:58:55 · 1723 阅读 · 7 评论