- 博客(206)
- 资源 (54)
- 收藏
- 关注
原创 npu踩坑记录
目录千问 qwq32环境配置代码部署生成内容清洗已生成内容清洗生成过程优化Failed to initialize the HCCP process问题assistant 的历史回答丢失推理执行失败
2025-03-31 10:54:10
950
原创 数据蒸馏相关论文梳理
综述汇总Dataset Distillation Background and Related Works编辑DD相关工作DD定义DD方法优化目标性能匹配(Performance Matching)参数匹配(Parameter Matching)分布匹配(Distribution Matching)网络更新过程合成数据参数化学习标签的方式代表算法SmallToLarge (S2L): Scalable Data Selection for Fi
2025-01-12 18:27:34
924
原创 大模型笔记5 Extractive QA任务评估
Extractive QA任务评估Extractive QA评测指标precision, recall, f1ROUGE划分训练与评估数据集token位置评估单个token位置评估输入label的token位置预测token位置评估Wandb共享机器同时登录样本类别平衡标记token label时对窗口进行筛选训练输入json数据格式调整GPU内存不足服务器远程连接断开后进程停止运行
2024-08-08 15:06:37
1210
原创 大模型笔记4 长文本滑动窗口
滑动窗口例子(提取开始结束点任务)滑动窗口代码实现tokenize() 默认添加问题每个滑窗添加标题和摘要训练label跨滑窗情况token匹配Token匹配忽略固定标题摘要输出结果拼接根据样本论文标号拼接预测结果滑窗重复token位置处理
2024-08-01 17:05:38
1347
原创 大模型笔记3 Longformer for Extractive Summarization训练
GPU运行从文本label生成输入token label多样本输出文本保存训练过程损失和模型部署到服务器训练集构建
2024-07-15 16:24:28
784
原创 大模型笔记2 Longformer for Extractive Summarization任务的模型修改
LongformerForTokenClassification调通将7分类的预训练模型改为2分类利用分类标签取出token对应子词将token转换为完整单词取出
2024-07-08 21:10:25
792
原创 论文写作笔记9 word论文排版常见问题
word中输入的Latex代码,按 Alt + = 将所选字母变成公式, 然后按 Ctrl + = 将 Latex 代码转换成 Word 公式。将光标停在扉页的任意一页,打开页面设置—版式,节的起始位置更改为“偶数页”,然后确定,再打印预览。识图可以使用软件Mathpix Snipping Tool, latex转word见下方链接.这个好用, 可以匹配内含-,多个的, 还排除字母, 不过要注意使用搜索时记得勾选通配符.光标置于替换为窗口中,点击【格式】-【字体】,勾选【上标】5.表格无法居中问题。
2024-06-26 16:13:18
407
原创 大模型笔记1: Longformer环境配置
3.2、右键“计算机”->“属性”->“高级系统设置”->“环境变量”->在下方的“系统变量”中找到“path”->选中“path”并选择“编辑”->将 3.1中找到的bin和git-core路径复制到其中->保存并退出。注:"D:\Program Files\Git\"是安装路径,可能与你的安装路径不一样,要按照你自己的路径替换"D:\Program Files\Git\"3.1、找到git安装路径中bin的位置,如:D:\Program Files\Git\bin。
2024-06-26 16:05:43
1005
原创 置信区间笔记1 模型性能的置信区间
标准方法,无论是转换的还是未转换的,通常比调整后的方法产生更大的估计。公式中的interval是置信区间的半径,error和accuracy是分类误差和分类准确率,n是样本大小,sqrt是平方根函数,z是高斯分布的临界值。下面的例子在假设的情况下演示了这个函数,其中一个模型从100个实例的数据集中做出88个正确的预测,并且我们对95%的置信区间(作为0.05的显著性供给函数)感兴趣。例如,置信区间可以用来呈现分类模型的性能,可以这样描述:给定样本,范围x到y覆盖真实模型精度的可能性为95%。
2023-06-26 19:19:29
2372
原创 归因分析笔记21 可解释的机器学习-李宏毅讲座
视频链接:课件链接:作业链接:Interpretable与explainable的差异Interpretable本身就可解释的(线性模型, 单颗浅层决策树)explainable本身不可解释的模型赋予其解释(深层决策树/随机森林)
2023-02-21 19:50:32
797
翻译 迁移学习笔记6 综述A Survey on Transfer Learning
在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布。然而,在许多现实的应用案例中,这个假设可能不会成立。.比如,我们有时候在某个感兴趣的领域有个分类任务,但是我们只有另一个感兴趣领域的足够训练数据,并且后者的数据可能处于与之前领域不同的特征空间或者遵循不同的数据分布。.这类情况下,如果知识的迁移做的成功,我们将会通过避免花费大量昂贵的标记样本数据的代价,使得学习性能取得显著的提升。....
2022-08-18 20:11:07
1368
翻译 迁移学习笔记5 MMDE
迁移学习解决的问题是如何利用源域中的大量标记数据来解决目标域中相关但不同的问题,即使训练和测试问题具有不同的分布或特征。在本文中,我们考虑了通过降维的转移学习。为了解决这个问题,我们学习了一个低维的潜在特征空间,其中源域数据和目标域数据之间的分布相同或接近。在这个潜在的特征空间上,我们将数据投影到相关领域,在那里我们可以应用标准学习算法来训练分类或回归模型。因此,潜在特征空间可以被看作是将知识从源域传递到目标域的桥梁。我们的主要工作是提出了一种。......
2022-08-15 09:26:17
1878
原创 迁移学习笔记4:ACML-Sinno Jialin Pan
迁移学习的使用场景监督学习的假设迁移学习的假设迁移学习与主动学习, 半监督学习的区别不同的迁移学习设置(settings)四种类型的迁移方法基于样本基于特征TCA为例介绍第一种方法MMD如何计算隐空间中源域与目标域概率分布距离如何学习核矩阵TCA思想用于DNN基于参数基于关系...
2022-08-12 12:52:36
1571
翻译 论文写作笔记5 JBHI相关信息
您的摘要应简要概述所进行的研究,得出的结论以及这些结论的潜在影响。一个强大的摘要还将1.由一个最多250个单词的段落组成,具有正确的语法和明确的术语2.自给自足;没有缩写、脚注、参考文献或数学方程式3.突出作品中的新颖之处4.包括3-5个描述研究的关键字或短语,以帮助读者找到您的文章大多数作者最后写摘要,并在文章发表前多次编辑,以确保它准确地捕获整篇文章。IEEE建议您不要在文章标题或摘要中包含数学符号,因为它们可能无法正确显示。...
2022-07-23 21:05:16
5944
6
原创 论文写作笔记4 期刊选择-医学&计算机
本次有两个目标1.整理人工智能和医学结合的好的期刊列表选投哪个期刊2.整理每个期刊主要发哪一类的文章,审稿周期/平均录用进度(这个在梅斯医学可以查到,就不标在此处了)
2022-07-14 20:47:07
9222
原创 数据处理笔记11 类别不平衡处理-抽样方法
目录分层抽样分层抽样示例上采样下采样分层比例/定额抽样原理, 参考:按比例分层抽样和定额抽样的区别? - 知乎(比例)分层抽样是概率抽样的一种,是指先分层再按总体群种中各层的比例随机抽样。定额抽样是非概率抽样的一种,是指分层并事先设定各层的主观配额比例,再进行抽样。举例:调查某高中学生的作息状况,该校高中1000人,高一350人,高二330人,高三320人。比例分层抽样:抽样100,高一35人,高二33人,高三32人。定额抽样(主观因素:调查者可能认为高三作息问题更严重,因此将更多配额事先给了高三):抽样1
2022-07-08 16:10:52
3369
原创 迁移学习笔记3: TCA, Finetune, 与Triplet Network(元学习)
MotivationTCA, Finetune, Triplet NetworkTCAFinetuneTriplet Network方法对比总结迁移学习基于特征的迁移学习方法 (Feature based)基于模型的迁移学习方法 (Model based)元学习(multi-task)元学习(Meta Learning)与迁移学习(Transfer Learning)的区别联系元学习特点元学习种类
2022-04-22 19:38:47
3703
7
转载 HDLSS笔记2进化森林Evolutionary Forest
目录数据情况DemoDemo尝试EF参数Evolutionary Forest "自动特征构建框架(Evolutionary Forest)-可解释性机器学习对比随机森林和Evolutionary Forest直接分类使用Evolutionary Forest构建的特征改进随机森林和XGBoost性能" scikit-learn中的“diabetes”442条样本,特征值10项 Evolutionary Forest:http...
2022-04-18 15:16:27
652
原创 归因分析笔记13 特征重要度正确性的验证
目录SHAP原论文引言第五节 计算和用户研究实验5.2 符合人类直觉5.3 解释分类差异引用文献验证方法总结SHAP原论文A Unified Approach to Interpreting Model Predictions《解释模型预测的统一方法》相关介绍:https://proceedings.neurips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.htmlpaper
2022-04-14 13:09:18
1526
1
原创 归因分析笔记10 PCA特征重构
PCA逆转换实验创建pcaInverseDemo.py进行尝试先试一下调包, 然后对比手刻的代码sklearn的逆转换建立简单矩阵, PCA转换, 输出值 import numpy as np from sklearn import decomposition # 建立简单矩阵 X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) # 将含有2个特征的数据经过PCA压
2022-03-19 21:04:30
4450
4
原创 归因分析笔记6:SHAP包使用及源码阅读
突然发现这篇文章居然被百度文库给盗了, 举报侵权还要我自己打印保证函, 最逗的是, 上传保证函图片还要求开启flash,其心昭然若揭.安装使用示例shap_values()KernelExplainer返回值使用KernelExplainer可视化SHAP医学解释相关论文项目实践堆叠热力图汇总SHAP值
2022-03-10 09:35:48
16682
5
原创 归因分析笔记5:机器学习可解释性
可解释的机器学习电子书《可解释的机器学习(Interpretable Machine Learning)》。在线阅读https://christophm.github.io/interpretable-ml-book/index.htmlGitHub:https://github.com/christophM/interpretable-ml-book该书认为特征被认为是可解释的,比如给定一天的温度或一个人的身高。特征的可解释性是一个很大的假设。但是,如果很难理解输入特征,那么就更难
2022-02-24 21:19:41
6640
2
原创 归因分析笔记4:PCA逆变换
PCA转回原特征例1参考:https://www.cnpython.com/qa/81148sklearn的PCA 转换是怎样手算, 如何执行反变换。pca对象的哪个字段包含反变换的相关系数?如何计算反变换?具体来说,我指的是sklearn.decomposition.PCA package中提供的PCA.inverse_transform()方法调用:如何使用PCA计算的各种系数重现其功能? 1)transform不是data * pca.components_。
2022-02-23 08:53:06
6895
6
原创 归因分析笔记3:视觉词袋-特征提取
Bag of Visual Words目录Matlab文档使用视觉词袋进行图像分类第1步:设置图像类别集第2步:创建特征袋第3步:用视觉词袋训练图像分类器第4步:对图像或图像集分类联系因果正则化论文作者目前的问题是, 这篇论文里所有特征都是01, 他都处理了.模型输入的特征不知道实际意义, 但是他最后还是能还原到图片上.作者回信:这篇文章当时是采用了Bag of Visual Words的特征提取方式,每张图片被抽象成了M维的词袋向量,每一维特征代表一个特定的
2022-02-20 13:57:35
2844
原创 归因分析笔记2:因果正则化学习论文
因果正则化学习Matlib代码https://github.com/Silver-Shen/Causally-Regularized-Learning论文https://dl.acm.org/doi/10.1145/3240508.3240577估计变量对输出的因果影响基于观测数据的因果推理,有代表性的方法有倾向得分匹配或加权[2,3,15]、马尔可夫毯子[13,25]和混杂均衡[1,12,14]思想他们在做了那种先因果推理,再进行模型构建的, 没有这种联合优化效果好
2022-02-17 20:33:09
2315
1
原创 归因分析笔记1:计算特征重要程度方法汇总
目录思路来源论文SHAP对机器学习模型解释对transformers模型解释归因问题attribution problem因果推理思路来源论文参考之前看到的论文:https://doi.org/10.1093/jamiaopen/ooab008基于机器学习的儿科器官移植受者健康结果预测利用Shapley加性解释(Shapley additive explanations)提高DL模型的可解释性(Interpretability)XAI作用介绍:基于DL算法
2022-02-17 18:14:40
2764
原创 数据处理笔记9:缺失值-多变量插补
目录Missforestycimpute安装使用MissingpySKlearn论文启发:https://doi.org/10.1093/jamiaopen/ooab008缺失值填充: MissForest及其算法流程由于我们的数据集包括分类变量和数值变量的混合,因此我们使用MissForest推算方法. MissForest受益于RF算法中处理缺失值的内置例程[38,39]。在这种推算方法中,对于每个变量,都会考虑对缺失值的初始猜测。然后,根据变量的缺失值数量从
2022-02-16 11:37:49
3362
翻译 JAMIA-肝移植1.住院情况预测
目录总结摘要背景和意义方法和材料患者UNOS数据数据预处理利用Shapley加性解释提高DL模型的可解释性结果预测模型使用Shap解释DL模型讨论医学变量心理社会变量局限性和未来方向结论总结1.基于机器学习的儿科器官移植受者健康结果预测论文主题Machine learning–based prediction of health outcomes in pediatric organ transplantation recipi
2022-02-04 17:00:28
895
3
原创 论文写作笔记3:JAMIA-相关论文
JAMIAJournal of the American Medical Informatics Associationhttps://amia.org/news-publications/journals/jamiahttps://academic.oup.com/jamiaopen?login=trueJCR Q1/Q2; CCF 综合B.中科院分区: 医学1区计算机2区管理学2区top搜索中的期刊文章仅直接链接到期刊站点的公共页面。对于仅限会员访问JAMIA或应用临床信息学
2022-02-04 16:53:01
1487
原创 数据处理笔记8:切片
经常用到切片操作, 所以把之前这方面的笔记汇总一下参考: https://blog.youkuaiyun.com/weixin_39861498/article/details/109621657a[start:end:step]逆序[0:4:-1]前两个数字代表范围(取下标0,1,2,3), 最后一个代表步长, -1时倒序取最后几个元素a = [1, 2, 3, 4, 5, 6]a[-1] # 6a[-2:] # [5, 6]a[:-2] # [1, 2, 3, 4]a[-
2022-01-31 16:55:12
871
原创 西瓜书笔记16-2:逆强化学习
目录逆强化学习概述强化学习与逆强化区别逆向强化学习分类学徒学习学徒学习思想相关定义算法描述学徒算法找最优策略\( \tilde{\pi} \)逆强化学习概述参考: https://zhuanlan.zhihu.com/p/26682811强化学习与逆强化区别强化学习是求累积回报期望最大时的最优策略,在求解过程中立即回报是人为给定的。人在完成具体任务时, 指定回报函数的方法是从人的示例中学到隐形的回报函数逆向强化假设: 专家在完成某项任务时,其决策往往是
2022-01-25 01:55:32
7055
2
原创 论文写作笔记2:AIME-相关论文
肝移植Liver Transplantation1. 动态加权进化+神经网络 解决类别不平衡 论文主题 论文发表时间 作者背景 使用方法 数据 论文 备注 1 动态加权进化+神经网络解决类别不平衡 (结合供体、复位和手术特征的器官分配, 有序多分类问题) Dynamically weighted evolutionary ordinal neural network for solving an imbalanced liver tra
2022-01-24 16:13:49
2166
翻译 论文写作笔记1:医学跨计算机期刊介绍
Artificial Intelligence in MedicineArtificial Intelligence in Medicine | Journal | ScienceDirect.com by Elsevier荷兰月刊, JCR分区Q1; CCF AI类C.中科院分区: AI2区, 生物医学2区AIM考虑发表同时具有以下两者的稿件:
2022-01-11 20:53:42
3470
原创 肝移植笔记8:对比实验_降维
固定缺失值处理看效果先对之前的缺失值填充部分, 把效果不好的都弃用, 只留术式改为0/1特征. 用原来的填充方法跑一遍. 改值 # 术式(经典1背驮2)处理成术式(经典1背驮0) tabel_new.loc[:,'术式(经典1背驮2)'] = tabel.loc[:,'术式(经典1背驮2)'].replace(2,0) tabel=tabel_new.copy() 改列名 # 改变列名 术式(经典1背驮2)->术式(经典1...
2022-01-09 21:28:59
711
原创 迁移学习笔记2:类别总结
什么是迁移学习迁移学习定义:利用数据、任务、或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。迁移学习的核心问题: 找到新问题和原问题之间的相似性找到才可以顺利地实现知识的迁移。比如天气问题中,那些北半球的天气之所以相似,是因为它们的地理位置相似;而南北半球的天气之所以有差异,也是因为地理位置有根本不同常用符号 符号 含义 $$ \mathcal{D}_{s}= \left\{\mathbf{
2022-01-05 22:47:41
1874
原创 数据处理笔记6:缺失值填充
参考:http://118.31.76.100:100/math/statics_topic/deal-na/缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。常数来填充常常不是一个好方法。最好建立一些模型,根据数据的分布来填充一个更恰当的数值。(例如根据其它变量对记录进行数据分箱,然后选择该记录所在分箱的相应变量的均值或中位数,来填充缺失值,效果会更好一些)
2021-12-28 14:28:07
13117
8
原创 数据处理笔记5:循环读取excel中的各sheet
因为需要读取和处理的sheet表格比较多, 尝试重构并循环读取.之前参考的博客代码有一点问题, 踩坑了, 所以重新整理一篇.参考:https://blog.youkuaiyun.com/weixin_43581124/article/details/108015535这样写要快很多,以前相当于每个sheet都要读一遍整个excel文件,现在总共只需要读一遍excel文件 import pandas as pd def read_excel1(path): data_xl...
2021-12-21 11:02:12
2334
php实验表单提交并验证
2019-03-13
php实验表单页面 最终版
2019-03-02
Unity家装设计(加载AssetBundle版本
2019-02-18
Struts框架教程
2018-12-27
机器学习实验-基于信用卡数据建立行为评分模型的机器学习方法
2023-03-31
AdaBoost代码数据集+注释与修改.zip
2021-11-19
李宏毅ML作业3: 食物分类(kaggle预测与报告题目)
2021-07-12
李宏毅ML作业2(薪资水平分类
2021-05-24
李宏毅ML作业1(PM2.5预测
2021-04-17
web-frame v1.0
2020-06-02
web-frame.rar
2020-05-17
机器学习项目 (代码梳理)推荐系统第二弹.pptx
2020-01-02
jupyter slide
2019-09-17
where2go 数据分析+神经网络+flask推荐系统
2019-09-03
VRP的py禁忌搜索+tsplib数据集与matlab.rar
2019-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人