
机器学习
文章平均质量分 92
1. 与计算机交际:编程语言
2. 写大项目:数据结构+设计模式
3. 优化资源:计算机原理+计算机系统结构
4. 应用 :按照自己的兴趣,选一门应用类计算机课程
Debroon
致力于AI(未来最有生产力)和WEB3(未来最有消费力),偏 AI 医疗、深度学习和强化学习(对标DeepMind)。
WEB3 投研科学家系统性心得,让天下没有痛苦的创业者和家庭,让自己越来越自由。
展开
-
【医学图像隐私保护】联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题
由于每个医院的患者构成可能不同,这意味着每个医院训练出的模型会稍有不同,反映了它们各自独特的患者数据特征。这联邦学习呢,就是让不同的地方一起弄一个学习的模型,但重要的是,大家的数据都是自己家的,不用给别人。每个医院使用自己的患者数据本地训练模型,然后将模型的更新(而不是敏感的患者数据)分享给其他医院。因此,联邦学习解决了数据孤岛问题,提高了诊断模型的准确性和可靠性,同时保障了患者数据的隐私安全。通过这种方式,联邦学习允许每个医院贡献它们的专业知识和数据见解,同时保护患者数据的隐私。原创 2024-01-22 17:30:34 · 5852 阅读 · 1 评论 -
OpenCV图像
图像轮廓是具有相同颜色或者强度的连续点的曲线。固定阈值、自适应阈值、大津阈值。原创 2023-07-05 13:59:28 · 1728 阅读 · 2 评论 -
RFM 模型
可以多通过短信、平台网站等渠道,在一般发展用户首购后的一段时间内可以领取复购券等策略,将这类用户转化为更高价值的用户类型。一般来说,比起许久没有消费的顾客,消费时间间隔短的客户再次购买的几率较高。企业针对近期有消费的”新客“、消费频率高的”常客“、消费金额高的”贵客“进行精准营销和广告投放,确实收到了意料之外的惊喜。1961 年,乔治·卡利南在顾客的资料库中指出,最近一次消费、消费频率、消费金额三项数据可以较为客观的描绘顾客的轮廓。消费金额高的客户,客户价值也越高,可以提供专属该类客户的优惠价格。原创 2022-12-14 16:44:03 · 830 阅读 · 0 评论 -
构建决策树
如果新来一位男生/客户/面试者,根据上面的树状图就可以作出是否见面/贷款/入职的决定,所以该树状图就称决策树。决策树解决问题就是这样,天然的可以解决多分类问题,当然回归问题也可以。我们的划分思路是,划分后使得整体的信息熵降低,变得更加确定。决策树,是通过数据归纳,总结出条件判断的学习模式。CART 是基尼系数实现的,基尼系数没有。我们可以通过基尼系数来划分。我们可以通过信息熵来划分。那怎么构建一棵决策树呢?原创 2022-11-03 12:27:00 · 550 阅读 · 0 评论 -
SVM 支持向量机
Soft SVM,数据点没有这个限制,但对于错误分类的数据点,或者 margin 内的数据点,很显然离正确的那个 margin 边界越近越好,也就是错误越小。但真实情况下,很多数据是线性不可分的,我们需要改进了 Hard Margin SVM,实现 Soft Margin SVM 解决线性不可分。这种思维,也被称为 Hard Margin SVM,解决线性可分问题,找到一个决策边界,没有错误的将所有决策点进行划分。因为支持向量就是一个点,决策边界就是一条线,SVM 的公平划分思想,就变成了点到直线的距离。原创 2022-10-24 14:11:19 · 1348 阅读 · 0 评论 -
Apriori 实现关联分析
关联分析可以让我们从数据集中发现项与项之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。在 Apr 算法出现之前,要找出所有的频繁项集,就得先枚举所有的项集,计算它们的支持度,筛选出频繁项集(> 0.2)。比如,在对比 2 项集的时候,发现{奶茶,汉堡}的支持度为 0,小于最小支持度0.2,属于非频繁项集。原创 2022-10-08 16:47:12 · 1850 阅读 · 1 评论 -
逻辑回归(Logistic Regression)
逻辑回归,本质是一种线性模型 y=wx+by=wx+by=wx+b。不过逻辑回归和线性模型不同的是,为了实现二分类任务,加了 sigmodsigmodsigmod 函数。sigmoidsigmoidsigmoid 函数,使得预测的结果从样本成绩变成了样本成绩的概率。如果这个概率 p>0.5p > 0.5p>0.5,把这个数据分类为 y=1y=1y=1(正样本)。如果这个概率 p原创 2022-09-02 19:11:09 · 494 阅读 · 0 评论 -
词云简单生成
配色方案, 请搜索 HSL 配色方案。原创 2022-08-06 11:09:12 · 1364 阅读 · 0 评论 -
概率图模型
概率图模型前置知识概率论基础图论基础表示方式贝叶斯网络马尔可夫随机场因子图推理方法推理问题分类 & 变量消元法团树传播算法信念传播算法二值图切法基于图切法的近似推理信念传播算法的能量最小解释俩类学习结构学习参数学习应用条件随机场在自然语言处理中的应用概率图模型在医学图像中的应用概率图模型在计算机视觉中的应用 前置知识概率图模型是概率论和图论结合的产物,用图的节点表示变量(状态),图的边表示局部变量(状态)间的概率依赖关系。假设每个状态的转移概率只取决于相邻的状态,将现实问题抽.原创 2022-04-13 08:32:07 · 933 阅读 · 0 评论 -
业务亏损分析
文章目录背景明确目标定义元问题用公式思维拆解问题得到分析思路数据处理清理数据处理缺失值处理重复值处理异常值清洗情况数据分析数据展现报告撰写 背景xx公司,运营了一家小型的口罩工厂,口罩厂经营状态过往处于不稳定的状态,在今年6月底,经营开始处于亏损状态。通过本次对口罩厂历史经营数据的分析,帮助公司推断口罩厂的发展,并对口罩厂的亏损问题处理提供建议。 明确目标数据分析任务需要解决怎样的问题,以及该如何解决。口罩厂从 2020 年初开始售卖口罩,到 7 月初的时候,总监发.原创 2021-02-23 21:50:05 · 873 阅读 · 1 评论 -
Fintech建模竞赛:现金贷用户数据分析和画像
文章目录原创 2021-08-21 16:35:02 · 2538 阅读 · 0 评论 -
如何用算法预测世界杯?
预测2021欧洲世界杯 预测2021年欧洲世界杯,也是一道考试题目,因为出题老师是一个二十多年忠贞不渝的荷兰小球迷,还列出了一排福利:■荷兰进八强,请XXX■荷兰进四强,请XXXX■荷兰进决赛,请XXXXX我不懂足球,甚至我一直听的都是河南(荷兰)……但是没关系,像算法就是在训练一种新的认知,一种信息时代的思维方式。虽然它也是人思维的一部分,但和常人的思维方式完全不同,是伴随计算机出现的,结合人的逻辑、数学思维的思维。训练好这种思维后,就是要把这种思维方式用到其他学科领域中去.原创 2021-07-10 18:42:02 · 8069 阅读 · 3 评论 -
PCA与梯度上升法
PCA与梯度上升法 PCA:主成分分析算法,具体记录在:《特征值分解实验:人脸识别与PageRank网页排序》,本质就是矩阵的特征值分解。PCA 是一个非监督学习的算法,主要用于数据降维,方便人类理解、可视化、去噪。而梯度上升法,作用于最大化一个效用函数。举个例子,二维平面的降维:那怎么把二维降到一维呢?选一个特征即可,另一个特征扔调。降到特征1:所有点都在X轴上,二维平面变成一条横线。降到特征2:所有点都在Y轴上,二维平面变成一条竖线。对比以上俩者,发现降维.原创 2021-06-10 15:58:38 · 696 阅读 · 4 评论 -
梯度下降法(Gradient Descent)
文章目录原创 2021-06-03 20:33:59 · 1360 阅读 · 0 评论 -
红颜第一杀手:乳腺癌细胞挖掘
文章目录如何实现精准治疗和诊断预测?细胞数据机器学习建模RDKIT开源化学信息工具包可计算:化学分子转换为数字如何构建机器学习模型 如何实现精准治疗和诊断预测? 细胞数据 机器学习建模 RDKIT开源化学信息工具包 可计算:化学分子转换为数字 如何构建机器学习模型...原创 2021-02-21 15:35:27 · 2207 阅读 · 0 评论 -
NLP以赛代练 Task6:基于深度学习的文本分类 3
基于深度学习的文本分类 3学习目标文本表示方法 Part 4Transformer原理基于预训练语言模型的词表示基于Bert的文本分类Bert PretrainBert Finetune作业结语 学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetune 文本表示方法 Part 4 Transformer原理Transformer是在"Attention is A.原创 2020-08-03 12:50:29 · 268 阅读 · 0 评论 -
NLP以赛代练 Task5:基于深度学习的文本分类 2
基于深度学习的文本分类 2学习目标文本表示方法 Part3词向量1. Skip-grams原理和网络结构2. Skip-grams训练2.1 Word pairs and “phases”2.2 对高频词抽样2.3 Negative sampling3. Hierarchical Softmax3.1 霍夫曼树3.2 Hierarchical Softmax过程使用 gensim 训练 word2vecTextCNNTextRNN基于TextCNN、TextRNN的文本表示TextCNNTextRNN使用.原创 2020-07-28 21:59:13 · 426 阅读 · 0 评论 -
NLP以赛代练 Task4:基于深度学习的文本分类 1
基于深度学习的文本分类1基于深度学习的文本分类学习目标文本表示方法 Part2现有文本表示方法的缺陷FastText基于FastText的文本分类如何使用验证集调参结语 基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。 学习目标学习FastText的使用和基础原理学会使用验证集进行调参 文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们.原创 2020-07-28 11:58:31 · 221 阅读 · 0 评论 -
NLP以赛代练 Task 3:基于机器学习的文本分类
基于机器学习的文本分类机器学习模型文本表示方法 Part1One-hotBag of WordsN-gramTF-IDF基于机器学习的文本分类Count Vectors + RidgeClassifierTF-IDF + RidgeClassifier 机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对于学习.原创 2020-07-25 22:26:57 · 257 阅读 · 0 评论 -
NLP以赛代练 Task 2:数据读取与分析
数据读取与分析数据读取数据分析句子长度分析类别分布字符分布统计数据分析的结论 数据读取import pandas as pdtrain_df = pd.read_csv('/Users/debroon/Desktop/train_set.csv', sep='\t', nrows=100)train_df.head() # 查看 top5 的数据不算前面的行号,第一列为新闻的类别,第二列为新闻的字符。 数据分析一切技术的出现都是为了解决现实问题,而现实问.原创 2020-07-22 22:37:41 · 331 阅读 · 0 评论 -
NLP以赛代练 Task 1:赛题理解
NLP以赛代练 Task 1题目题目求解的是什么已知什么要满足哪些条件解题思路TF−IDFTF-IDFTF−IDF + 余弦相似度来进行分类 题目比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information 题目求解的是什么将一篇文章归入到具体的类别中,一共有 141414 个明确了的候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。这是.原创 2020-07-21 20:26:49 · 392 阅读 · 0 评论 -
线性回归(Linear Regression)
线性回归算法原理与思想前置知识回归平均算法原理手工实现scikit−learnscikit-learnscikit−learn调包实现线性回归总结 算法原理与思想 前置知识 回归平均1877年,高尔顿(达尔文的表弟)在英国皇家科学院做了一个演示报告:回归平均。高尔顿这次演示的东西,被后世称为“高尔顿板”。它是一个平板,下部有很多垂直的槽,槽上面是一些排列成三角形的小格挡。让一个小球从最上方掉下去,它会经过各个隔挡的阻碍,最终落到一个竖槽里。每个小.原创 2020-07-11 19:56:42 · 1742 阅读 · 0 评论 -
神经网络
神经网络神经网络复杂网络与网络效应神经元的计算神经网络实战:手写数字识别转变问题设定网络训练数据调参技巧工程直觉统计学最优:粗调与精调最优学习的 85% 规则卷积网络 神经网络从脑科学角度出发:人脑学习新技能,是发生在神经元这个层面的。因为练习一个动作而经常被一起触发的神经元,最后就会长在一起,整个网络结构长好了,就相当于一个技能长在了您的大脑之中。传统的人工智能对人思维的模拟,走的是结构模拟的道路。仿照人脑的内部结构和工作机制,来制造机器。但是,人脑实在是太复杂了,脑科学的研究也.原创 2020-06-17 18:00:53 · 1869 阅读 · 0 评论 -
机器学习的基础概念
机器学习的基本概念数据任务类型机器学习的基本流程 数据通常我们完成一个机器学习任务,手里有许多相关的数据,一般叫为[数据集](data set)。鸢尾花的数据集:每一行数据称为一个[样本](sample)。除最后一列,每一列表达样本的一个[特征](feature)。这些[特征]我们用一个大 XXX 表示,意为一个矩阵。矩阵的[行]数:[样本]的个数;矩阵的[列]数:[特征]的个数;书面表达:第 iii 个[样本] --> X(i)X^{(i)}X(i).原创 2020-05-12 19:04:13 · 390 阅读 · 0 评论 -
机器学习数学方面的介绍[计算机数学专题(9)]
在学习机器学习之前,应该具有坚实的计算机基础。深入学习了数据结构与数据结构的算法、计算机组织和系统架构,也具有编写一个完整项目的能力。我的 AI 专题,主要是以 高中数学 为基础的,所以您应该看看 计算数学 专题。 ...原创 2019-06-10 13:41:03 · 1285 阅读 · 0 评论 -
4. 计算机科学 (Kaggle项目拆解:泰坦尼克号预测)
今天计算机科学最高的研究水平,从人工智能,到并行计算,从计算机网络,到处理器芯片,从数据库,到云计算,都在公司,而不在大学里。 在学校学习的知识都会慢慢老化,如果我有一点点的黑客风格,就会保持开放的思维,愿意接受新东西,也乐意分享自己的知识、学习方法、思考模式、学习资源等,要对自己有信心,未来的自己一定会更强,一定可以挖到更多的 0 day、0 day。 ......原创 2019-08-13 22:14:59 · 3560 阅读 · 1 评论 -
k近邻算法(k-Nearest Neighbors,kNN)
k近邻算法 (k-Nearest Neighbors,kNN)前置知识:无。kNN算法步骤:收集整理好的数据,测试用的比如,香蕉和苹果的数据。我们可以将 苹果 和 香蕉 按俩个维度划分,长度和宽度(也可以按照别的维度,也可以是 n 维不一定是 2 维)。假设红色的点是苹果,绿色的点是香蕉;横坐标是长度,纵坐标是宽度。现在新来了一个点(黑色的),机器会把这个点判断为苹果,还是判断为...原创 2020-03-12 16:37:05 · 1338 阅读 · 0 评论