
机器学习
文章平均质量分 75
Rnan-prince
知是行之始,行是知之成(1352638748@qq.com)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习-理解及应用:解决迷宫问题
强化学习(Reinforcement Learning, RL)是一种机器学习方法,旨在让智能体(agent)通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。原创 2023-07-09 11:47:40 · 4103 阅读 · 0 评论 -
AI模型隐私风险及防护技术
随着AI成为新一代关键技术趋势,围绕着AI的服务也越来越普及。特别是结合了云计算以后,机器学习数据的标注、模型训练及预测等服务纷纷上云,为用户提供了强大的算力和优秀的算法,极大方便了广大开发者与企业用户。原创 2023-03-25 20:29:33 · 2667 阅读 · 1 评论 -
核密度估计-KDE
核密度估计(Kernel Density Estimation)密度评估器是一种利用D维数据集生成D维概率分布估计的算法,GMM使用不同的高斯分布的加权汇总来表示概率分布估计。核密度估计算法将高斯混合理念扩展到了逻辑极限,它通过对每一个点生成高斯分布的混合成分,获得本实质上是无参数的密度评估器。核密度估计的自由参数是核类型和核带宽,前者指定每个点核密度分布的形状,后者指定每个点核的大小。一维数据的密度估计——直方图,是一个简单的密度评估器,直方图将数据分成若干区间,统计落入每个区间内的点的数量原创 2021-09-23 23:51:20 · 5053 阅读 · 0 评论 -
数据科学在Web威胁感知中的应用
写的非常棒,推荐给大家转载 2021-09-08 21:40:55 · 209 阅读 · 0 评论 -
sklearn.LabelEncoder出现之前从未见过值
如果将LabelEncoder.transform将训练集转换为编码序列,则在测试集上使用时如果遇到新的值,则可能会报错。'<Unknown>'我们可以继承LabelEncoder并重写fit和transform。 如果您有一个新标签,它将被分配为未知类。from sklearn.preprocessing import LabelEncoder as LEncoderclass LabelEncoder(LEncoder): def fit(self, y):原创 2021-09-05 09:16:28 · 2203 阅读 · 0 评论 -
N-gram算法
语言模型语言模型起源于语音识别(speech recognition),输入一段音频数据,语音识别系统通常会生成多个句子作为候选,究竟哪个句子更合理?就需要用到语言模型对候选句子进行排序。语言模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。能够计算的模型就是语言模型,其中为单词。N-gram语言模型N-gram语言模型是NLP时代最流行的一种。1、马尔可夫假设:每个词只依赖前n个词2、贝叶斯定理因此:我们也可以引入二阶马尔可夫假设:每个词依...原创 2021-07-17 17:06:01 · 3054 阅读 · 1 评论 -
HMM和N-gram、贝叶斯网络的区别
1、HMM一个参数:(A,B,,Q,V)两个假设:观测独立假设,观测只与当前状态有关, 马尔可夫假设t时刻的状态只与t-1时刻的状态有关三个问题:概率计算问题,给定观测集合O和模型参数求 学习问题,由观测序列O求模型参数使的概率最大 预测问题,由观测序列O和模型参数,求最可能的状态序列)参考:https://blog.youkuaiyun.com/qq_19446965/article/details/904413802、N-gram3、贝叶斯网络4、HMM和N-gram区别在原创 2021-07-17 17:24:33 · 1143 阅读 · 0 评论 -
隐马尔科夫模型HMM,这回理解了
参考:http://www.hankcs.com/ml/hidden-markov-model.html以前一直迷惑,这回理解了原创 2019-05-22 12:03:18 · 374 阅读 · 0 评论 -
单分类算法:One Class SVM
安全检测常用算法有:Isolation Forest,One-Class Classification等,孤立森林参见另一篇,今天主要介绍One-Class Classification单分类算法。一,单分类算法简介 One Class Learning 比较经典的算法是One-Class-SVM,这个算法的思路非常简单,就是寻找一个超平面将样本中的正例圈出来,预测就是用这个超平面做决策,在圈内的样本就认为是正样本。由于核函数计算比较耗时,在海量数据的场景用的并不多; 另一个算法是...原创 2021-07-15 01:14:04 · 30947 阅读 · 8 评论 -
基于机器学习的UEBA在账号异常检测中的应用
UEBA UEBA用户实体行为分析,更多UEBA相关概念参考《UEBA白皮书》UEBA的核心点1.跨越SIEM/ROC产品,UEBA产品考虑更多的数据源。 从网络设备、系统、应用、数据库和用户处收集数据,有更多的数据,是其成功的条件之一。2.数据驱动,但并不是单纯依靠数据驱动。一般都是数据驱动+专家驱动的混合系统。单纯的数据驱动的问题: 1.在学习之处很难拿到十分完善的数据,每当有新的数据源都需要重新进行学习,对于工程化来说是一场灾难 2.增加features很原创 2021-07-15 00:34:43 · 8514 阅读 · 3 评论 -
机器学习相关学习资料(收藏)
https://www.cntofu.com/book/85/index.html原创 2021-07-09 01:16:34 · 357 阅读 · 0 评论 -
CBLOF算法-异常检测
CBLOF也是一种基于其他机器学习算法的异常检测算法。说到基于,就是CBLOF名字里面的B~Based。而他基于的是其他的聚类算法,所以他就是Cluster-Based。LOF三个字母是Local Outlier Factor,本地异常因子。合起来CBLOF 就是 Cluster-based Local Outlier Factor,基于聚类的本地异常因子。他的一个基本认知是:数据可能会在多个不同的地方聚集,形成簇。当一个点越接近大簇的时候,他是正常点的概率就越高,反之越低。那么,我们只要在CBLOF里原创 2021-05-15 23:41:30 · 3490 阅读 · 0 评论 -
HBOS算法-异常检测
背景在网络安全领域,对异常检测算法的效率要求很高,且输入数据往往非常大,这也是为什么半监督学习的异常检测算法往往采用直方图的原因。如果处理的是高维数据,单维度的直方图很容易计算。大多数直方图相关的算法中,常常固定直方图的宽度或者手动设置宽度。论文提出了一种基于直方图的无监督异常检测算法-HBOS算法,并且提出了动态宽度的算法以适应不均衡的长尾分布。论文《 Histogram-based Outlier Score (HBOS): A fast Unsupervised Anomaly Detecti原创 2021-05-15 22:37:37 · 2084 阅读 · 0 评论 -
AutoML综述
论文地址:https://arxiv.org/abs/1810.13306。AutoML出现原因机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML视图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。使用AutoML 的好处市场潜力巨大:到根据Gartner 的数据,2022年,RPA相关的集成运用,将会以每年40%的速度增长。这是为什么这两年即使在资本市场降温的情况下,头.原创 2020-08-02 16:09:53 · 2154 阅读 · 0 评论 -
PyTorch深度学习入门
PyTorch是什么?这是一个基于Python的科学计算包,其旨在服务两类场合:替代numpy发挥GPU潜能 一个提供了高度灵活性和效率的深度学习实验性平台Pytorch安装官网有安装方法:https://pytorch.org/get-started/locally/conda install pytorch torchvision cpuonly -c pytorch或pip install torch==1.6.0+cpu torchvision==0.7.0+cpu -原创 2020-07-30 02:05:24 · 572 阅读 · 0 评论 -
Linux - 内核机制
1、Linux内核体系结构首先讨论Linux内核的体系结构,包括内核的职能、内核的组织结构和模块、内核提供的服务以及进程管理等。内核的职能内核(也称为操作系统)有如下两个主要作用:与系统的硬件设备进行交互并对其加以控制。 为应用程序提供运行环境。某些操作系统允许应用程序直接访问硬件设备,但这种能力目前已经很少见。类UNIX操作系统向应用程序隐藏了所有的低层硬件细节。应用程序如果希望使用某个硬件资源,就必须向操作系统发出请求。操作系统对该请求进行评估,并在请求有效时代表应用程序与硬件设备进原创 2020-07-11 23:59:32 · 890 阅读 · 0 评论 -
知识图谱入门 【九】- 知识问答
知识问答简介问答系统的历史如下图所示:可以看出,整体进程由基于模板到信息检索到基于知识库的问答。基于信息检索的问答算法是基于关键词匹配+信息抽取、浅层语义分析。基于社区的问答依赖于网民贡献,问答过程依赖于关键词检索技术。基于知识库的问答则基于语义解析和知识库。根据问答形式可以分为一问一答、交互式问答、阅读理解。一个经典的测评数据集为QALD,主要任务有三类:多语种问答,基于Dbpedia 问答基于链接数据 Hybrid QA,基于RDF and free text data知识问答转载 2020-07-10 19:13:17 · 1119 阅读 · 0 评论 -
知识图谱入门 【八】- 语义搜索
语义搜索简介什么是语义搜索,借用万维网之父Tim Berners-Lee的解释 “语义搜索的本质是通过数学来拜托当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式,不同的搜索模式之间的技术差异可以分为:对用户需求的表示(query model) 对底层数据的表示(data model) 匹配方法(matching technique)以前常用的搜索是基于文档的检索(document retrieval )。信息检索(IR)支持转载 2020-07-10 19:07:04 · 4021 阅读 · 0 评论 -
知识图谱入门 【七】- 知识推理
知识推理任务分类所谓推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。其具体任务可分为可满足性(satisfiability)、分类(classification)、实例化(materialization)。可满足性可体现在本体上或概念上,在本体上即本体可满足性是检查一个本体是否可满足,即检查该本体是否有模型。如果本体不满足,说明存在不一致。概念可满足性即检查某一概念的可满足性,即检查是否具有模型,使得针对该概念的解释不是空集。上图是两个不可满足的例子,第一个本体那个是...转载 2020-07-09 23:45:48 · 2086 阅读 · 0 评论 -
知识图谱入门 【六】- 知识融合
知识融合简介知识融合,即合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。需要确认的是:等价实例 等价类/子类 等价属性/子属性一个例子如上图所示,图中不同颜色的圆圈代表不同的知识图谱来源,其中在dbpedia.org中的Rome 和geoname.org的roma是同一实体,通过两个sameAs链接。不同知识图谱间的实体对齐是KG融合的主要工作。除了实体对齐外,还有概念层的知识融合、跨语言的知识融合等工作。这里值得一提的.转载 2020-07-08 23:59:23 · 3033 阅读 · 0 评论 -
知识图谱入门 【五】- 知识存储
图数据库简介图数据库源起欧拉和图理论(graph theory),也称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系(边)来体现,也可以处理键值对。它的优点是快速解决复杂的关系问题。Apache JenaJena 是一个免费开源的支持构建语义网络和数据连接应用的Java框架。下图为Jena的框架:其中,最底层的是数据库,包含SQL数据库和原生数据库,其中SDB用来导入SQL数据库,转载 2020-07-08 23:57:35 · 948 阅读 · 0 评论 -
知识图谱入门 【四】- 知识挖掘
知识挖掘知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘。实体消歧与链接实体链接的流程如上图所示,这张图在前一章出现过,那里对流程进行了简要说明。此处对该技术做进一步的说明。示例一: 基于生成模型的 entity-mention 模型该模型的流程如上图所示,文字表述为: 我们有两..转载 2020-07-07 23:59:57 · 2223 阅读 · 0 评论 -
知识图谱入门 【三】- 知识抽取
知识抽取的概念知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示:知识抽取的子任务命名实体识别 检测: 北京是忙碌的城市。 [北京]: 实体 分类:北京是忙碌的城市。 [北京]: 地名 术语抽取 从语料中发现多个单词组成的相关术语。 关系抽取 王思聪是万达集团董事长王健林的独子。→→[王健林] <父子关系> [王思聪] 事件抽取 例如从一篇新闻报道中抽取出事件发生是触发词...转载 2020-07-07 23:57:31 · 2406 阅读 · 0 评论 -
知识图谱入门 【二】- 知识表示与知识建模
知识表示历史知识的概念知识表示就是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识的数据结构。它是机器通往智能的基础,使得机器可以像人一样运用知识。知识具有相对正确性、不确定性、可表示性以及可利用性的特点。根据不同划分标准,知识可以分为不同的类别。例如按照作用范围分类,可分为常识性知识和领域性知识。按作用及表示分类为事实性知识、过程性知识、控制知识。按确定性分类有确定性知识,不确定性知识。按结构及表现形式可分为逻辑性知识和形象性知识。早期的知识表示方法一阶谓词转载 2020-07-06 23:52:23 · 1734 阅读 · 0 评论 -
知识图谱入门 【一】- 认识图谱技术
知识图谱与语义技术概览知识图谱的概念演化知识图谱(Knowledge Graph, KG)的概念演化可以用下面这幅图来概括:在1960年,语义网络(Semantic Networks)作为知识表示的一种方法被提出,主要用于自言语言理解领域。它是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。如下图所示。简而言之,语义网络可以比较容易地让我们理解语义和语义关系。其表达形式简单直白,符合自然。然而,由于缺少标准,转载 2020-07-05 20:52:17 · 3409 阅读 · 2 评论 -
python基础 - Scikit-learn
Scikit-learn 是开源的 Python 库,通过统一的界面实现机器学习、预处理、交叉验证及可视化算法。一、加载数据二、训练集与测试集数据三、数据预处理1、标准化2、归一化3、二值化4、编码分类特征5、输入缺失值6、生成多项式特征四、创建模1、有监督学习评估器(1)线性回归(2)支持向量机(SVM)(3)朴素贝叶斯(4)KNN2、无监督学习评估器(1)主成分分析(PCA)(2)K Means五、模型拟合1、有监督学习原创 2020-06-26 15:35:56 · 275 阅读 · 0 评论 -
机器学习中的偏差和方差
1、误差的两大来源机器学习中有两个主要的误差来源:偏差和方差。理解它们将协助合理安排时间去执行策略来提升性能。首先了解一下数据集的分类:训练集(training set) 用于运行你的学习算法。 验证集(hold-out cross validation set) 用于调整参数,选择特征,以及对学习算法作出其它决定。 测试集(test set) 用于评估算法的性能,但不会据此改变学习算法或参数。偏差,可以理解为样本y与模型预测结果的差距,可以使用平方差计算。方差,是样本y值与模型期望的差的原创 2020-06-18 16:23:42 · 1981 阅读 · 0 评论 -
KPI异常检测【三】- 机器学习算法
1、相关概念1.1 异常类型https://zhuanlan.zhihu.com/p/673962191.2 检测方法https://www.cnblogs.com/rnanprince/articles/10790313.html标记(labels):有监督,半监督,无监督 样本类型 困难 有监督 平衡 样本极度不平衡时,训练难;人工标记难 半监督 极度平衡 可能无异常样本 无监督 无标签 有强假设关系,检测存在偏差 .原创 2020-06-17 23:15:44 · 5526 阅读 · 0 评论 -
CRF条件随机场与HMM,MEMM比较
CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词) 词性标注(标注分词的词性,例如:名词,动词,助词) 命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本文...转载 2018-08-13 17:07:07 · 1527 阅读 · 0 评论 -
PCA主成分分析学习总结
看了好多资料,都扯犊子,看不太懂,故总结如下:首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?可以想到,若存在这样的超平面,那么它大概具有这样的性质:1两大依据最大可分性:样本点在这个超平面上的投影能尽可能的分开最近重构性:样本点到这个超平面的距离足够近目标:希望将这m个数据的维度从n维降到n`维,希望这m...原创 2018-08-26 10:08:03 · 2873 阅读 · 0 评论 -
SVD奇异值分解学习总结
1.原理SVD的基本公式:U和V我们都求出来了,现在就剩下奇异值矩阵∑没有求出了。由于∑除了对角线上是奇异值其他位置都是0,那我们只需要求出每个奇异值σ就可以了。我们注意到:这样我们可以求出我们的每个奇异值,进而求出奇异值矩阵∑。上面还有一个问题没有讲,就是我们说ATA的特征向量组成的就是我们SVD中的V矩阵,而AAT的特征向量组成的就是...原创 2018-08-26 10:18:59 · 3097 阅读 · 0 评论 -
LDA线性判别分析
问题之前我们讨论的 PCA降维,对样本数据来言,可以是没有类别标签 y 的。如果我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA 来降维,但 PCA 没有将类别标签考虑进去,属于无监督的。假设我们对一张 100*100 像素的图片做人脸识别, 每个像素是一个特征,那么会有 10000 个特征,而对应的类别标签y仅仅是 0/1 值, 1 代表是人脸...原创 2018-08-26 10:32:27 · 4405 阅读 · 2 评论 -
Xgboost通俗理解
1 xgboost树的定义2 xgboost目标函数 ---------2.1 模型学习与训练误差 2.2 树的复杂度3 打分函数计算 ----------3.1 分裂节点 3.2 缺失值处理4 XGBoost的特性5 Boosted ...原创 2018-08-26 12:19:12 · 6473 阅读 · 0 评论 -
GBDT算法原理
一、基础知识1.泰勒级数展开 2.梯度下降法 3.牛顿法 4.从参数空间到函数空间二、GBDT1 .DT:回归树 Regression Decision Tree 5.GBDT 适用范围 2. GB:梯度迭代 Gradient Boosting ...原创 2018-08-26 12:36:04 · 11366 阅读 · 0 评论 -
Java实现C4.5决策树
1.定义数据结构根据决策树的形状,我将决策树的数据结构定义如下。lastFeatureValue表示经过某个特征值的筛选到达的节点,featureName表示答案或者信息增益最大的特征。childrenNodeList表示经过这个特征的若干个值分类后得到的几个节点。public class Node{ /** * 到达此节点的特征值 */ publi...原创 2018-08-31 09:56:56 · 2480 阅读 · 2 评论 -
时间序列异常检测算法S-H-ESD
1. 基于统计的异常检测Grubbs' TestGrubbs' Test为一种假设检验的方法,常被用来检验服从正太分布的单变量数据集(univariate data set)YY中的单个异常值。若有异常值,则其必为数据集中的最大值或最小值。原假设与备择假设如下:H0:数据集中没有异常值H1:数据集中有一个异常值Grubbs' Test检验假设的所用到的检验统计量(test s...原创 2019-04-09 09:38:42 · 5832 阅读 · 0 评论 -
Grubbs Test
目的:检测异常值Grubbs的检验(Grubbs 1969和Stefansky 1972)用于检测单变量数据集中的单个异常值,该单变量数据集遵循近似正态分布。如果您怀疑可能存在多个异常值,建议您使用Tietjen-Moore测试或广义极端学生化偏差测试而不是Grubbs测试。格拉布斯的测试也称为最大标准残差测试。实际上,Grubbs' Test可理解为检验最大值、最小值偏离均值的程度...原创 2019-04-19 09:10:26 · 9012 阅读 · 1 评论 -
几种常见的离群点检验方法
在一组平行测定中,若有个别数据与平均值差别较大,则把此数据视为可疑值,也称离群值。 如果统计学上认为应该舍弃的数据留用了,势必会影响其平均值的可靠性。相反,本应该留用的数 据被舍弃,虽然精密度提高,但却夸大了平均值的可靠性。1 离群值检验方法简介设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大...转载 2019-04-19 10:50:18 · 61904 阅读 · 2 评论 -
《南瓜书》PumpkinBook
周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。 南瓜书是西瓜书的公式推导版,里面的内容都是以西瓜书的内容为前置知识进行表述,所以 南瓜书的最佳使用方法 是以西..转载 2020-06-08 00:03:44 · 10346 阅读 · 0 评论 -
孤立森林(Isolation Forest)
著名的,人手一本的西瓜书(就是这本)的作者周志华老师,于2008年在第八届IEEE数据挖掘国际会议上提出孤立森林(Isolation Forest)算法,先简单解释一下什么是孤立森林:「假设我们用一个随机超平面来切割(split)数据空间(data space), 切一次可以生成两个子空间(想象拿刀切蛋糕一分为二)。之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里...原创 2019-04-20 20:46:59 · 7793 阅读 · 1 评论