
机器学习
机器学习,以实战促进理论理解
北木.
交流分享,共同成长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阿里算法工程师重点题整理
1.设x、y、t均为int型变量,则执行语句:t=3; x=y=2; t=x++||++y; 后,变量t和y的值分别为____。A t=1 y=2 B t=1 y=3 C t=2 y=2 D t=2 y=3 E t=3 y=2 F t=3 y=3思路:x++||++y执行后的结果是真,即1,然后赋值给t。因为是或运算,所以在判断x++是真后,后面的++y就不再执行了,所以y值没有变还是2。正解A2.以下是一个有向图,我们从节点B开始进行深原创 2020-08-18 14:16:48 · 647 阅读 · 0 评论 -
京东面试算法题
1. 若一序列进栈顺序为a1,a2,a3,a4,问存在多少种可能的出栈序列12131415正确答案:Cf(n)=C(2n,n)/(n+1)2. 下列属于有监督学习算法的是:谱聚类主成分分析PCA主题模型LDA线性判别分析LDA正确答案:D题目解析: 聚类是典型的无监督学习方法,谱聚类是很好的聚类算法,往往可以得到不错的聚类结果(缺点是需要计算特征值和特征向量,速度较慢);主成分分析PCA是使用无标签的数据直接做降维,属于无监督学习。主题模型LDA只使用文本数据本身,在给定主题原创 2020-08-17 22:48:03 · 2104 阅读 · 0 评论 -
机器学习 精准率 — 召回率 — 准确率 — F1-Score
准确率 、召回率 、精确率 :准确率->accuracy, 精确率->precision. 召回率-> recall. 三者很像,但是并不同,简单来说三者的目的对象并不相同。大多时候我们需要将三者放到特定的任务环境中才会更加明显的感觉到三者的差异。在介绍这些之前,我们先回顾一下我们的混淆矩阵。True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为原创 2020-08-17 22:08:43 · 1250 阅读 · 0 评论 -
TF-IDF算法介绍及实现
目录1、TF-IDF算法介绍(1)TF是词频(Term Frequency)(2) IDF是逆向文件频率(Inverse Document Frequency)(3)TF-IDF实际上是:TF * IDF2、TF-IDF应用3、Python3实现TF-IDF算法4、NLTK实现TF-ID...转载 2020-07-17 15:26:36 · 2479 阅读 · 0 评论 -
初步认识Scikit-learn
S-cikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理分类概念:分类给自定对象指定所属类别范畴:监督学习最常见的应用场景:垃圾邮件检测、图像识别已实现算法:支持向量机(SVM,Support Verctor Machine)、K最邻近算法(KNN,K-NearestNeighbor)、逻辑回归(LR,Logistic Regression)、随机森林(RF,Random Forest)、决策树(Decision Tree)、多层感知器(MLP,M原创 2020-07-17 15:18:45 · 218 阅读 · 0 评论 -
自然语言处理之企业文本故障树生成思路及注意要点
项目步骤: 原始语料的预处理 (数据接入,语料过滤,噪声去除)语料噪声的去除:正则表达式提取数据集的划分 (专有字段的划分,语料内容的划分)样本数据集的聚类 (特征提取,聚类过程)特征提取算法: TF-IDF、word2vec算法聚类算法: DBSCAN 、AP、Mean-Shift算法摘要生成 (关键词提取)关键词提取算: TF-IDF、Textrank算法...原创 2020-05-22 19:29:12 · 535 阅读 · 0 评论 -
图解Mean-Shift聚类算法
前期回顾 K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点 与K-Means算法不一样的是,Mean Shift 算法可以自动决定类别的数目。与K-Means算法一样的是,两者都用集合内数据点的均值进行中心点的移动。 声明 以下部分内容来源于:meanshift算法Mean Shift算法原理 meanshift 算法其实通过名字就可以看到该算法的核心,mean(均值),shift(偏移),简单的说,也就是有一个点 xxx,它的周围有很多个点xix_i.原创 2020-05-22 19:24:32 · 1819 阅读 · 2 评论 -
DBSCAN聚类算法 — 理论 + 图解 + 代码
前期回顾 K-Means算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点一、前言二、DBSCAN聚类算法三、参数选择四、DBSCAN算法迭代可视化展示五、常用的评估方法:轮廓系数六、用Python实现DBSCAN聚类算法一、前言DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间.转载 2020-05-22 16:16:13 · 2613 阅读 · 0 评论 -
BAT机器学习面试系列(一)
1. 请简要介绍下tensorflow的计算图 Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个节点都是计算图上的一个Tensor, 也就是张量,而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。如下图表示:a=x*y; b=a+z; c=tf.reduce_sum(b)...原创 2020-04-20 21:09:30 · 161 阅读 · 0 评论 -
常见的机器学习面试题及解答(二)
往期回顾常见的机器学习面试题及解答(一)1. 请你谈一下对于SGD,Momentum,Adagard,Adam原理的认识SGD随机梯度下降,与数据集的batch有关。Momentum梯度指数衰减。Adagarm可自动变更学习率。Adam每次迭代后的学习率有个确定的范围。...原创 2020-04-17 11:40:32 · 324 阅读 · 0 评论 -
深度学习算法简要综述(上)
声明 来源于:算法猿的成长 简介 自从 2012 年在一个图像识别比赛上,一个神经网络的性能超过人类后,深度学习就火了起来,但当时只有少数人会预料到接下来会发生什么。在过去的十年里,有越来越多的算法面世,也有越来越多的公司开始将这些算法应用到他们的日常业务中。本文将尝试介绍这些年里,所有重要的深度学习算法和网络结构,包括在计算机视觉和自然语言处理相关的应用中采用的算法。它们之中有的应用...原创 2020-04-06 22:06:55 · 819 阅读 · 0 评论 -
十个实用的机器学习建议
声明 本博客来源于: 算法猿的成长 1. 学会写抽象类 当你开始写抽象类的时候,你就知道它可以让你的代码库变得很清晰明了,它们会强制采用一样的方法和方法名字。如果同个项目有多个人参与,并且每个人都用不同方法,那会产生不必要的混乱情况。下面是一个代码例子:import osfrom abc import ABCMeta, abstractmethodclass DataProce...原创 2020-04-06 20:50:30 · 186 阅读 · 0 评论 -
常见的机器学习面试题及解答(一)
线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。m 个元集到n 个元集的映射为n^m个.m 个元集到n 个元集的单射为:当 m=n 时,为 A(m,m)=m! (个) 当 m≠n 时,为0个.m 个元集到n 个元集的满射为:当mn时,情况复杂,需分类讨论 : m=n+1时,为C(m,2)A(n,n...原创 2020-03-27 20:41:50 · 2228 阅读 · 0 评论 -
K-Means聚类算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点
分类知识 分类是根据样本某些属性或某类特征(可以融合多类特征),把样本类型归为已确定的某一类别中。机器学习中常见的分类算法有:SVM(支持向量机)、KNN(最邻近法)、Decision Tree(决策树分类法)、Naive Bayes(朴素贝叶斯分类)、Neural Networks(神经网络法)等。 但当对海量数据进行分类时,为了降低数据满足分类算法要求所需要的预处理代价,往往需要选...原创 2020-04-01 11:56:49 · 12257 阅读 · 2 评论