自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 隐语义模型LFM(Latent Factor Model)

隐语义模型LFM(Latent Factor Model)是主题模型中的一种,跟其他主题模型一样,LFM也需要定义若干“主题”,来表示个中隐含的关系,这些“主题”是模糊而不是明确的,通过统计用户行为的方式聚类计算得出。在LFM的推荐例子中,“主题”就可以认为代表item的分类,而分类的个数,需要事先定义。更直观地理解,假设我们定义隐因子的个数是30个,则在item候选集中,每一个item都会根...

2019-10-12 17:39:10 2586

原创 MongoDB简介与基本查询操作命令

MongoDB是一个非关系型的数据库,以键值对的形式储存,其中键值对可以嵌套下去。因此相对传统的关系型数据库来说,MongoDB更加的灵活,当然缺点就是由于非结构化的形式导致解析的时候相对复杂。另外,MongoDB已经支持了很多开源的生态,如可以集成Hadoop生态环境等,在扩展性上也有很好的支持。MongoDB三大基本概念:1. 文档(Document)——相当于关系型数据库中的行...

2019-10-03 09:42:05 306

转载 转:【NLP】彻底搞懂BERT

注:本文出处https://www.cnblogs.com/rucwxb/p/10277217.html自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是...

2019-09-01 23:46:47 558

原创 Softmax激活函数与梯度方向

Softmax函数属于有监督学习的范畴,一般用于多分类问题,在神经网络中应用广泛,很多时候作为输出层的激活函数使用。它可以被理解成升级版的Sigmoid函数,本质上是逻辑回归常用Sigmoid函数一般化,将k维的任意实数映射成k维的向量,Softmax的数值只能从0到1,表示的是分到相对应类别o的概率,因此所有的Softmax值加起来总和等于1。通常我们会选取概率最大的类别作为分类的结果。Soft...

2018-09-11 18:04:07 2709

转载 转:机器学习中的范数规则化之(一)L0、L1与L2范数

本文转自:http://blog.youkuaiyun.com/zouxy09       今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。

2017-08-25 17:13:06 646

转载 转:Spark SQL中Join常用3种实现

引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。

2017-08-14 08:44:49 560

原创 K-Means的三种迭代算法

K-Means是机器学习算法中一个比较经典的聚类算法具体的实现方式主要有三种:Lloyd(Forgy),Hartigan-Wong和MacQueenLloyd算法Lloyd算法也可以称作Forgy或者Lloyd-Forgy,是最为经典简单的K-means迭代算法,其步骤如下:1. 随机选取K个点作为初始的中心点2. 计算每个点与K个中心点的K个距离(假如有N个点,就有N*...

2017-05-15 14:45:46 27077 3

原创 混淆矩阵(Confusion Matrix)

混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。以下有几个概念需要先说明:TP(True Positive): 真实为0,预测也为0FN(False Negative): 真实为0,预测为1FP(False Positive): 真实为1,预测为0TN(True Negative): 真实为0,预测也为0:分类模型总体判断的准确率(包括了所有cl

2017-05-02 10:57:02 46102 6

转载 转:kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。  1 概述Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;

2017-04-23 22:41:32 384

原创 回归模型的一些判断方法

在回归模型中,我们需要判断模型是否很好地拟合实际数据,一般来讲会有以下方法: R平方:表示Y变量中的方差有百分之多少是可以预测的,R平方越高,Y中的方差就预测得越准确,模型的拟合程度也就越高。举个例子,R平方=10%,表示Y中有10%的方差是可以通过X预测出来的。 F检验(F - test):主要用以判断两个总体(Population)的平均值是否存在显著差异(Signific...

2017-04-05 23:04:42 19889

原创 Backward Elimination, Forward Selection and Stepwise

Backward Elimination,Forward Selection和Stepwise这三种是特征选择中经常用到的方法。当有时候特征的数量太多的时候,我们除了可以用PCA等方法降维之外,还可以用特征选择的方法,筛选出几个对结果影响最大的特征(feature),从而在对结果影响不大的情况下,减少计算量。Backward Elimination的方法很简单:首先包含了所有的fe

2017-04-05 22:06:43 11396

原创 笔记:聚类分析(待整理)

聚类分析优缺点:优点:1.聚类是自动的不必带有方向性   2.易于理解和实施缺点:1.有时候难以解读聚类的结果   2.聚类结果对距离计算方式的算则和特征之间的权重十分敏感   3.K-mean由K值主导   4.K-means对初始中心的选择十分敏感   5.异常值也会成为族群判断K值的两个方法:

2017-04-05 00:30:34 2021

原创 如何理解关联法则中的三个判断准则

关联法则中,我们最常用到的无外乎是三种判断的准则:support,confidence和lift。先给出三个判断标准的公式:1.support(A)= number of A/total items   support(B)= number of B/total items   support(A=>B)= support(B=>A)= number of A and B/tota

2017-04-04 22:09:16 8618

原创 最优化方法(Optimization Method)

梯度下降法(GD)分为批量和随机Batch GD(BGD)包括攒通GD,用所有训练集(或者一部分)计算下降方向,随机(SGD)每次只包含一个训练点,计算下降速度。BGD收敛过慢,可找到全局最优解,SGD则一般会在最优解附近。LBFGS(拟牛顿法)收敛速度比GD快,传统牛顿法需要存储Hesse矩阵,很好内存容量,LBFGS用序列近似Hesse,大大减少空间,且

2017-03-30 14:16:31 2688

原创 QR Decomposition

QR分解法多用于解决线性代数问题中最小二乘法(Least Square Method)计算线性函数的系数。是其中一种计算特征根的方法,可用于降维。QR分解法的例子如下:A=

2017-03-16 23:39:33 4364

转载 转:浅析PageRank算法

注:本文出处http://blog.jobbole.com/23286本文由张洋(@敲代码的张洋)投稿于伯乐在线。很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早

2017-03-16 22:39:29 403

原创 Receiver Operating Characteristic(ROC) Curve and Area Under Curve(AUC)

AUC是一个用于评估分类好坏的方法,其与ROC是相关联的(就是代表ROC曲线下面的面积,如下图所示的阴影部分)。分类的效果越好,ROC曲线越靠上,AUC的值越大。AUC值一般是在0.5到1之间浮动,如果AUC小于0.5,代表模型的精准度甚至不如瞎猜(瞎猜是0.5),同理,如果AUC等于1,则表明分类精度达到100%。    假设AUC的值是0.8,我们可以解读为:随机选择一个数据,有80%的机

2017-03-14 23:01:13 5882

原创 Kohonen Self Organize Maps

Kohonen Self Organize Maps(SOM) 是其中一种神经网络的方法,用于聚类分析,它通过自相竞争(Self-competition)的方式实现聚类过程,对于每个维度赋予权重,通过多次迭代,最终达到收敛。SOM能够自动确定K值,因此不需要像K-means一样事先确定K。一般来说,SOM对维度高的数据集表现更好。    SOM映射高纬度的数据集到低纬度空间中,因此可以用于降低

2017-03-14 22:38:35 1432

原创 时间序列分析笔记(待整理)

判断是否序列是否平稳:1. ADF-test,null:有单位根(不平稳),alternative:平稳2. KPSS-test,null:deterministic trend(可能是trend-stationary),alternative:有单位根(不平稳)判断是否白噪声:Ljung-Box test,null:是白噪声,alternative:不是白噪声

2017-02-15 17:29:25 63929 1

原创 我的Python爬虫笔记(待整理)

Python 爬虫现阶段用到的包是requests还有BeautifulSoup4。requests主要内容是模拟html的get方式读取网页的信息BeautifulSoup4则是提取网页中tag标签里面的某些特定信息范例:import requests        #import requests包res=requests.get('http://news.sina.c

2017-02-14 12:30:33 656

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除