
机器学习
文章平均质量分 93
iterate7
阳春布德泽,咱能生光辉?
百川东到海,不能复西归,
少壮要努力,以免徒伤悲!
展开
-
向量检索milvus之一:以图搜图
安装milvus关于milvusmilvus作为一个集成的开源平台,目标就是向量检索的集成平台。类似于elasticsearch集成了搜索。细节大家可以直接看官网。https://www.milvus.io/cn/docs/v0.11.0/overview.md安装说起来其实挺容易,方法也比较清晰。不过下载比较慢。>> docker pull milvusdb/milvus:0.11.0-cpu-d101620-4c44c00.11.0-cpu-d101620-4c44c0: Pul原创 2020-11-01 20:12:30 · 2745 阅读 · 1 评论 -
bert第三篇:tokenizer
文章目录tokenizer基本含义bert里涉及的tokenizerBasicTokenzerwordpiecetokenizerFullTokenzierPretrainTokenizer关系图实操如何训练训练自己中文的tokenizer总结引用tokenizer基本含义tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。英文则是subword的概念,例原创 2020-10-08 09:54:24 · 34537 阅读 · 6 评论 -
bert系列第二篇:几个损失函数
目录L1-Loss(MAE)MSE(L2 Loss)nllloss=negative-log-loss那么如何计算呢?能否举个例子crossentropy仔细思考上面的nllloss总结参考文献L1-Loss(MAE)Loss(x,y)=1N∑i(∣xi−yi∣)Loss(x,y)=\frac{1}{N} \sum_{i}( |x_i-y_i|)Loss(x,y)=N1i∑(∣xi−yi∣)简单而言,就是两个向量的绝对值的误差。 默认求平均,可以设置为sum。也是mean absolut原创 2020-10-07 10:01:25 · 8073 阅读 · 1 评论 -
bert系列第一篇: bert进行embedding
bert可以干啥我们理解bert为一个transformer集合,输入是一句话,输出是经过transform的结果。我们了解,深度学习的本质就是抽取核心特征, 这也是bert的核心功能,而且以transformer为主要模块,具有更优秀的attention功能,捕获的特征更为精确和全面。一句话概括, bert就是一个抽取器。输入一句话(词序列),输出抽取后的embedding序列。输入输出输入会加入特殊的[CLS]代表整句话的含义,可以用于分类。input的词help,prince,ma原创 2020-10-04 23:22:33 · 17072 阅读 · 2 评论 -
搜索排名:基于lightgbm的learn2rank
learning2rankpointwise: 一个文档一个point,计算得分。可以排序; 回归问题,分类问题都可。pairwise: 任何两篇的排序;listwise:所有文档的排序损失之和。lightgbmLightGBM is a gradient boosting framework that uses tree based learning algorithms.https://lightgbm.readthedocs.io/en/latest/基于lightgbm的learn原创 2020-10-03 11:34:26 · 2273 阅读 · 2 评论 -
方差、偏差(variance、bias)
概念方差的概念,是无监督的,描述的是一堆数据的聚集的程度。聚集的厉害方差就很小。偏差的概念,是有监督,偏差是指和目标的距离。 偏差大,就是离目标大。举例想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:1.子弹基本上都打在队伍经过的一棵树上了,连在那棵树旁边等兔子的人都毫发无损,这就是方差小(子弹打得很集中),偏差大(跟目的相距甚远)。2.子弹打在了树上,石头上,树旁边等兔子的人身上,花花草草也都中弹,但是敌军安然无恙,这就是方差大(子弹到处都是)原创 2020-08-20 22:53:30 · 797 阅读 · 0 评论 -
MAP_K 检索评估指标
1. MAP_KMAP: mean average precision.precision很容易理解;precision@10表示检索10个文档中包含相关所占的比例, 比如检索了10个,有9个是相关的,那么 precision@10=0.9average precision, 也容易理解。 可以看p1,p2,p3,p4,p5,p6的平均值;就是 ap6的值mean 则是对所有的case求mean则是结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(im原创 2020-05-24 21:57:26 · 3251 阅读 · 0 评论 -
CNN再思
CNNconvolutional neural network核心步骤则是:卷积、池化对于分类问题,主要的流程:至于卷积和池化则在后面代码介绍,一句话理解:卷积就是抽取某些特征。filter就是卷积核,抽取某类特征,如果想抽取不同的特征,则就是多个filter,抽取之后形成feature map。我们要学习什么参数呢?filter.比如我们有3个filter,每个filter是...原创 2020-03-08 01:09:15 · 219 阅读 · 0 评论 -
GridSearch & Kfold & cross validation
what’s cross validation?Cross-validation is a technique that is used for the assessment of how the results of statistical analysis generalize to an independent data set. Cross-validation is largely u...原创 2019-10-06 09:02:01 · 716 阅读 · 0 评论 -
如何利用conda建立的虚拟空间在jupyter里开发
conda安装之后使用命令行将anaconda的bin目录加入PATH,根据版本不同,也可能是~/anaconda3/binecho ‘export PATH="~/anaconda2/bin:$PATH"’ >> ~/.bashrc更新bashrc以立即生效source ~/.bashrc如果mac安装了zshrc怎么办,简单修改~/.zshrc文件,在其中添加:sour...原创 2019-08-29 11:29:44 · 310 阅读 · 0 评论 -
StarSpace系列之一:tagspace
问题类型TagSpace 单词、标签的嵌入用途: 学习从短文到相关主题标签的映射,例如,在 这篇文章 中的描述。这是一个典型的分类应用。模型: 通过学习两者的嵌入,学习的映射从单词集到标签集。 例如,输入“restaurant has great food <\tab> #restaurant <\tab> #yum”将被翻译成下图。(图中的节点是要学习嵌入的实体,图...原创 2019-04-14 00:32:30 · 1474 阅读 · 0 评论 -
神经网络介绍
概述以监督学习为例,假设我们有训练样本集(xi,yi)(xi,yi)(x_i,y_i),那么神经网络算法能够提供一种复杂且非线性的假设模型hW,b(x)hW,b(x)h_{W,b}(x), 它具有参数W,bW,bW,b, 可以以此参数来拟合我们的数据。 为了描述神经网络(neural networks),我们先从最简单的神经网络讲起, 这个神经网络仅由一个“神经元”构成,以下就是这个“神经元...原创 2017-07-24 18:23:40 · 1190 阅读 · 0 评论 -
AI小常识
1. 人工智能历史上第一个战胜人类的棋类游戏是? 西洋双陆棋 backgammon. 1997年,由Hans Berliner(1929-2017)开发的一个西洋双陆棋程序,以7:1战胜当时的世界冠军Luigi Villa。创下了计算机第一次在智力游戏中击败冠军级别人类竞争对手的历史。2. ImageNet的模型中AlexNet的作者是? Geoffrey Hinton,...原创 2018-02-15 16:03:41 · 862 阅读 · 0 评论 -
损失函数:逻辑回归损失函数 推导简记
这里只推导逻辑回归的损失公式。假设函数hθ(x)=11+e−θTx(假设函数)(假设函数)hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} \tag{假设函数}用于二分类p(x)={hθ(x),(1−hθ(x)),if y=1if y=0p(x)={hθ(x),if y=1(1−hθ(...原创 2019-10-02 23:22:04 · 6340 阅读 · 2 评论 -
感知机perceptron
定义和模型f(x)=sign(w⋅x+b)(1)(1)f(x)=sign(w⋅x+b)f(x) = sign(w \cdot x+b) \tag{1} 其中, w和b是模型参数, w向量叫做权重向量; b叫偏置(bias)向量。 公式1就是感知机,是线性分类模型(liner classifier model),属于判别模型。几何解释超平面:w⋅x+b=0(2)(2)w⋅x+b=...原创 2018-02-18 23:19:58 · 646 阅读 · 0 评论 -
pagerank算法的再理解
问题描述如果要评估一个页面的得分,谷歌提出了pageRank算法。主体思路是: 一个网页的重要程度与两个方面有关: 1. 指向自己的页面越多,越重要 2. 指向自己的页面越重要,那么得分越高。于是公式可以: PRi=∑(j,i)∈EPRjOj(1)(1)PRi=∑(j,i)∈EPRjOjPR_i = \sum_{(j,i)\in E} \frac{PR_j}{O_j} \tag{...原创 2018-03-12 19:27:00 · 1265 阅读 · 0 评论 -
bp算法的理解
bp算法又称反向传导算法,英文: back propagation。 我们了解,前向传导,可以根据W,b来计算出隐层、输出层的各个神经元的值以及对应的激活值,最终得到输出。如果输出和我们的目标存在误差,这个误差可以用成本函数表示(loss function),那么我们就需要反向的把这个误差分配到前面的各个传导的过程中,也就是W和B上;我们需要知道每个神经元带来了多少误差,这个影响程度我们用“...原创 2018-03-23 14:03:44 · 4772 阅读 · 1 评论 -
熵、交叉熵、KL散度、损失函数
信息量一个事件x的信息量是: I(x)=−log(p(x))I(x)=−log(p(x))I(x)=-log(p(x)) 解读:如果一个事件发生的概率越大,那么信息量就越小。如果是1,也就是100%发生,那么信息量为0。熵就是对信息量求期望值。 H(X)=E[I(x)]=−∑x∈Xp(x)logp(x)H(X)=E[I(x)]=−∑x∈Xp(x)logp(x) H(X...原创 2018-04-25 16:06:18 · 10957 阅读 · 1 评论 -
利用gensim进行词向量处理和找到相似词
关于词向量计算方法word2vec加载方法word2vec format;bin;text format;xx.kv结构如何计算相似度有必要norm吗?性能那个更快结果参考文献原创 2019-04-06 12:38:20 · 6287 阅读 · 0 评论 -
梯度下降(gradient descent)
梯度在某个点的位置法向量,所以它的方向表示下降最快或者上升最快也就很好理解了。 法向量:假设平面a与向量n垂直,且n是非零向量,那么n就是a的法向量。由于是垂直的关系,针对当前点而言,肯定是变化最快的方向。 梯度是一个方向,而且是针对某个点(其实是这个点对应的切面) 这个方法变化率最快,用偏导来表达∇=(∂f∂x,∂f∂y,∂f∂z)(1)\nabla= (\frac{原创 2017-08-05 10:52:40 · 2606 阅读 · 0 评论