- 博客(67)
- 资源 (6)
- 收藏
- 关注
原创 向量检索milvus之一:以图搜图
安装milvus关于milvusmilvus作为一个集成的开源平台,目标就是向量检索的集成平台。类似于elasticsearch集成了搜索。细节大家可以直接看官网。https://www.milvus.io/cn/docs/v0.11.0/overview.md安装说起来其实挺容易,方法也比较清晰。不过下载比较慢。>> docker pull milvusdb/milvus:0.11.0-cpu-d101620-4c44c00.11.0-cpu-d101620-4c44c0: Pul
2020-11-01 20:12:30
2740
1
原创 bert第三篇:tokenizer
文章目录tokenizer基本含义bert里涉及的tokenizerBasicTokenzerwordpiecetokenizerFullTokenzierPretrainTokenizer关系图实操如何训练训练自己中文的tokenizer总结引用tokenizer基本含义tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。英文则是subword的概念,例
2020-10-08 09:54:24
34527
6
原创 bert系列第二篇:几个损失函数
目录L1-Loss(MAE)MSE(L2 Loss)nllloss=negative-log-loss那么如何计算呢?能否举个例子crossentropy仔细思考上面的nllloss总结参考文献L1-Loss(MAE)Loss(x,y)=1N∑i(∣xi−yi∣)Loss(x,y)=\frac{1}{N} \sum_{i}( |x_i-y_i|)Loss(x,y)=N1i∑(∣xi−yi∣)简单而言,就是两个向量的绝对值的误差。 默认求平均,可以设置为sum。也是mean absolut
2020-10-07 10:01:25
8064
1
原创 bert系列第一篇: bert进行embedding
bert可以干啥我们理解bert为一个transformer集合,输入是一句话,输出是经过transform的结果。我们了解,深度学习的本质就是抽取核心特征, 这也是bert的核心功能,而且以transformer为主要模块,具有更优秀的attention功能,捕获的特征更为精确和全面。一句话概括, bert就是一个抽取器。输入一句话(词序列),输出抽取后的embedding序列。输入输出输入会加入特殊的[CLS]代表整句话的含义,可以用于分类。input的词help,prince,ma
2020-10-04 23:22:33
17062
2
原创 搜索排名:基于lightgbm的learn2rank
learning2rankpointwise: 一个文档一个point,计算得分。可以排序; 回归问题,分类问题都可。pairwise: 任何两篇的排序;listwise:所有文档的排序损失之和。lightgbmLightGBM is a gradient boosting framework that uses tree based learning algorithms.https://lightgbm.readthedocs.io/en/latest/基于lightgbm的learn
2020-10-03 11:34:26
2272
2
原创 方差、偏差(variance、bias)
概念方差的概念,是无监督的,描述的是一堆数据的聚集的程度。聚集的厉害方差就很小。偏差的概念,是有监督,偏差是指和目标的距离。 偏差大,就是离目标大。举例想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:1.子弹基本上都打在队伍经过的一棵树上了,连在那棵树旁边等兔子的人都毫发无损,这就是方差小(子弹打得很集中),偏差大(跟目的相距甚远)。2.子弹打在了树上,石头上,树旁边等兔子的人身上,花花草草也都中弹,但是敌军安然无恙,这就是方差大(子弹到处都是)
2020-08-20 22:53:30
795
原创 MAP_K 检索评估指标
1. MAP_KMAP: mean average precision.precision很容易理解;precision@10表示检索10个文档中包含相关所占的比例, 比如检索了10个,有9个是相关的,那么 precision@10=0.9average precision, 也容易理解。 可以看p1,p2,p3,p4,p5,p6的平均值;就是 ap6的值mean 则是对所有的case求mean则是结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(im
2020-05-24 21:57:26
3245
原创 CNN再思
CNNconvolutional neural network核心步骤则是:卷积、池化对于分类问题,主要的流程:至于卷积和池化则在后面代码介绍,一句话理解:卷积就是抽取某些特征。filter就是卷积核,抽取某类特征,如果想抽取不同的特征,则就是多个filter,抽取之后形成feature map。我们要学习什么参数呢?filter.比如我们有3个filter,每个filter是...
2020-03-08 01:09:15
219
原创 cart回归树:练手+sklearn
背景cart树作为决策树的一种,在非常多的地方被使用。既可以用于分类问题,也可以用于回归问题。分类问题则非常容易理解,利用gini系数较大的特征进行样本分裂,从而构建一颗分类树。 今天我们要探讨的是回归树。回归树cart简介回归树,则目标函数则是平方差,也就是说,分完之后形成left和right子树,每个子树对label,也就是y,进行平方差的计算。最后左右子树的平方差之和则是评估标注。 ...
2020-02-23 20:43:08
2352
原创 mac OWLVis安装
OWLVis介绍如果我们需要管理类似KG知识图谱的东西,可以使用protege。这款斯坦福共享的软件非常棒。也有网页版:webpretege.stanford.edu.但是我们需要观察更细致的树形结构:如何安装但是安装之后仍然遇到: dot的问题 /usr/local/bin/dot no such file问题。那么我们需要安装dot。brew install GraphVis ...
2020-01-16 21:30:26
278
原创 动态规划之二:背包问题knapsack
背包问题描述有n个物品,它们有各自的体积和价值,现有给定容量的背包,如何让背包里装入的物品具有最大的价值总和?类似的问题非常多:比如每个任务都有时间和价值,我们有一定的时间,现在在有限的的时间里完成最大价值的任务,如何安排?任务ABCDEFG所得收益7951214612需要时间3426735下面就以这个问题来进行分析。...
2019-12-08 12:27:28
676
原创 动态规划解决宫格移动
介绍动态规划(英语:Dynamic programming,简称 DP)是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。动态规划背后的基本思想非常简单。大致上,若要解一个给定问题,我们需要解其不同部分(即子问题),再根据子问...
2019-12-07 22:38:29
303
原创 python并行加速之: multiprocessing, multithread
背景对于java的多线程问题,可以方便利用disrupt架构。在python则一般是使用multiprocessing和multithread两种解决方案,前者是基于cpu; 后者基于多线程。具体方案Process 方案def f(x, ret): ret[x] = x*x def task_multiprocessing_get(): ret = {} ...
2019-11-03 21:24:04
2511
原创 GridSearch & Kfold & cross validation
what’s cross validation?Cross-validation is a technique that is used for the assessment of how the results of statistical analysis generalize to an independent data set. Cross-validation is largely u...
2019-10-06 09:02:01
715
原创 机器学习的第一步:数据预处理
背景以前讲过一篇关于特征缩放的,其实本质也是特征预处理,使得标注化。https://blog.youkuaiyun.com/iterate7/article/details/78881562这里主要是巩固,同时结合sklearn里的代码直接来看。标准化z-score方法x′=x−μσx' = \dfrac{x - \mu}{\sigma}x′=σx−μ翻译公式为:(x-mean)/std 计...
2019-10-05 11:08:49
1067
原创 损失函数:逻辑回归损失函数 推导简记
这里只推导逻辑回归的损失公式。假设函数hθ(x)=11+e−θTx(假设函数)(假设函数)hθ(x)=11+e−θTxh_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} \tag{假设函数}用于二分类p(x)={hθ(x),(1−hθ(x)),if y=1if y=0p(x)={hθ(x),if y=1(1−hθ(...
2019-10-02 23:22:04
6340
2
原创 pyscaffold建立项目管理
pyscaffold新建一个python项目的管理软件。一个命令就可以PyScaffold helps you to easily setup a new Python project.安装三种方法:1. pip install pyscaffold2. pip install pyscaffold[all]3. conda install -c conda-forge pyscaf...
2019-09-01 11:21:43
1101
原创 如何利用conda建立的虚拟空间在jupyter里开发
conda安装之后使用命令行将anaconda的bin目录加入PATH,根据版本不同,也可能是~/anaconda3/binecho ‘export PATH="~/anaconda2/bin:$PATH"’ >> ~/.bashrc更新bashrc以立即生效source ~/.bashrc如果mac安装了zshrc怎么办,简单修改~/.zshrc文件,在其中添加:sour...
2019-08-29 11:29:44
309
原创 RSA premaster secret error问题分析和解决
问题描述java 在 打包,利用 java -Xmx1g -Djava.ext.dirs=lib2 Runner xx运行。报错:RSA premaster secret error测试没有问题,本地可以运行且结果正确; 服务器可以运行,但结果不正确,报上述错误。问题分析java -cp xx.jar yy 可以运行。java -Djava.ext.dirs则不可以运行。应该是环境问...
2019-08-23 14:57:03
3612
原创 mac上安装xlearn
什么是xlearn安装步骤1. xcode for clanghttps://developer.apple.com/download/more/下载xcode并安装,是的,就是5-6G大小,而且解压缩之后11.8G2. cmakebrew install cmake 即可。验证成功。==> Auto-updated Homebrew!Updated 2 taps (home...
2019-06-23 11:06:09
768
原创 StarSpace系列之一:tagspace
问题类型TagSpace 单词、标签的嵌入用途: 学习从短文到相关主题标签的映射,例如,在 这篇文章 中的描述。这是一个典型的分类应用。模型: 通过学习两者的嵌入,学习的映射从单词集到标签集。 例如,输入“restaurant has great food <\tab> #restaurant <\tab> #yum”将被翻译成下图。(图中的节点是要学习嵌入的实体,图...
2019-04-14 00:32:30
1472
原创 利用gensim进行词向量处理和找到相似词
关于词向量计算方法word2vec加载方法word2vec format;bin;text format;xx.kv结构如何计算相似度有必要norm吗?性能那个更快结果参考文献
2019-04-06 12:38:20
6287
原创 apache maven install notes
introduction(what)if we want to use commands to package, install or deply base MAVEN. let’s install it at mac.howdownloadhttps://maven.apache.org/download.cgiunzipunzip apache-maven-3.6.0.zips...
2019-03-25 14:17:40
128
原创 install java for mac
for whoFor El Capitan, Sierra and High SierracondtionFirst install and update brew from Terminal:steps/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/in...
2019-03-13 17:54:16
665
原创 intellij 专业版下载、安装、破解实测
官网download链接:https://pan.baidu.com/s/1W53l7zcCvYlwESlH6X3RhQ 密码:bkmdcrack链接:https://pan.baidu.com/s/1FPj9DQWMXUVJbO_afO8bAg 密码:4rph步骤安装mac版idea;然后把crack的jar包复制到/Applications/IntelliJ IDEA.app...
2019-01-26 23:22:00
3816
1
原创 cpu thread core lscpu
cpu thread corelscpu[root@localhost ~]# lscpuArchitecture: x86_64CPU op-mode(s): 32-bit, 64-bitByte Order: Little EndianCPU(s): 24On-line CPU(s) list: ...
2018-11-15 09:03:30
1881
原创 intellij idea 管理module和project,以及git管理项目
introduction这篇笔记主要包括两部分内容,第一部分是介绍idea如何操作project和module。第二部分则是创建git项目,然后idea中导入项目,然后创建多个module,以及一些基础的add,commit,push操作。下面的git操作适用于github和gitlab。两者没太多本质区别。先说一下相同点,二者都是基于web的Git仓库,在很大程度上GitLab是仿照G...
2018-10-12 11:16:29
3116
原创 elasticsearch 5+ head的三种安装方法
自从elasticsearch 5.0 之后,因为大统一的原因,head插件有不大变化;以前是直接解压缩,现在变为node开发。第一种,npmgit clone git://github.com/mobz/elasticsearch-head.gitcd elasticsearch-headnpm installnpm run start第二种,dockerf...
2018-09-11 23:33:28
1029
原创 eclipse plugin install 插件安装
eclipse plugin install 插件安装自动手动首先要下载插件的zip,分两种,一种是带content.jar的; 另一种则是plugin+feature的。第一种artifactcontent.jar and artifacts.jar 的这种,直接在eclipse里点击 路径即可安装。 方法是:help->install new softwa...
2018-09-07 09:43:03
3923
原创 elasticsearch mysql mongodb 底层设计
elasticsearch mysql mongodb SQL术语/概念 MongoDB术语/概念 elasticsearch 解释/说明 database database index 数据库 table collection type 数据库表/集合 row document document 数据记录行/...
2018-08-29 23:52:48
501
原创 代码的习惯坚持
代码是落地代码是最终工程师的结果呈现,其中包括了本身的业务的实现,代码的习惯,逻辑的展现,代码的质量,甚至一些个人风格。基础标准个人理解,基础的业务满足,代码清晰,无逻辑bug,代码稳定,符合标准规范和具有一定的可读性这是一个基础。追求的一些标准这里罗列一些想法,供参考。也要求自己按照这个习惯坚持下去。 0. 先做到业务满足、代码清晰、无bug、稳定、符合规范。至于符合规...
2018-05-29 10:43:15
393
原创 leetcode 68:Text Justification(Round Robin算法应用 )
题目Given an array of words and a width maxWidth, format the text such that each line has exactly maxWidth characters and is fully (left and right) justified.You should pack your words in a greedy a...
2018-05-13 23:02:35
623
原创 leetcode 807. Max Increase to Keep City Skyline(不变天际线的最大化)
题目In a 2 dimensional array grid, each value grid[i][j] represents the height of a building located there. We are allowed to increase the height of any number of buildings, by any amount (the amounts...
2018-04-30 23:48:44
444
1
原创 熵、交叉熵、KL散度、损失函数
信息量一个事件x的信息量是: I(x)=−log(p(x))I(x)=−log(p(x))I(x)=-log(p(x)) 解读:如果一个事件发生的概率越大,那么信息量就越小。如果是1,也就是100%发生,那么信息量为0。熵就是对信息量求期望值。 H(X)=E[I(x)]=−∑x∈Xp(x)logp(x)H(X)=E[I(x)]=−∑x∈Xp(x)logp(x) H(X...
2018-04-25 16:06:18
10949
1
原创 异或XOR的再理解以及在leetcode上的应用
异或0和0异或产生0,0和1; 1和0异或得到1;1和1异或得到0。 简单总结:不同的产生1;否则0。代表的是差别。 补充AND,OR。AND 0&0=0 1&1=1 0&1=0 只有两个同时满足才能满足。OR 0|0=0 1|1=1 0|1=1 只要有一个满足就满足。再理解:异或的操作,如同...
2018-04-12 14:17:36
2163
1
原创 bootstrap自采样再理解
前言本文要讨论的并非是Bootstrap工具包,而是统计学习中一种重采样(Resampling)技术。下面引用的是谢益辉博士关于Bootstrap (和 Jackknife)基本思想的论述,希望能帮助读者对于Bootstrap 建立一个初步的认识:在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性...
2018-03-29 15:11:50
27093
8
原创 bp算法的理解
bp算法又称反向传导算法,英文: back propagation。 我们了解,前向传导,可以根据W,b来计算出隐层、输出层的各个神经元的值以及对应的激活值,最终得到输出。如果输出和我们的目标存在误差,这个误差可以用成本函数表示(loss function),那么我们就需要反向的把这个误差分配到前面的各个传导的过程中,也就是W和B上;我们需要知道每个神经元带来了多少误差,这个影响程度我们用“...
2018-03-23 14:03:44
4771
1
milvus的milvus.yaml 官方配置文件
2020-11-01
word2vec googlecode 官方代码
2015-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人