
Algorithm
lionzl
轻财足以聚人,律己足以服人,量宽足以得人,身先足以率人
展开
-
如此多的深度学习框架,为什么我选择PyTorch?
小编说:目前研究人员正在使用的深度学习框架不尽相同,本文介绍了6种常见的深度学习框架,PyTorch与他们相比又有哪些优势呢?本文选自《深度学习框架PyTorch:入门与实践》1 PyTorch的诞生2017年1月,Facebook人工智能研究院(FAIR)团队在GitHub上开源了PyTorch,并迅速占领GitHub热度榜榜首。作为一个2017年才发布,具有先进设计理念的框架,PyT...转载 2020-04-08 13:36:37 · 1016 阅读 · 0 评论 -
过拟合、欠拟合,如何解决
一个模型所能提供的信息一般来源于2个方面,一是训练数据中蕴含的信息,二是在模型的形成过程中(包括构造,学习,推理等),人们提供的先验信息。当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要保证模型的效果,就需要更多的先验信息。先验信息可以作用在模型上,例如让模型采用特定的内在结构,条件假设或添加其他一些约束条件;先验信息也可以直接作用在数据集上,即根据特定的先验假设去调整,变换...原创 2020-04-02 17:29:12 · 2852 阅读 · 0 评论 -
非负矩阵分解NMF
http://blog.youkuaiyun.com/pipisorry/article/details/52098864非负矩阵分解(NMF,Non-negative matrix factorization)NMF的发展及原理 著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想——非负矩阵分解...转载 2020-04-01 13:19:13 · 1025 阅读 · 0 评论 -
ubuntu18编译opencv4.2
官网的安装教程:https://docs.opencv.org/master/d7/d9f/tutorial_linux_install.html转载B站上别人录制的安装教程:https://www.bilibili.com/video/av80980203/ippicv_2019_lnx_intel64_general_20180723.tgz这个文件的快速提取方法https...转载 2020-01-21 16:38:09 · 699 阅读 · 0 评论 -
一致性hash算法 - consistent hashing
一致性hash算法 - consistent hashing分类: 算法艺术2010-02-02 09:19 51125人阅读 评论(85) 收藏 举报算法cacheobject服务器存储c目录(?)[+]一致性 hash 算法( consistent hashing )张亮consistent hashing 算法早在 1997 年就在论文 Consist转载 2013-09-12 22:58:14 · 740 阅读 · 0 评论 -
Linear hashing 线性哈希表
Linear hashing 线性哈希表分类: Computer Algorithm Database2013-03-07 20:23 384人阅读 评论(0) 收藏 举报linear hashing线性哈希表分布式存储Section 1:问题描述最近在阅读分布式数据库的相关资料, 资料中提到分布式数据库中需要解决大数据如何高效存储的问题。分布式或并转载 2013-09-12 14:14:12 · 959 阅读 · 0 评论 -
Hashing
Hash函数的性质:一致性:具有相同关键字的值被赋给同一个桶中。随机性:每个桶将会有相同数据的记录,而不考虑文件中关键字的真实分布。最坏性:把所有的关键字映射到同一个桶中,使得访问时间和文件中关键字的数量成正比。Static Hashing:如果没有空间剩余,将会分配overflow buckets, 用链表把它们连接起来。(长的链表降低了性能)转载 2013-09-13 07:48:42 · 942 阅读 · 0 评论 -
任意给定一个正整数N,求一个最小的正整数M(M>1),使得N*M的十进制表示形式里只含有1和0。
任意给定一个正整数N,求一个最小的正整数M(M>1),使得N*M的十进制表示形式里只含有1和0。分类: 数据结构与算法设计2013-09-17 20:35 123人阅读 评论(1) 收藏 举报寻找满足条件的数题目:任意给定一个正整数N,求一个最小的正整数M(M>1),使得N*M的十进制表示形式里只含有1和0。解法一:暴力求解。从1开始查找M,然后判断M*N=转载 2013-09-19 13:46:18 · 10379 阅读 · 0 评论 -
卡特兰数Catalan Number
华夏35度Data Mining,NLP,Search Engine卡特兰数Catalan NumberCatalan Number满足下列递推公式:N个元素元素进栈,多少种出栈方式考虑A、B、C、D依次进栈,那么所有的出栈顺序是下列4种情况的并集:1)A第一个出栈。肯定是A进栈后马上出栈,剩下B、C、D的出栈顺序有h(3)种。h(0)*转载 2013-10-09 08:05:15 · 843 阅读 · 0 评论 -
ACM知识点分类
ACM知识点分类 第一类:基础算法(1) 基础算法:枚举,贪心,递归,分治,递推,构造,模拟(2) 动态规划:背包问题,树形dp,状态压缩dp,单调性优化,插头dp(3) 搜索:dfs,bfs,记忆化搜索,优化与剪枝,双广,A*,IDA*,跳舞链 第二类:数据结构(1) 简单数据结构:链表,栈和队列,串,树和二叉树,图,排序与检索(转载 2013-10-09 08:19:11 · 982 阅读 · 0 评论 -
字典树Trie和三叉搜索树Ternary Tree的学习总结
字典树Trie和三叉搜索树Ternary Tree的学习总结出处:西西整理 作者:西西 日期:2012-12-31 2:39:04 [大 中 小] 评论: 0 | 我要发表看法Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树。三叉搜索树是一种特殊的Trie树的数据结构,转载 2014-07-08 16:46:50 · 1314 阅读 · 1 评论 -
数据结构重读 – 键树、字典树 中文
这几天被汉字trie树小折腾了一下。开始的时候想直接将单字节作为字典树的节点建树,虽然各个树的节点可能只是多字节字符的一部分,但是基本功能也能够支持。后来发现似乎有些问题,比如在做前向最大匹配分词的时候,对于未登录词无法确定当前字符是单字节还是多字节,如果通过编码规则进行判定的话倒也可以,但是跟建树过程南辕北辙。然后想到了utf16字符编码对所有字符统一采用16位定长处理,这样的话转载 2014-07-08 17:25:32 · 915 阅读 · 0 评论 -
字典树(Trie tree)
字典树(Trie tree)2012-04-24 21:48 by Rollen Holt, 1828 阅读, 1 评论, 收藏, 编辑Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。性质它有3转载 2014-07-08 16:54:36 · 669 阅读 · 0 评论 -
字典树(Trie tree)
字典树(Trie tree)2012-04-24 21:48 by Rollen Holt, 1828 阅读, 1 评论, 收藏, 编辑Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。性质它有3转载 2014-07-08 16:59:08 · 585 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
数据挖掘领域十大经典算法初探 译者:July 二零一一年一月十五日-----------------------------------------参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kN转载 2014-09-10 11:14:48 · 515 阅读 · 0 评论 -
海量数据处理之Bloom Filter详解
海量数据处理之Bloom Filter详解 前言 本博客内曾已经整理过十道海量数据处理面试题与十个方法大总结。接下来,本博客内会重点分析那些海量数据处理的方法,并重写十道海量数据处理的面试题。如果有任何问题,欢迎不吝指正。谢谢。一、什么是Bloom Filter Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加转载 2014-09-10 11:09:16 · 518 阅读 · 0 评论 -
寻根究底,探讨 chi -square特征词选择方法后面的数学支持
寻根究底,探讨 chi -square特征词选择方法后面的数学支持最近研究特征词选择算法,主要在研究chi方统计量的方法。Christopher D Manning的书《信息检索导论》中(王斌译作191页,英文原版255页)的公式定义如下:我所迷惑不解的是这个公式为啥长成这个样子?对于我还是略有了解的,比如X~n(0,1),那么X^2就服从chi-square,转载 2015-09-01 16:30:44 · 1556 阅读 · 0 评论 -
Amazone HIT mturk
187,590 HITs available. View them now.HITs - Human Intelligence Tasks - are individual tasks that you work on原创 2015-09-01 16:40:10 · 528 阅读 · 0 评论 -
文本分类综述
之前一段时间弄过文本分类的事情,现在发个文总结一下。文本分类问题的定义是根据一篇文档的内容,从预定义的类别标号里选择相应的类别。中文文本分类的基本步骤是中文分词、特征提取、训练模型、预测类别等步骤,需要说明的是,基于统计的文本分类一般都需要有比较好的标注好的语料作为训练集,训练出模型,利用模型对未分类的文本进行分类。对中文文本的处理一个无法避免的步骤就是分词,中文不像英文那转载 2015-09-01 16:01:47 · 838 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习常见算法分类汇总机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。转载 2015-09-01 15:17:50 · 491 阅读 · 0 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
看懂信息检索和网络数据挖掘领域论文的必备知识总结分类: 机器学习 lda 信息检索 gibbs sampling topic model 模拟与采样 图模型2012-06-15 17:02 8304人阅读 评论(5) 收藏举报网络算法lucene优化network工具信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)转载 2015-09-01 16:18:27 · 513 阅读 · 0 评论 -
文本分类与SVM
文本分类与SVM分类: 数据挖掘2012-11-18 20:45 19063人阅读 评论(14) 收藏 举报目录(?)[+]之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1 基础转载 2015-09-01 16:15:03 · 2435 阅读 · 0 评论 -
各大公司广泛使用的在线学习算法FTRL详解
转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-转载 2015-09-02 10:12:18 · 529 阅读 · 0 评论 -
HMM学习最佳范例四:隐马尔科夫模型
HMM学习最佳范例四:隐马尔科夫模型发表于 2009年06月23号 由 52nlp四、隐马尔科夫模型(Hidden Markov Models)1、定义(Definition of a hidden Markov model) 一个隐马尔科夫模型是一个三元组(pi, A, B)。 :初始化概率向量; :状态转移矩阵; :混淆矩阵; 在状态转转载 2015-09-01 16:12:39 · 631 阅读 · 0 评论 -
一. 图模型(graphical model, GM)的表示
一. 图模型(graphical model, GM)的表示分类: 图模型2010-07-29 17:17 9527人阅读 评论(8) 收藏 举报function网络图形2010c图模型(graphical model)是一类用图来表示概率分布的一类技术的总称。它的主要优点是把概率分布中的条件独立用图的形式表达出来,从而可以把一个概率分布(特定的,和应用相关的)转载 2015-09-01 16:17:40 · 641 阅读 · 0 评论 -
LDA(Latent Dirichlet Allocation)主题模型算法
LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出的两个结果转载 2015-09-01 15:50:13 · 894 阅读 · 0 评论 -
浅谈深度学习(Deep Learning)的基本思想和方法
浅谈深度学习(Deep Learning)的基本思想和方法分类: 机器学习 信息抽取 Deep Learning2013-01-07 22:18 30420人阅读 评论(11) 收藏 举报深度学习(Deep Learning),又叫Unsupervised Feature Learning或者Feature Learning,是目前非常热的一个研究主题。本文将主要介绍D转载 2015-09-01 16:44:06 · 489 阅读 · 0 评论 -
Pearson's chi-squared test
Pearson's chi-squared testFrom Wikipedia, the free encyclopediaPearson's chi-squared test (χ2) is a statistical test applied to sets of categorical data to evaluate how likely it is转载 2015-09-02 10:14:48 · 3582 阅读 · 0 评论 -
决策树模型组合之(在线)随机森林与GBDT
决策树模型组合之(在线)随机森林与GBDT前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boosting,Bagging等)与决策树相关的算转载 2015-09-01 16:05:46 · 763 阅读 · 1 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件分类: 机器学习2012-09-22 17:05 74788人阅读 评论(37) 收藏 举报在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,转载 2015-09-01 16:34:08 · 487 阅读 · 0 评论 -
卡方检验文本特征选择
卡方检验文本特征选择 2014-11-17 20:16:15分类: 大数据关于卡方检验,下面这篇blog介绍的比较详细,仔细思索之后,对一些点做如下说明,个人理解:1. 关于假设“词t与类别c无关”。这个假设应该变更为“词t不是对分类有区分度的特征”,(c是一个类别,除了c之外的所有数据组成另一个类别,类似逻辑回归多分类的方法)。一个词的卡方检验值高,并不能转载 2015-09-03 19:56:38 · 714 阅读 · 0 评论 -
隐马尔可夫模型及其在分词中的简单应用
隐马尔可夫模型及其在分词中的简单应用分类: 搜索引擎开发(数据挖掘、海量数据处理、自然语言) 中文分词(分词/人名识别(命名实体识别)/词性标注)2011-11-07 09:38 1439人阅读 评论(0) 收藏 举报算法 隐马尔可夫模型是一个五元组:S:状态集合:即所有可能的状态s1,s2,…,sn所组成的集合。O:观察序列:即实际存在的一个状态的有向转载 2015-09-01 16:23:01 · 629 阅读 · 0 评论 -
Noncentral chi-squared distribution
Noncentral chi-squared distributionFrom Wikipedia, the free encyclopediaNoncentral chi-squaredProbability density functionCumulative distribution functionPara转载 2015-09-02 10:13:23 · 3522 阅读 · 0 评论 -
BM25算法
1. BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。K1通常为1.2,通常为0-1000K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均转载 2015-09-03 18:58:57 · 502 阅读 · 0 评论 -
用机器学习识别随机生成的C&C域名
本文用识别由域名生成算法Domain Generation Algorithm: DGA生成的C&C域名作为例子,目的是给白帽安全专家们介绍一下机器学习在安全领域的应用,演示一下机器学习模型的一般流程。机器的力量可以用来辅助白帽专家们更有效率的工作。本文用到的演示数据集和python演示代码请参见 https://github.com/phunterlau/dga_classifier 关于编转载 2015-11-16 18:12:05 · 1097 阅读 · 0 评论 -
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍分类: 图像检索 CVPR 视频检索2013-10-06 12:07 22672人阅读 评论(14) 收藏 举报LSH局部敏感哈希ANN近似近邻查找Locality-sensitive-h局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍转载 2015-10-30 17:33:54 · 514 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.youkuaiyun.com/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛转载 2015-11-17 18:50:44 · 411 阅读 · 0 评论 -
算法杂货铺——分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。转载 2015-11-17 16:05:02 · 439 阅读 · 0 评论 -
文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计转载 2015-12-11 15:11:41 · 572 阅读 · 0 评论 -
先验概率与后验概率及贝叶斯公式
先验概率与后验概率及贝叶斯公式标签: cfunction2010-09-02 21:26 6770人阅读 评论(1) 收藏 举报 分类:计算机视觉/图像处理(28) 先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.一、先验概转载 2015-11-26 19:32:56 · 847 阅读 · 0 评论