
机器学习
sam-X
这个作者很懒,什么都没留下…
展开
-
涉足计算机视觉领域要知道的~ (part2)
三、前沿国际国内期刊与会议这里的期刊大部分都可以通过上面的专家们的主页间接找到1.国际会议 2.国际期刊 3.国内期刊 4.神经网络 5.CV 6.数字图象 7.教育资源,大学 8.常见问题1. 国际会议现在,国际上计算机视觉方面的三大国际会议是ICCV, CVPR和ECCV,统称之为ICE。ICCV的全称是International Comference on Compute转载 2014-09-25 22:39:28 · 646 阅读 · 0 评论 -
Zipfian分布
最近在看Multi-View Learning of Word Embeddings via CCA这篇文章时,里面提到了一个陌生的概率分布模型.Zipfian distribution一个离散幂律概率分布,也就是常常提到的长尾模型.在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,是出现频率第三位的单词的3倍。 在Bro翻译 2017-12-19 15:55:58 · 10960 阅读 · 0 评论 -
自然语言处理——注意力机制
本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。原创 2018-04-07 17:24:21 · 1061 阅读 · 1 评论 -
异常值检测
为什么在数据集中,异常值(Outlier or Anomaly)作为不寻常的表征点,无利于后面算法对于数据集中模式的挖掘,甚至会极大地影响性能,或者直接用于一些异常检测的场景,如欺诈检测、安全检测等.异常值检测是数据清洗里非常重要的一步.定义一般可以利用聚类的思想,定义为分布稀疏且离密度高的群体较远的点通常异常值出现的原因有以下几种:数据收集过程出现问题,录入错误数据测...原创 2018-03-21 15:44:15 · 10716 阅读 · 0 评论 -
自然语言处理——语义向量
将文本的符号表示转换为语义空间中的向量表示是现在量化比较语义的通用做法,这类方法通常都基于Harris的分布式假设,即在相似上下文中的词通常都有着相似的语义. 下面首先会对已有的一些文本语义表示模型进行介绍.表示形式Term-Document Matrix这种是最原始的一种语义衡量方法,主要用于文档检索,比较不同文档间的语义,其核心就是Term-Document Matrix...原创 2018-04-09 15:33:35 · 9007 阅读 · 0 评论 -
知识图谱(一)——知识表示
知识表示框架 量化表示(嵌入表示) 本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。原创 2018-04-02 21:23:44 · 1990 阅读 · 0 评论 -
知识图谱(二)——知识推理
知识推理是知识图谱中很重要的一部分,主要用于推理暗含的知识(丰富知识图谱),检查知识库的不一致(知识清洗)知识推理分类演绎推理从一般到特殊的过程.从一般性的前提出发,通过推导,得到具体描述或个别结论(三段论),结论已经蕴含一般性知识中,只是通过演绎推理揭示出来,不能得到新知识.归纳推理从特殊到一般的推理过程.从一类事物的大量特殊事例出发,去推出该类事物的一般性结论(数学归纳法)...原创 2018-04-16 15:17:17 · 25829 阅读 · 3 评论 -
时空分析技术
在一些资料上看到的,对于时空数据索引以及分析的一些技术.时空数据索引技术HR-tree HR-tree给每个时间戳都存储了一个独立的R树,之后对于连续的两个R树之间,如果使用了相同的节点,那么只保留一个节点提高利用率,对时间点的查询效率较高.3DR-tree 3DR-tree基于R树来创建时空索引,将时间信息当做一般空间的另外一个维度,二维空间对象使用二维空间外包矩形表示,三维时空...原创 2018-04-18 16:06:21 · 9457 阅读 · 1 评论 -
[译]回归分析的基本假设
原文地址:《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》引言回归分析标志着预测建模的第一步.毫无疑问,它很容易实现,而且它的参数不会造成任何混乱,但是仅仅运行一行代码并不能解决问题.不只是看R2R2R^2和MSE,回归能说明更多的问题.为了模型效果的提升,必须首先了解回归...翻译 2018-05-14 10:18:27 · 15565 阅读 · 1 评论 -
2018 年成都人工智能前沿论坛总结
PDF版下载地址:https://download.youkuaiyun.com/download/u010945683/10412529本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。...原创 2018-05-14 10:42:11 · 1205 阅读 · 0 评论 -
Cox-Box变换
在《回归分析的基本假设》中提到了回归分析中的基本假设.这里的Box-Cox变换方法能够解决回归模型中的误差项不服从高斯分布的违例问题.通常这种违例情况出现在,误差ϵϵ\epsilon与预测变量相关的时候,会影响模型结果的精确度.简单的方法就是通过对XXX进行变换,如yyyy=x−−√=1x=1x−−√=ln(x)(1)(1)y=xy=1xy=1xy=ln(x)\begin{equation}\...原创 2018-05-14 15:33:33 · 3353 阅读 · 2 评论 -
[转]Evolution of Machine Learning
转载地址:https://www.datasciencecentral.com/profiles/blogs/evolution-of-machine-learning-infographics转载 2018-05-15 16:31:23 · 289 阅读 · 0 评论 -
统计学总结
统计基础3σσ\sigma原则正态分布X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)中,P(μ−σ<X<μ+σ)=0.6826P(μ−σ<X<μ+σ)=0.6826P(\mu-\sigma\lt X\lt \mu+\sigma)=0.6826P(μ−2σ<X<μ+2σ)=0.9545P(μ−2σ<...原创 2018-05-28 20:41:44 · 1217 阅读 · 0 评论 -
CUDA——基本模型
CUDA简介CUDA(Compute Unified Device Architecture,统一计算架构)是由NVIDIA所推出的一种集成技术,通过这个技术,用户可以使用显卡中的资源进行大规模并行计算。为了后续CUDA编程的展开,该系列的第一篇首先从N系显卡的物理结构以及CUDA编程中的基本模型开始。物理结构Nvidia公司开发的GPU系列现在已经有Tesla、Fermi、K...原创 2018-07-03 20:33:37 · 4013 阅读 · 1 评论 -
联合密度分布
最近参与翻译的一本书,以下是我翻译的其中一章,其余可以阅读 https://github.com/apachecn/prob140-textbook-zh 英文原文:https://nbviewer.jupyter.org/github/prob140/textbook/tree/gh-pages/notebooks/17. 联合密度我们现在开始研究两个连续随机变量的联合概率密度。这些...翻译 2018-08-25 21:51:20 · 13599 阅读 · 0 评论 -
正态和伽马分布族
最近参与翻译的一本书,以下是我翻译的其中一章,其余可以阅读 https://github.com/apachecn/prob140-textbook-zh 英文原文:https://nbviewer.jupyter.org/github/prob140/textbook/tree/gh-pages/notebooks/18. 正态和伽马分布族# HIDDENfrom data...翻译 2018-09-02 20:39:59 · 15357 阅读 · 0 评论 -
典型相关性学习
典型相关性分析(Canonical Correlation Analysis,CCA)的核心思想是:寻找两个变量场XX,YY对应的两组基向量WxW_x,WYW_Y,使得XX,YY在WxW_x,WYW_Y上投影后的结果最大程度地保持XX,YY之间的相关性一致.原创 2017-12-14 11:30:55 · 1017 阅读 · 0 评论 -
特征工程
特征工程是一个任务驱动的经验性处理过程数据与特征处理特征表达 数值型类别型时间型文本型统计型组合特征数据的表示应当转换为更理想的格式数值型幅度调整/归一化Log等变化统计值max,min,mean,std离散化(一个特征变多个特征)(等距切分,等频切分)Hash分桶每个类别下对应的变量统计值histogram试试 数值型=>类别型...原创 2017-12-13 21:31:19 · 410 阅读 · 0 评论 -
涉足计算机视觉领域要知道的~ (part1)
作机器视觉和图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最高成就的几个超级专家(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。做好这几点的途径之一就是利用网络资源,利用权威网站和专家们的个人主页。依照转载 2014-09-25 22:36:23 · 670 阅读 · 0 评论 -
KNN-K近邻分类法
分类算法的基础介绍,以及分析经典KNN算法,及其改进方向原创 2015-03-30 09:49:32 · 7940 阅读 · 0 评论 -
数据挖掘数据集下载搜集整理版
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站Data for MATLAB hackers (Handwritten Digits、Faces、Text)http://www.cs.toronto.edu/~roweis/data.html3、UCI KDD Archive(各类数转载 2015-04-28 22:29:15 · 7968 阅读 · 2 评论 -
基于遗传算法的Ostu法在图像分割中的应用
关于对图像分割的Ostu全局阈值算法在遗传算法中的优化及实现原创 2014-12-06 23:00:00 · 9740 阅读 · 3 评论 -
遗传算法详解
遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,它最初由美国Michigan大学J.Holland教授于1975年首先提出来的,并出版了颇有影响的专著《Adaptation in Natural and Artificial Systems》,GA这个名称才逐渐为人所知,J.Hollan原创 2014-11-10 21:13:43 · 32828 阅读 · 0 评论 -
ECOC编码
多分类学习任务经常被划分为多个二分类学习任务,最后进行结果集成完成分类,一般有三种划分方法,“一对一”、“一对其余”、“多对多”(针对类别)。ECOC(Error Correcting Output Codes,纠错输出码)作为输出表示,用于多分类学习任务。主要思想是,通过事先分别为kk类类别定义一串编码序列(code word)。在分类的时候,只需比较待分类样本与各串编码的差异程度.原创 2016-10-07 18:22:07 · 17020 阅读 · 1 评论 -
An overview of gradient descent optimization algorithms
Gradient descent is one of the most popular algorithms to perform optimization and by far the most common way to optimize neural networks.转载 2016-10-12 21:25:56 · 806 阅读 · 0 评论 -
CNN初探(四)------Deep Residual Learning for Image Recognition
Residual mapping原创 2016-11-24 10:46:46 · 791 阅读 · 0 评论 -
NLP笔记(一)
来源:First-Order Markov ProcessP(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)∑i=2nP(Xi|X1,X2,...,Xi−1)=P(X1=x1)∑i=2nP(Xi|Xi−1)\begin{equation}\begin{split}&P(X_1=x_1,X_2=x_2,...,X_n=x_n)\\&=P(X_1=x_1)\sum_{i=2}^{n原创 2017-04-25 17:26:26 · 542 阅读 · 0 评论 -
NLP笔记(二)
来源:Cousera哥大自然语言处理课程标注问题标记例子Local VS ContextualLocal:根据经验进行标记Contextual:根据上下文语法结构进行标记KEY:Balance Local & Contextual三元隐马尔科夫模型 (Trigram HMMs)例子参数估计q(yi|yi−1,yi−2)q(y_i|y_{i-1},y_{i-2})e(xi|yi)e(x_i|y_原创 2017-05-02 15:47:24 · 331 阅读 · 0 评论 -
Vapnik-Chervonenkis dimension
source from: https://www.autonlab.org/_media/tutorials/vcdim08.pdf定义VC维是用来反映函数集学习能力的大小。上面的讲义直接给出了VC维的定义。为了更形象地了解VC维的含义,还需要以下定义Shattering通俗点说,分散就是任意给定一个集合X=x1,x2,...,xrX={x_1,x_2,...,x_r},设计的分类器能够正确地将其分原创 2017-09-22 11:36:52 · 4823 阅读 · 0 评论 -
关于matplotlib的后端(Backend)
主要是在看《深入理解TensorFlow 架构设计与实现原理》遇到的问题,其中第3章有一段源码。# -*- coding=utf-8 -*-import tensorflow as tfimport matplotlib.pyplot as pltimport numpy as np# 打印日志的步长log_step = 50# ================ 1.定义超参...原创 2018-09-15 23:45:33 · 20722 阅读 · 0 评论