
AI相关
万万2014
这个作者很懒,什么都没留下…
展开
-
文本相似度算法
因为舆情监测这边涉及到一些文本相似度的判断,实现把一类新闻的分类到同一个主新闻下。有点类似baidu相似新闻的搞法。所有抽时间看了些简单的文本相似度算法。下面是之前看的莱文斯坦距离算法。大家可以bing一下理论,这里直接上code。def levenshtein_distance(first, second): if len(first) == 0 or len(second)...原创 2019-01-24 17:39:24 · 1096 阅读 · 0 评论 -
排列组合问题
从n个不同元素中,任取m(m≤n)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。A(n,m)=n(n-1)(n-2)……(n-m+1)= n! / (n-m)!从n个不同元素中,任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合。C(n,m)=n!/[m!*(n-m)!]它们的区别在于,一个是按照顺序排列。另一个没有按照顺序排列。...原创 2019-08-19 18:01:50 · 298 阅读 · 0 评论 -
贝叶斯公式
下面再来一个问题:概率趣题:三个犯人三个犯人都住在隔离间,并且都被判处了死刑。监狱官赦免了其中一个犯人。看守知道谁会赦免,但不会说。犯人A脸皮厚,想让看守告诉他,B和C谁会被执行死刑。如果赦免的是B,看守就会说C;如果赦免的是C,看守就会说B;如果赦免的是A,看守就抛硬币决定说B或者C。看守告诉A,犯人B将会执行死刑。犯人A兴奋不已,他决得自己生存的几率变为了...原创 2019-08-09 16:19:51 · 229 阅读 · 0 评论 -
全概率公式
条件概率公式:当给定条件发生变化后,会导致发生事件的可能性变化。(possiblity)p(a|b) b存在的情况下,a出现的概率p(b|a) a 存在的情况下,b出现的概率相互独立:表示两个事件发生互不影响。而互斥:表示两个事件不能同时发生,互斥事件一定不独立.独立事件一定不互斥全概率公式:对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的...原创 2019-08-09 15:20:48 · 1636 阅读 · 1 评论 -
余弦相似度,TF
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。即求向量a和向量b的夹角的余弦。这个推倒应该是比较简单的=放到一个多维向量的情况。根据词频(词出现的次数)来计算余弦相似度。 首先用词频创建两个句子的向量: 句子A:(1,1,2,1,1,1,0) //代表的是每个词频。 句子B:(1,1,1,0,1,1,1)cos(...原创 2019-08-13 15:17:11 · 331 阅读 · 0 评论 -
ML[三大]常见学习任务: 分类,回归,聚类
机器学习就是人类定义一定的计算机算法,让计算机根据输入的样本和一些人类干预来总结和归纳其特征和特点,并用这些特征和特点和一定的学习目标形成映射关系,进而自动化地做出相应反应的过程。这里的输出可能是一段内容,图片,文本,声音。 机器学习到的可以描述为函数,程序,策略等关系。前面我们谈过算法。算法的特点: 有穷性,确定性,输入,输出,可行。算法的要素: 算术运算【+-/*】,逻辑运算[...原创 2019-07-23 11:20:40 · 959 阅读 · 0 评论 -
函数的凹凸性和拐点
几何定义:在函数f(x)的图像上任意取2点,如果函数图像在这两点之间的部分总在连接这两点的线段的下方。我们称之为凹函数。若对I中的任意两点x1和x2,和任意λ∈(0,1),都有 f(λx1+(1-λ)x2)<=λf(x1)+(1-λ)f(x2),为了方便理解。我们可以把λ=1/2带入。 得到f((x1+x2)/2)<=(f(x2)+f(x1))/2 也就是说去曲线的中点的y...原创 2019-07-26 16:53:07 · 16888 阅读 · 1 评论 -
sigmoid 激励函数
sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好sigmoiod 求导:备注: 关于复合函数求导。f[g(x)]中,设g(x)=u,则f[g(x)]=f(u),从而(公式):f'[g(x)]=f'(u)*g'(x)函数通常的意义:...原创 2019-07-31 13:00:53 · 2475 阅读 · 0 评论 -
矩阵乘法
矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有意义。------------------来自百度关于这个方法:第一个矩阵的列数必须要和第二个矩阵的行数保持一致。 作为矩阵的结果。你会得到一个以第一个矩阵的行数和第二矩阵的列数的新矩阵。 比如矩阵1: [x, k], 矩阵2: 【k, y】那么新矩阵将会是[x,y...原创 2019-07-22 11:48:12 · 810 阅读 · 0 评论 -
准确率,精确率,召回率: 性能测量的说明
我们首先把数据分为两部分: 正类别和负类别。 比如我们预测HIV 阳性的作为目标。那么HIV阳性的就是正类别。True Positives (TP): 正确的预测为正类别。意思预测和实践标注都是HIV阳性。(正) True Negatives (TN): 正确预测为负类别。 意思预测和标准都是HIV阴性。(负) False Positives (FP): 错误的预测为正类别。 意思预...原创 2019-07-22 11:19:10 · 275 阅读 · 0 评论 -
数学概念: 导数和切线方程
导数是微积分的重要基础概念。当函数y= f(x)的自变量x在一点x0上产生一个增量Δx, y 方向上的增量Δy与Δx的比值在Δx趋于0时的极限如果存在。那么这个极限就是x0处的导数。即为f‘(x0)。下面是不才今天早上做的一个简单的函数求导问题。错误之处请指出。涉及到复合函数求导问题。我们可以拆分。比如 对于x^2+1 求开方。f[g(x)]中,设g(x)=u,则f[g(x)]=...原创 2019-07-25 14:08:00 · 3894 阅读 · 0 评论 -
ML重要的一个元素----向量
首先放一张图,网上摘的这个和神经元,是不是看起来很类似。轴突通过突触传递xxxx到另一个细胞的树突。神经网络的文章:https://blog.youkuaiyun.com/illikang/article/details/82019945#second向量是线性代数中的基本概念,也是机器学习的基础数据表示形式。例如计算机阅读文本的过程首先就会将文本分词,然后用向量表示。这是因为向量很适合在...原创 2019-07-24 11:43:49 · 488 阅读 · 0 评论 -
同义词--一个客服系统的智能验证
这里总结一下18年测试的一个客服系统,这个系统是基于微信公众号做的开发,类似QA系统。测试这边需要尽可能的丰富同义词语料库。相同一句话要变换不同的表达方式。我这边想了一个办法很土。早期是下面的方法。切词,切句子。jiebao 库 对词语做同义词列举。 synonyms 库python需要导入这两个库文件import synonymsimport jiebatext = "办理贷...原创 2019-01-25 15:50:11 · 603 阅读 · 0 评论 -
欧式距离和曼哈顿距离
首先把公式搞出来吧,下面是二维平面的距离求解。欧式距离:曼哈顿距离: |x|= |x1-x2|+|y1-y2|当然扩展到多维空间,我们也可以据需按照上面的公式来发挥了。欧式距离:欧式距离计算的是两个点之间的实际距离。或者用来求向量的自然长度。曼哈顿距离:从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个...原创 2019-08-21 15:21:01 · 2700 阅读 · 0 评论