
算法
文章平均质量分 90
面向未来的历史
这个作者很懒,什么都没留下…
展开
-
拉格朗日插值 python scipy
拉格朗日插值数学原理:根据数学知识,对于平面上已知的n个点(无两点在一条直线上)可以找到一个 n-1 次多项式: y=a0+a1x+a2x2+...+an−1xn−1y=a_0 +a_1x+ a_2x^2+ ... + a_{n-1}x^{n-1}为了进行根据新的x, 求出对应的 y值,需要求出上式中的系数 a0,a1,a2....an−1a_0, a_1, a_2.... a_{n-1}因为n个原创 2016-05-24 16:59:47 · 18116 阅读 · 3 评论 -
hash加密 python
python中进行hash加密1 使用hashlib模块使用方法如下 import hashlib m = hashlib.md5() m.update("ff") m.update("aa") m.digest()导入hashlib模块,建立md5 hash对象,然后,添加要hash加密的字符。 每次进行update时,都是在原来的字符基础上添加字符。即:m.update(“ff”),原创 2016-05-06 09:40:00 · 2132 阅读 · 0 评论 -
特征选择--scikit-learn
特征选择(Feature Selection):choosing a subset of all the features(the ones more informative)。最终得到的特征选是原来特征的一个子集。特征选取是机器学习领域非常重要的一个方向。 主要有两个功能:(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合(2)增强度特征和特征值之间的理解1,原创 2016-07-29 12:28:12 · 36614 阅读 · 2 评论 -
simhash文本相似度计算
常见文本相似度计算方法:1 向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。 使用介绍可以参考 Corpora and Vector Spaces, 以及T原创 2016-08-03 21:07:59 · 3842 阅读 · 0 评论 -
url去重 --布隆过滤器 bloom filter原理及python实现
常见URL过滤方法1 直接查询比较即假设要存储url A,在入库前首先查询url库中是否存在 A,如果存在,则url A 不入库,否则存入url库。这种方法准确性高,但是一旦数据量变大,占用的存储空间也变大,同时,由于要查库,数据一多,查询时间变长,存储效率下降。2 基于hash的存储对于给定的url,通过建立的hash函数,来获得对应的hash值,并将该值存入库中。当在检查url是否存在库中时原创 2016-08-07 15:49:50 · 18410 阅读 · 1 评论