
算法
Great1414
不破不立
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
几个数据缺失处理,时间序列的python包——fancyimpute/impyute/knnimpute/tslearn/
由于项目的需要,对时间序列数据中存在的数据缺失和异常进行处理,所以找到几个类似的python模块,里面有knn等方式填补缺失值的算法。目前正在尝试使用中,后续有案例发上来。先附上每个包的简介和GitHub:https://pypi.org/project/fancyimpute/https://github.com/iskandr/fancyimputehttps://blog.c...原创 2018-10-17 10:49:48 · 6846 阅读 · 1 评论 -
KNN缺失填补knnimpute/impyute/fancyimpute
常见的数据缺失填充方式分为很多种,比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面,python稍差。 目前已有的两种常见的包,第一个是impyute,第二个是fancyimpute,具体的内容请百度,此方面的例子不是很多。比如fancyimpute中也集成了很多方式,包括均值、众数、频数填充,KNN填充、MCMC填充等。...原创 2018-10-19 12:28:15 · 24955 阅读 · 9 评论 -
数据缺失值填补
缺失值填充方法包括简单填充、属性填充和实例填充三种类型,本文主要研究属性填充方式。填充依赖原始数据的单一或少量属性维度,利用属性间的关系或属性潜在的规则对缺失值进行填充。常用的属性填充方法有:基于回归分析、信息增益、灰色预测的方法和EM 算法等。基于回归分析的填充方法通过拟合回归数学模型计算缺失值,该方法仅适用于满足确定数学模型的数据集;基于信息增益的方法,依据与缺失数据关联密切的属性...转载 2018-10-15 17:20:34 · 6114 阅读 · 0 评论 -
异常检测模型
异常的类型:意料之外的峰谷、趋势变动、水平变化等。异常检测的方式主要分为两种,第一是直接预测出异常,第二是通过预测结果,然后根据置信区间判断异常。异常检测模型:STL分解CART树ARIMA指数平滑神经网络LSTMhttps://statsbot.co/blog/time-series-anomaly-detection-algorithms/https...原创 2018-09-30 09:43:05 · 4453 阅读 · 0 评论 -
异常点检测方法
Z分数dbscanisolation forests同比/环比/预测器/比较器95%置信区间 基于离散傅里叶变换的时间相似性查找(针对时间序列数据)转载 2018-10-15 14:05:34 · 624 阅读 · 0 评论 -
python程序性能numba优化
最近工作中有个任务,就是优化一个模型的实时性。从有到无,主要完成了以下内容。0.模型的逻辑1.算法逻辑2.代码重构3.程序的性能优化,包括编译、多线程、多进程、numba4.语言numba包,经测试,比较适用于数组、矩阵等数值计算,其他的类型操作,容易报错。from multiprocessing import Poolfrom functools import...原创 2018-09-19 15:29:51 · 735 阅读 · 0 评论 -
机器学习系列之GBDT
GBDT既可以用于回归,也可以用于分类。两者本质是一样的,分析流程也大致相同,区别在于loss function不同。首先,介绍一下提升方法,boosting就是把一系列的弱学习器反复学习,然后组合成强学习器。对于提升方法,主要需要回答两个问题:第一个是每一轮学习过程中如何改变训练数据的权值或概率分布;第二个就是如何将弱分类器组合成强分分类器。在前面讲到的Adaboost中,根据每次训练数...转载 2018-08-08 07:56:59 · 525 阅读 · 0 评论 -
机器学习系列之RandomForest/Adaboost
目录RandomForest每棵树生成规则:随机森林包含两个随机:Adaboost迭代过程: 加权结果:参见网址:RandomForest随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器,...原创 2018-08-04 11:21:36 · 557 阅读 · 0 评论 -
机器学习系列之支持向量机
这是一个介绍比较全面、易懂的文章,作者七月在线。https://blog.youkuaiyun.com/v_july_v/article/details/7624837SVM整个流程:本质是个分类方法1. 构造w^T + b 分类函数,然后目标是求解w、b2.寻求最大间隔,引出目标函数:1/2||w||^2,约束条件yi(w^Txi + b)>=13.引入拉格朗日因子,将目标函数、约束条...原创 2018-07-30 22:01:24 · 166 阅读 · 0 评论 -
数据处理常用语句2
平时工作中,因为对数据结构与算法不是很熟悉,所以有些程序算法,嵌套了多层for,效率低。而python有一些现成的方式,如并集、交集等函数。具体参照:https://blog.youkuaiyun.com/bitcarmanlee/article/details/51622263**********************************时间序列*************************...原创 2018-07-25 10:26:41 · 284 阅读 · 0 评论 -
常见的相似度计算方法
1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 巴氏距离(Bhattacharyya Distance)8. 汉明距离(Hamming distance)9. 夹角余弦10. 杰卡德距离 & 杰卡德相似系数11. 相关系数 & 相关距离12. 信息熵后续研究......参...转载 2018-07-25 10:09:16 · 2057 阅读 · 0 评论 -
算法练习1——删除数组中重复值
给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为 0, 1, 2, 3, 4。你不需要考虑数组中超出新长度后面的元素。class Solution: def removeDuplicates(self, nums): """ :type nums: List[int...转载 2018-06-26 07:47:32 · 752 阅读 · 0 评论 -
二分查找—python
正好工作的时候,需要知道一个数据,是否在一组数据中。刚好学习下二分查找的内容,具体的思路参照别人写的内容,这里只是复现一遍。还没有仔细研究。二分查找:在一段数字内,找到中间值,判断要找的值和中间值大小的比较。如果中间值大一些,则在中间值的左侧区域继续按照上述方式查找。如果中间值小一些,则在中间值的右侧区域继续按照上述方式查 找。直到找到我们希望的数字。摘自(https://www.cnblogs....原创 2018-06-07 11:00:42 · 296 阅读 · 0 评论 -
DTW归整路径距离
学习完补充....https://pypi.org/project/fastdtw/https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.htmlhttps://www.cnblogs.com/Daringoo/p/4095508.html转载 2018-10-25 20:38:55 · 1420 阅读 · 0 评论