
数据结构
文章平均质量分 63
kangpeng1107
面对生活始终笑着,面对朋友也要坚持
展开
-
kmeans聚类算法
(1)选取m个质心;(2)计算任意点与m个质心的相似度(或者是距离),最短或者误差最小的便归该类。质心的选取:(1)选择批次尽量远的点。首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。(2)层次聚类算法或者canopy算法转载 2016-09-30 15:19:35 · 530 阅读 · 0 评论 -
SVM的个人理解
支持向量机–SVM大家都不会陌生,其实就是一种分类器。在集合空间中寻找一个能够正确分隔这些元素的超平面,当只有两个元素的时候,符合我们条件的超平面有很多,但是找到最佳的超平面的只有一个。在这里面超平面是一条线,是一个wx+b=0的直线。 这里面说一下我遇到的疑惑点: SMO(Sequential minimal optimization):参考文献根据pluskid中的博客所提到的,我们使用点到原创 2016-09-15 19:41:54 · 576 阅读 · 0 评论 -
ELK搭建与hbase关联
ELK(ElasticSearch Logstash Kibana)是三个开源工具,最常用的功能就是检查日志。如果开动脑洞,还会有更多的用途,这三个组合在一起确实功能很强大,每一种工具都有自己的功能的实现(按照日志处理的顺序来说):(1)Logstash:具备了日志的“收集-过滤-输出”功能,其实也就这三个功能最常用。通过命令行来指定相关的配置,且配置的命令行都是固定(要根据官网提供的模板进行原创 2016-10-14 20:13:49 · 4430 阅读 · 0 评论 -
float,double精度
Double与float类型(1)基本存储方式:与int、long存储方式不同,double与float在内存中是以符号位、指数位与尾数位三部分进行存储的,其中符号位表示数字分正负,占位1位;指数位表示浮点的位置,占位8位,无符号存储,取值范围:0-256,其与实际指数的偏差值为127,尾数表示数值的精度,占位23位。我们以8.25为例来进行说明:8.25用二进制表示可表示为1000.原创 2017-06-20 10:00:02 · 7637 阅读 · 2 评论 -
蓄水池算法
今天有幸听同事讲到蓄水池算法:题目描述:在M个元素的队列中,随机选取k个元素,队列中每个元素的选取是等概率的;证明过程:略https://blog.youkuaiyun.com/alicelmx/article/details/95880727 (在这里转载的其他人的文章,如有侵犯请私聊)使用方向:对数据进行等概率采样;该题目并不是为了证明这个算法,是利用这个算法进行采样;根源分析:此算...原创 2019-09-26 21:00:57 · 638 阅读 · 0 评论