GuanzhouKe-优快云博客

原创大部分人都理解错了的FPgrowth算法

摘要韩家炜教授等人提出FP-growth(Frequent Pattern growth)算法是频繁模式(Frequent Pattern, FP)挖掘领域的经典算法，其高效性能的背后是强大的信息压缩树——频繁模式树(Frequent Pattern Tree, FPTree)，但在构建FPTree的过程中很容易忽略一些关键的步骤，如正确的频繁模式顺序(Frequent Pattern Ordering, FPO)和排序结果的稳定性，这篇文章从原论文出发，分析当前网络上高点击量的复现文章的不当之处，给出一

2020-06-02 20:59:30 1645 1

原创简明聚类分析入门

摘要 : 以“为什么需要聚类分析这一问题”作为引入，逐步阐述聚类分析领域是如何发展的。这篇文章主要阐述聚类分析的四类方法：划分方法、层次方法、基于密度的方法和基于网格的方法的基本原理以及它们中的代表算法和实现方式。将聚类算法的设计总结为两大核心：划分过程和相似度量的设计。1 引言聚类分析技术已经发展了近60年，至今该领域依旧非常活跃[1]^{[1]}[1]。聚类分析的地位与其他的机器学习理论，如分类，SVM等，有所不同。首先，聚类分析是一个多学科交织

2020-06-02 20:58:46 1650

原创探索SMOTE算法

摘要SMOTE是一种综合采样人工合成数据算法，用于解决数据类别不平衡问题(Imbalanced class problem)，以Over-sampling少数类和Under-sampling多数类结合的方式来合成数据。本文将以Nitesh V. Chawla（2002）的论文为蓝本，阐述SMOTE的核心思想以及实现其朴素算法，在传统分类器（贝叶斯和决策树）上进行对比算法性能并且讨论其算法改进的途径。1. 引言类别不平衡是一种在分类器模型训练过程中常见的问题之一，如通过大量胸透图片来学习判断一个人是否有

2020-06-02 20:55:27 1332

原创 KMeans原理实现及分析

摘要 KMeans是一种简单的对给定数据集将其划分成k个簇的聚类算法，数据挖掘十大算法之一，其数学原理也是非常的朴素。本文将根据KMeans的原理将其实现，并对其性能进行分析，讨论其缺陷与探讨业界主流的改进方式。1 引言 KMeans 算法的思想是由许多跨学科领域的研究者们经过长时间不断的交织出来的，但其第一次使用是由Lloyd(1957, 1982)所提出用于调制脉冲编码，关于KMeans的更多历史信息可在[2]中找到，KMeans提出之初因为其朴素算法涉及组合爆炸问题导致其是NP-Har

2020-06-02 20:54:48 1512

翻译 [译]浅析t-SNE原理及其应用

声明: 本文转译自Data Camp上Manish Pathak的文章《Introduction to t-SNE》原文地址译者注: 本文言简意赅的阐述了数据降维（ Dimensionality Reduction technique）技术中PCA以及t-Distributed Stochastic Neighbor Embedding(t-SNE)算法的相关实现原理以及利弊，并且使用Python基于Fashion-MNIST数据集描述了对PCA以及t-SNE算法的基本应用。本人觉得相关概念阐述的比较

2020-06-02 20:53:46 3583

Darkness_hades的博客

原创大部分人都理解错了的FPgrowth算法

原创简明聚类分析入门

原创探索SMOTE算法

原创 KMeans原理实现及分析

翻译 [译]浅析t-SNE原理及其应用

原创致敬真神——SVM

原创 Java中值得你小心的事（一）——继承

原创关于KotLin，在学习的过程中还需要思考的问题

原创 Android反编译之36kr.app

原创利用Android Studio的CMake来快速开发NDK

原创关于free()函数的一些说明

原创表达式树的构建

原创迷宫问题 C语言实现（深搜）

原创中缀表达式转成后缀表达式 C实现

原创基数排序的C实现

原创 Josephus(约瑟夫环问题)循环单链表c语句实现！

原创冒泡排序的分析以及优化

计算机网络(谢希仁版)复习资料整理

win32的向导文件

ApkDec安卓反编译工具

空空如也