
机器学习
逆着风走
这个作者很懒,什么都没留下…
展开
-
unicode、utf-8、gb2312字符集,字符编码,全在这里
常说的字符集和编码区别,其实就是编码字符集和字符集编码的区别,其实,单单如果只是说字符集,没有任何编码的概念的话,那么字符集其实仅仅是一个简单的字符的集合,或者说是一个抽象的字符的集合,包括文字,符号等等,不参与任何存储形式,只是存在这么各种各样标准的字符的集合如果仅仅是抽象的字符集,我们是无需拿出讨论的,因为没有任何异议,通俗易懂,而常说的字符集指的编码字符集,比如常见的 unicode、a...转载 2020-02-17 18:30:39 · 971 阅读 · 0 评论 -
k均值聚类,密度聚类,层次聚类
聚类是机器学习中的无监督学习方法的重要一种,近来看了周志华老师的机器学习,专门研究了有关于聚类的一章,收获很多,对于其中的算法也动手实现了一下。主要实现的包括比较常见的k均值聚类、密度聚类和层次聚类,这三种聚类方法上原理都不难,算法过程也很清晰明白。有关于原理可以参阅周志华老师的机器学习第九章,这里只做一下代码的实现。运行环境是Python2.7+numpy,说实话,numpy坑还是挺多的转载 2016-09-10 11:24:57 · 1793 阅读 · 0 评论 -
信息量与熵
世界杯决赛的两支球队中,哪支球队获得了冠军?在对球队实力没有任何了解的情况下,每支球队夺冠的概率都是1/2,所以谁获得冠军这条信息的信息量是 - log2 1/2 = 1 bit。如果信息是四强中的球队谁获得了冠军,它的信息量是 - log2 1/4 = 2 bit。其实这正好对应了计算机对数字的表示,如果用二进制表示,每一位出现0和1的概率都是1/2,所以每一位的信息量是1bit。如转载 2016-08-09 10:53:54 · 3358 阅读 · 0 评论 -
由浅入深理解哈希表
说明:本文分为三部分内容,第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。第一部分:Top K 算法详解问题描述百度面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千转载 2016-09-01 11:14:49 · 286 阅读 · 0 评论 -
什么是维度?什么是轴(axis)?如何索引轴(axis)?什么是reduce?
作者:黄璞链接:https://www.zhihu.com/question/51325408/answer/125426642来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1. 什么是维度?什么是轴(axis)?如何索引轴(axis)?注:对Axis比较熟悉的读者可跳过这部分解释,只看加粗字体。这是一个很大的问题,到底什么是维度呢?维基百科说:维度,又称维数,是数...转载 2018-05-18 18:02:49 · 3033 阅读 · 0 评论