
Data mining
文章平均质量分 93
0x12A2A7F
探索数据宇宙.
展开
-
Pandas API on Upcoming Apache Spark™ 3.2
We’re thrilled to announce that the pandas API will be part of the upcoming Apache Spark™ 3.2 release. pandas is a powerful, flexible library and has grown rapidly to become one of the standard data science libraries. Now pandas users will be able to lever转载 2021-10-19 17:30:29 · 230 阅读 · 0 评论 -
scala学习笔记 - 注解
什么可以被注解在scala中,可以为类、方法、字段、局部变量和参数添加注解,例如:@Entity class Credentials @Test def testSomeFeature() {} @BeanProperty var username = _def doSomething(@NotNull message: String) {}在给主构造器添加注解时,需要将注解放置在构造器之前,并加上一对圆括号(如果注解不带参数的话)。例如:class Credentials @Inj原创 2021-06-16 10:34:51 · 766 阅读 · 0 评论 -
决策树(Decision Tree)
决策树算法是一种基于决策的预测算法,顾名思义,每一个决策相当于一棵树的枝干,而每个枝干都会导向一个决策结果。决策树其实可以分为分类树和回归树,分类树是指输出每个样本的类别,而回归树是指输出数值结果,这里我们只讨论分类树。在应用中,决策树通常是基于一套规则去将数据分门别类。在一个数据集中,决策树算法会利用每一个样本的属性变量,并确定哪一个属性是最重要的,然后给出一系列决策去最优地将数转载 2017-05-01 11:54:57 · 746 阅读 · 0 评论 -
K-Means集群算法
无论什么数据集,理论上都可以形成一定数量的集群。例如,党我们拿到学生成绩表时,我们可以把成绩分数划分为优(90分左右)、良(80分左右)、中(70分左右)、差(60分及以下)。再例如对于工人工资表,我们也可以把工人按照工资划分成一定数量的集群,每个集群一定是围绕某个工资水平的。甚至我们可以抓取所有微信公众文章,将文章标题映射为向量表示(假设没有那些标题党文章的话),我们就可转载 2017-05-01 11:51:36 · 3413 阅读 · 0 评论 -
R资源大全
0.前言 虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过。。。直到 直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和爬一些R的资料,看着看着就入迷了,这就是个大宝库了,以前怎么没发现,看来还是太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,对比了目前自己的工作和以后的方向,非常转载 2017-02-22 21:49:15 · 8521 阅读 · 0 评论