风玉尘-优快云博客

转载 Spark MLib测试案例

聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之间的object尽可能相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，比较常见的还有层次法（CURE、CHAMELEON等）、网格算法（STING、WaveCluster等），等等。

2023-06-13 11:47:38 545

原创 hive安装（内嵌模式，采用Hive的默认源数据库，即内嵌的Derby）

hive配置（内嵌模式）

2023-06-02 22:19:19 989 1

原创 mapreduce计算最高分

【代码】mapreduce计算最高分

2023-05-30 23:25:18 356 1

原创 Hadoop（mapreduce求最大值）

【代码】Hadoop（mapreduce求最大值）

2023-05-28 22:52:02 101

原创百度（高德）地图从json文件提取经纬度、地点等信息

进入地图平台，右键“检查”，打开控制台，找到“网络”，选择其中一个json文件下载保存（该文件包含了经纬度、地铁线路、站点等信息）看到如下图所示，Ctrl + A全选，后复制粘贴保存到一个自己命名的 json文件中。

2023-05-25 20:52:28 3790 1

原创 spark处理地铁交通数据

【代码】spark处理地铁交通数据。

2023-05-19 09:54:16 315

本数据集由9名受试者的脑电图数据组成。基于线索的BCI范式包括四种不同的运动想象任务，即想象左手(1类)、右手(2类)、双脚(3类)和舌头(4类)的运动。每个被试在不同的时间记录了两个会话。每一节由6次跑步组成，中间有短暂的休息。一次测试包括48次测试(四种可能的级别，每个级别12次)，每次测试288次。在每次会议开始时，进行大约5分钟的记录，以估计EOG的影响。录音分为3个部分:(1)眼睛睁开2分钟(看着屏幕上固定的十字)，(2)眼睛闭上1分钟，(3)眼球运动1分钟。一个会话的计时方案如图1所示。

2023-04-27 19:15:14 382

原创 Linux下spark独立应用程序编程（参考林子雨老师配置）

在上面的配置信息中，scalaVersion用来指定scala的版本，sparkcore用来指定spark的版本，这两个版本信息都可以在之前的启动 Spark shell 的过程中，从屏幕的显示信息中找到。下面就是笔者在启动过程当中，看到的相关版本信息（备注：屏幕显示信息会很长，需要往回滚动屏幕仔细寻找信息）。对于刚安装好的Spark和sbt而言，第一次运行上面的打包命令时，会需要几分钟的运行时间，因为系统会自动从网络上下载各种文件。后面再次运行上面命令，就会很快，因为不再需要下载相关文件。

2023-04-27 11:14:23 870