
大数据
MG羽白
这个作者很懒,什么都没留下…
展开
-
The authenticity of host 'izwz9c8l39itikxj328wwuz (IP地址)' can't be established.
在使用SecureCRT远程连接阿里云ECS时,启动hadoop:输入命令:./sbin/start-dfs.sh报错如下:The authenticity of host 'izwz9c8l39itikxj328wwuz (IP地址)' can't be established.分析原因:发现是由于使用了root用户,将用户改为普通用户xxx即可正常启动。...原创 2018-11-26 10:22:49 · 1372 阅读 · 1 评论 -
Spark GraphX 学习笔记——LDA实战:路透社电报新闻分类
1. 隐含狄利克雷分布(Latent Dirichlet allocation,LDA) 1)LDA 属于无监督学习,所有的主题并不需要事先指定,是在聚类过程中逐渐形成的 。 2)MLlib 的 LDA 使用了 GraphX 来提高计算效率,尽管它的输入和输出都不是图。 3)LDA 是基于隐含变量的,在这里隐含变量指的是算法自动推断出来的“主题”。这些主题由一些与之关联的单词描述,但并...原创 2019-04-23 19:20:40 · 1674 阅读 · 0 评论 -
Spark GraphX 学习笔记——影片推荐:SVDPlusPlus (监督学习)
影片推荐: SVDPlusPlus (监督学习) 推荐系统就是监督学习的一个例子,因为它提供了 一些影片评分的数据,并要求预测未知的用户对影片的评分。一般有两种主流的方法来解决这个问题。 1)第一种主流方法比较直接和简单 : 对于需要处理的用户 , Pat, 找到和他有相同爱好的其他用户,然后给 Pat 推荐这些用户喜欢的影片。这就是 Netflix 公司早期的推荐策略,有时被称为邻居...原创 2019-04-23 19:18:47 · 2741 阅读 · 0 评论 -
Spark GraphX 学习笔记——旅行推销员问题:贪心算法
旅行推销员问题: 在一个无向图中找到一个经过每一个顶点的最短路径1. 贪心算法 对于旅行推销员问题而言,贪心算法是最简单的,即在每次迭代时选择最接近的最短边,但不做进一步搜索2. 贪心算法优化 贪心算法可在不用增加太多代码的情况下,用不同的起始顶点重新运行整个算法,不断迭代,挑选出一个到达所有顶点并且最短的解决方案,用这种方法可以改善贪心算法。3. 贪心算法scala代码实现:...原创 2019-04-22 15:32:03 · 2186 阅读 · 1 评论 -
Spark GraphX 学习笔记——Dijstra最短路径算法
1. Scala中的Dijstra最短路径算法import org.apache.spark.graphx._def dijkstra[VD](g:Graph[VD,Double], origin:VertexId): Graph[(VD,Double), Double] = { /** * 1. 初始化 * 遍历图的所有节点 * 变为(false, Double.Max...原创 2019-04-22 14:54:14 · 2531 阅读 · 0 评论 -
Spark GraphX 学习笔记——预测社交圈
数据来源:Kaggle数据网址:https://www.kaggle.com/c/learning-social-circles/data实验目的:读取每个egonet文件内容,根据这些朋友及朋友间的连接创建一个图,找出图中的连通组件,输出社交圈结果参考书籍:spark GraphX实战编程语言:Scala// 1. 读取数据,生成pairRDDval egonets = ...原创 2019-04-17 10:41:44 · 2941 阅读 · 2 评论 -
Spark RDD解密(一)
1. RDD常用转换算子 1) map(f:T => U) 2) filter(f:T => Bool) // 过滤操作 3) flatMap(f:T => Seq[U]) // 将RDD中的每个集合合并成新的更大的集合 4) glom() // 将每个分区中的元素组成一个数组 5) distinct() // 将每...原创 2019-03-28 10:12:13 · 1939 阅读 · 0 评论 -
Kafka单节点部署
一. 单节点单broker的部署和使用1. 启动Zookeeper ./zkServer.sh start 或 zookeeper-server-start.sh config/zookeeper.properties2. 启动Kafka kafka-server-start.sh config/server.properties3. 创建topic ...原创 2018-12-11 11:11:22 · 2731 阅读 · 0 评论 -
在scala中连接mysql时出现错误:Establishing SSL connection without server's identity verification is not recomm
在Scala中连接mysql时,输入命令:scala> rebuyDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/dbtaobao", "dbtaobao.rebuy", prop)出现错误如下:Wed Nov 28 20:41:12 CST 2018 WARN: Establishing SSL connect...原创 2018-11-28 20:50:23 · 1522 阅读 · 0 评论 -
启动Hive时,出现Hive metastore database is not initialized
解决Hive启动,Hive metastore database is not initialized的错误。出错原因:以前曾经安装了Hive或MySQL,重新安装Hive和MySQL以后,导致版本、配置不一致。解决方法是,使用schematool工具。Hive现在包含一个用于 Hive Metastore 架构操控的脱机工具,名为 schematool.此工具可用于初始化当前 Hive 版本...原创 2018-11-27 14:07:40 · 2471 阅读 · 0 评论 -
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)
配置Mysql时出现如下问题,通过修改root密码得以解决:ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO) 1. 打开配置文件vim /etc/my.cnf,在配置文件[mysqld]后任意一行插入skip-grant-tables,来停止密码验证:# For a...原创 2018-11-26 15:21:44 · 1408 阅读 · 0 评论 -
CentOS7.3安装mysql
1. 下载mysql安装包$ wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm--2018-11-26 13:21:40-- https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpmResolving dev....原创 2018-11-26 15:15:24 · 1604 阅读 · 1 评论 -
启动Zookeeper出现错误bin/zkServer.sh: line 140: ./zookeeper.out: Permission denied
在阿里云上搭建Zookeeper时,利用bin/zkServer.sh start启动Zookeeper出现如下错误:$ bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /home/lmg/Softwares/zookeeper/bin/../conf/zoo.cfgStarting zookeepe...原创 2018-11-26 11:30:33 · 6457 阅读 · 1 评论 -
linux用tar解压文件Cannot open: No such file or directory
在阿里云上搭建大数据平台,解压 zookeeper-3.4.10.tar.gz时报错如下:tar: zookeeper-3.4.10: Cannot mkdir: Permission deniedtar: zookeeper-3.4.10/ivysettings.xml: Cannot open: No such file or directorytar: Exiting with f...原创 2018-11-26 11:15:41 · 37211 阅读 · 3 评论 -
Spark GraphX 学习笔记——垃圾信息检测:LogisticRegressionWithSGD
垃圾信息检测:LogisticRegressionWithSGD (Stochastic Gradient Descent) 1)构建训练集的图import org.apache.spark.graphx._import org.apache.spark.mllib.classification.LogisticRegressionWithSGDval trainV = sc.ma...原创 2019-04-23 19:22:30 · 1832 阅读 · 0 评论