- 博客(6)
- 收藏
- 关注
原创 决策树分类红酒数据的pyspark.ml的pipeline
数据地址:http://archive.ics.uci.edu/ml/datasets/Wine from pyspark.ml.classification import DecisionTreeClassificationModel from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml import Pipeline,PipelineModel from pyspark.ml.evaluation imp
2021-04-13 19:40:13
464
原创 Spark求TOP值
本题为林子雨老师的课件中的一道题,现在写在这里,主要是记录一下自己的踩坑经历,顺带加深一下对数据预处理的映像,数据预处理至关重要,一定不能疏忽。 原题目: 这道题首先第一个点,这是两个文件,所以可以把这两个文件放在一个文件夹下,用sc.textFile()读文件的时候,直接读取文件夹,这样就可以把两个文件一起读进去。 我在第一次尝试的时候,写的代码如下: from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("lo
2021-04-12 15:25:17
1736
原创 Input path does not exist: hdfs://localhost:9000/usr/hadoop/word.txt
最近在学习Spark读取HDFS上面的数据,执行代码: textFile = sc.textFile("hdfs://localhost:9000/usr/local/hadoop/word.txt") 遇到标题上的错误: Input path does not exist: hdfs://localhost:9000/usr/local/hadoop/word.txt 作者第一次学习Spark,对本地(local)读取和HDFS读取并不是太懂,折腾了半天,找了很多解答,也还是没有解决这个问题。还好舍友厉
2021-04-10 15:16:57
17380
4
原创 Call From ubuntu/127.0.1.1 to localhost:9000 failed on connection exception
我是在使用Spark读取HDFS的时候遇到这个问题的,通过查阅网上资料,结合自己的学习,写一下自己是怎么解决的。 网上大多的部分资料都是NameNode没有启动,但是我查了一下我的系统,NameNode已经启动,但是DataNode没有启动。结合林子雨老师的学习资料(Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)),写一下DataNode怎么启动。 若是 DataNode 没有启动,可尝试如下的方法(注意这会删除 HDFS 中原有的所有数
2021-04-08 21:40:23
7874
2
原创 一文带你理解《A Survey on Performance Metrics for Object-Detection Algorithms 》,目标检测中的指标计算。
一文带你理解《A Survey on Performance Metrics for Object-Detection Algorithms 》,目标检测中的指标计算。度量指标 github地址:https://github.com/rafaelpadilla/Object-Detection-Metrics(网页包含论文) 论文名称:A Survey on Performance Metrics for Object-Detection Algorithms 在大多数目标检测任务中,平均精确度AP以及它的
2021-01-19 20:03:34
1057
2
原创 Tensorflow 学习1:图的创建和运行
Tensorflow 学习1:图的创建和运行 从今天开始在B站上学习tensorflow,把自己的所学写在这里,方便以后回来温故。 第一节:Tensorflow中图的创建和运行 图是由tensor,op来创建: 创建一个图: 首先我们要载入tensorflow包: #载入tensorflow import tensorflow as tf 而后我们可以创建图所需要的op并定义矩阵乘积op: #创...
2019-07-28 19:33:42
431
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人