spark
Chelseady
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop笔记
import pandas as pdimport xgboost as xgbfrom sklearn import preprocessing train = pd.read_csv(r'D:\ML\train.csv')tests = pd.read_csv(r'D:\ML\test.csv') #把时间转化为日期,再转化为多个时间特征train['time_stamp...原创 2019-11-18 17:43:09 · 230 阅读 · 0 评论 -
hive使用注意事项
1.Hadoop 和 Hive 都是用 UTF-8 编码的,所以, 所有中文必须是 UTF-8 编码, 才能正常使用备注:中文数据 load 到表里面, 如果字符集不同,很有可能全是乱码需要做转码的, 但是 hive 本身没有函数来做这个2.hive.exec.compress.output 这个参数, 默认是 false,但是很多时候貌似要单独显式设置一遍否则会对结果做压缩的,如果你的这个...原创 2020-01-02 16:30:34 · 786 阅读 · 0 评论 -
spark学习:mllib-logstic回归
以iris数据集(iris)为例进行分析。iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。为了便于理解,我们这里主要用后两个属性(花瓣的长度和宽度)来进行分类。目前spark.ml中支持二分类和多分类,将分别从“用二项逻辑斯蒂回归来解决二分类问题”from pyspark.sq...原创 2019-08-25 20:39:21 · 708 阅读 · 1 评论 -
Flume概念与原理、与Kafka优势对比
1 .背景flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一.2 .概述1....转载 2019-08-21 15:26:55 · 523 阅读 · 0 评论 -
spark-MLlib:决策树
以iris数据集(iris):from pyspark.ml.linalg import Vector,Vectorsfrom pyspark.sql import Rowfrom pyspark.ml import Pipelinefrom pyspark.ml.feature import IndexToString,StringIndexer,VectorIndexerfrom...原创 2019-09-02 20:12:41 · 975 阅读 · 0 评论 -
Spark学习之 Streaming
资源来自厦门大学林子雨视频一.spark streaming原理Spark Streaming是Spark的核心组件之一,为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示,Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。Spark Streami...原创 2019-08-17 19:01:16 · 718 阅读 · 0 评论 -
Hbase使用(python3.6版)
参考脚本之家首先,安装thriftthrift链接:https://github.com/SparksFly8/Tools下载thrift,这里用的是thrift-0.7.0-dev.tar.gz 这个版本tar xzf thrift-0.7.0-dev.tar.gzcd thrift-0.7.0-devsudo ./configure --with-cpp=no --w...原创 2019-08-14 20:50:26 · 974 阅读 · 0 评论 -
spark 相关的知识点
1.map 和flatmap的区别map的作用就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:例如:比如一个...原创 2019-08-01 19:02:24 · 410 阅读 · 0 评论
分享