
spark
零一睡不醒
人生苦短
展开
-
Spark的基本概念
2018年年末,开始spark学习 http://dblab.xmu.edu.cn/blog/1709-2/1 spark 涉及的名词解析Block 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。InuptSplit 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并...原创 2018-12-29 09:39:54 · 520 阅读 · 0 评论 -
win10 安装单机版 pyspark
参考这篇博客: https://blog.youkuaiyun.com/weixin_38556445/article/details/78182264默认已经电脑已经安装java 和 python。1 需要安装spark 和 hadoop (python3.6 需要spark2.1以上版本)两者作相同处理:解压之后,还需要完成SPARK_HOME和bin环境变量相关配置;HADOOP_HOME...原创 2018-12-29 16:46:40 · 1085 阅读 · 0 评论 -
Spark ml 之一 简单的文本多分类
主要参考:使用PySpark处理文本多分类问题和 python机器学习的流程一样。ml提供了机器学习的各种接口。本文主要记录ml 里数据读取、预处理、模型使用的基础知识。第一步 读取数据from pyspark.sql import SQLContextfrom pyspark import SparkContextsc =SparkContext()sqlContext = ...原创 2019-01-02 10:30:48 · 1290 阅读 · 6 评论 -
ubuntu spark 的环境变量
JAVA_HOME=/usr/local/java/jdk1.8.0_201SCALA_HOME=/usr/local/scalaSPARK_HOME=/usr/local/sparkJRE_HOME=${JAVA_HOME}/jrePATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/binexport CLA...原创 2019-01-24 09:29:43 · 763 阅读 · 0 评论 -
日志文件是如何传到数据库的
def dbfunc(records): db = pymysql.connect("localhost","root","root","spark") cursor = db.cursor() def doinsert(p): sql = "insert into wordcount(word,count) v...原创 2019-01-25 11:54:45 · 607 阅读 · 0 评论 -
spark的转换和行动
1. map:是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。2. filter: 是对RDD中的每个元素都执行一个指定的函数来过滤产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。3. flatMap:与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD...原创 2019-01-28 09:44:33 · 726 阅读 · 0 评论 -
kafka 学习笔记
一 名词解释名词 解释Producer 消息的生成者Consumer 消息的消费者ConsumerGroup 消费者组,可以并行消费Topic中的partition的消息Broker 缓存代理,Kafka集群中的一台或多台服务器统称broker.Topic Kafka处理资源的消息源(feeds of messages)的不同分类Pa...原创 2019-01-29 09:36:43 · 234 阅读 · 0 评论