
大数据
文章平均质量分 92
等木鱼的猫
哈哈哈
展开
-
linux安装部署dolphinschduler2.0.5
Linux下安装Java运行环境下载DolphinScheduler发布版本dolphinschduler2.0.5版本。原创 2022-09-14 11:17:26 · 1504 阅读 · 0 评论 -
Rdd/DataFrame/DataSet 小结
(1).三者区别和联系DataFrame:DataFrame是以rdd为基础的分布式数据集,类似于传统数据库的二维表格,带有schema的元数据,即相当于二维表格的每一列都有列名和类型,基于次对于dataFrame的操作更有正对性,优点:引入了Schema,用于管理数据类型 Datafram中的每一行数据类型都是row,所以在序列化和反序列化的时候就不需要对数据类型操作;Datafra...原创 2020-04-04 15:45:40 · 226 阅读 · 0 评论 -
Spark文本特征提取(TF-IDF/Word2Vec/CountVectorizer)
import org.apacheimport org.apache.sparkimport org.apache.spark.ml.feature._import org.apache.spark.mllib.linalg._import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.linalg...原创 2020-04-04 15:44:29 · 383 阅读 · 0 评论 -
spark(二)SparkContext
一.Spark核心功能二.Spark基本架构三.RDD相关图一(1)application: 1一个应用程序为一个application.(2)job: 1①saveAsTextFile为action操作,根据action操作划分job,故job为1个.②切分方法:从前往后找action算子,找到一个就形成一个job(3) stage:...原创 2019-06-24 21:43:52 · 348 阅读 · 0 评论 -
Spark(二)RDD
import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { //SparkConf val conf=new SparkConf().setMaster("local").setAppName("test") //Sp...原创 2018-08-06 16:13:09 · 175 阅读 · 0 评论 -
Spark-胡乱小记
1.从hdfs文件中获取数据 val hdfs=org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://hacluster"), new org.apache.hadoop.conf.Configuration()) val fSDataInputStream1=hdfs.open(new Pat...原创 2018-07-26 17:17:06 · 231 阅读 · 0 评论 -
Spark(一)RDD
1.RDD基本概念Spark中的RDD是一个不可变的分布式对象集合,有五大特性:①有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。②有一个函数计算每一个分片,这里指的是下面会提到的compute函数。③对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD都有依赖。④可选:key-value型的RDD是根据哈希来分区的,类似于...原创 2018-07-12 14:32:02 · 374 阅读 · 0 评论 -
Windows下安装Hadoop(不借助cygwin)超级详细版
第一步:前期需要准备的材料:① 下载hadoop-2.7.6安装包下载地址: http://hadoop.apache.org/releases.html② 下载hadoop在windows环境下支持包hadoopwindows-master.③ 下载hadoop的hadoop.dll和winutils.exehttps://download.youkuaiyun.com/...原创 2018-05-30 15:54:40 · 12258 阅读 · 6 评论 -
Spark-文件操作读取保存
import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}import org.json4s.ShortTypeHintsimport org.json4s.jackson.Serializationimport org.json4s.jackson.JsonMethods....原创 2018-06-11 20:38:29 · 335 阅读 · 0 评论 -
Spark-基于scala实现文章特征提取(TF-IDF)
一.基本原理: TF-IDF(term frequency–inverse document frequency):TF表示 词频,IDF表示 反文档频率.TF-IDF主要内容就是:如果一个词语在本篇文章出现的频率(TF)高,并且在其他文章出现少(即反文档频率IDF高),那么就可以认为这个词语是本篇文章的关键词,因为它具有很好的区分和代表能力.二.SparkML库:TF:HashingTF ...原创 2018-06-11 15:58:22 · 4205 阅读 · 0 评论