
spark
文章平均质量分 73
pan_haufei
这个作者很懒,什么都没留下…
展开
-
scala的maven项目读取配置文件
scala的maven项目读取src/main/resources目录下的资源文件该如何读取呢?下面提供一种默认的和一种自定义的:对于application.conf配置文件,是默认的配置文件:application.conf内容如下:mysql { url : "jdbc:mysql://192.168.76.14:3306/ibigdata?useUnicode=tru原创 2017-04-28 10:15:48 · 1703 阅读 · 0 评论 -
org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;
恭喜老铁,跟我遇到了一样的问题,接下来是解决方法:遇到的问题:org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;'Project [*]+- 'UnresolvedRelation `traintext`.`train` at o原创 2017-09-20 16:29:27 · 13596 阅读 · 7 评论 -
KAFKA的安装配置
一、kafka单机部署1.上传kafka_1.20-0.10.1.0.tgz到linux2.解压tar -xzvfkafka_1.20-0.10.1.0.gz -C /home/hadoop/work/ 3.在bin下查看脚本cd /home/hadoop/work/ kafka_1.20-0.10.1.0/bin在c原创 2017-06-01 10:09:50 · 406 阅读 · 0 评论 -
Scala文件I/O
1.scala往文件里面写,如果没有该文件,会新建这个文件。package com.iflytek.fileimport java.io._object FileWrite { def main(args: Array[String]) { val writer = new PrintWriter(new File("e:\\test.txt" ))原创 2017-05-09 20:05:23 · 401 阅读 · 0 评论 -
降维:主成分分析(PCA)
定义:可以将特征向量投影到低维空间,实现对特征向量的降维步骤:1.数据预处理。这里预处理包含俩个部分:均值归一化和属性范围调整。均值归一化是相应属性减去平均值;而属性范围则在归一化基础上初一属性方差。2.计算特征之间的协方差矩阵。该矩阵是一个n*n的对称矩阵。3.计算协方差矩阵的特征值和特征向量。4.将特征值从大到小排序。5.保留最上面的N个特征向量。6.将原数据映射到原创 2017-04-25 16:33:17 · 703 阅读 · 0 评论 -
提交任务到spark集群及spark集群的安装
/iflytek/server/spark/spark-2.0.0-bin-hadoop2.6/bin/spark-submit //spark集群的安装目录的bin目录下的spark-submit命令--class com.iflytek.Mtk //项目的入口类--master spark://192.168.76.15:7077 //master节点的网址--executo原创 2017-04-25 11:25:03 · 376 阅读 · 0 评论 -
SparkStreaming小例子
1.安装nc才可以打开端口rpm -ivh /media/CentOS_6.7_Final/Packages/nmap-5.51-4.el6.x86_64.rpm 2.ncat -lk 12343.package com.iflytek.sparkstreaming;import java.util.Arrays;import org.apache.log4j.Level;原创 2017-04-25 09:10:38 · 316 阅读 · 0 评论 -
Jcseg分词器的实现详解
1.之前的项目一直都是用的ik分词器,但是最近的一个项目项目大佬说ik好像很长时间都没更新,版本太老旧,故而用了新的jcseg的分词器,于是也上网找了一些资料,学习了一下如何使用jcseg分词器。2.http://www.docin.com/p-782941386.html这个是网上找到的Jcseg中文分词器开发说明文档3.具体实现在pom文件里面添加相关架包<depende...原创 2017-05-03 17:18:26 · 6644 阅读 · 0 评论 -
文本型数据的向量化:TF-IDF
1.对于文本型数据的分类处理(或者其他的处理),根据ik和jcseg等分词器先对它们进行分词处理之后,大家都知道,计算机是处理不了汉字的,对于文本型的词我们如何才能让计算机处理呢?我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述,网上的资源非常多,这里我主要来看看是如何实现的。2.测试数据的准备(pca.txt)1,纵坐标 是 该词 在该 文章 中 的 权重原创 2017-05-03 16:44:11 · 3536 阅读 · 0 评论 -
spark提交任务,参数的形式是JSON
spark提交任务,参数的形式是JSON比如:spark2-submit --class com.iflytek.test.Jcseg_HiveDemo spark_hive.jar {"tablename":"dhzp","fields":["text1","text2"]} {"tablename":"dhzp111","fields":["text1_jcseg","text2_j原创 2017-10-12 10:33:58 · 1525 阅读 · 0 评论