
spark
文章平均质量分 51
善若止水
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SPARK中实现用户自定义排序
大家: 好!在spark中对数据进行排序,是在实际工作中是经常用到的,本文是通过样例类的形式在实现用户自定义排序。准备样例数据,这是第一步,我习惯将数据放在一个文件中。测试文件目录为,C:\test\sort.txt, 样例数据以下所示:apple 5 5288sansung 5 5888huawei 1 3788mi 4 3799sony 3 3799lg 4 249...原创 2017-10-31 23:05:14 · 860 阅读 · 0 评论 -
SPARK中实现自定义分区
大家好: 在spark的开发中,有时需要将数据按照某个字段进行分开存储,这就需要用到spark的自定义分区的功能。先说测试数据,放在文件"C:\test\url1.log"中,数据如下所示:20170721101954 http://sport.sina.cn/sport/race/nba.shtml20170721101954 http://sport.sina.cn/sport...原创 2017-10-31 22:59:01 · 2738 阅读 · 0 评论 -
spark中配置RedisClient的模板代码
大家好: spark中配置redis客户端的模板代码,请参考import org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.JedisPoolobject RedisClient extends Serializable { val redisHost = "192.1...原创 2017-10-28 22:01:55 · 916 阅读 · 0 评论 -
sparkStream中作为kafka的生产者
大家好: sparkStream中作为kafka的生产者,将某个文件中的数据打到kafka中。package Trafficimport java.util.Propertiesimport kafka.producer.{KeyedMessage, Producer, ProducerConfig}import org.apache.spark.{SparkConf, Spa...原创 2017-10-28 22:05:28 · 2311 阅读 · 1 评论 -
从kafka中获取数据写入到redis中
大家: 好!从kafka中获取数据写入到redis中,需要用到spark中的redis客户端配置,请参考前面的博客(https://blog.youkuaiyun.com/zhaoxiangchong/article/details/78379883)。第一步 要先将数据打入到kafka中,请参照我以前的博客 https://blog.youkuaiyun.com/zhaoxiangchong/article...原创 2017-10-28 22:09:52 · 9764 阅读 · 0 评论 -
spark中调用逻辑回归
大家: 好!spark中调用逻辑回归,涉及到机器学习和算法,不太好理解。package Trafficimport java.io.PrintWriterimport org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.linalg.Spars...原创 2017-10-29 15:03:05 · 811 阅读 · 0 评论 -
kafka同SparkStreaming的对接
大家: 好! kafka同SparkStreaming的对接,以下是我自己的总结,仅供参数。scala代码如下:package SparkStreamimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.sp...原创 2017-10-28 22:25:19 · 430 阅读 · 0 评论 -
Flume和SparkStream结合的两种方式--pull
大家好: flume对接SparkStream的pull的方式,简单的介绍下: 是SparkStream从flume中拉的方式获取数据----flume的配置文件 flume-poll.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# source...原创 2017-10-28 22:31:29 · 1324 阅读 · 0 评论 -
Flume和SparkStream结合的两种方式--push
大家: 好!Flume和SparkStream结合的两种方式--push简单的介绍下: 就是flume把数据推送到SparkStream中。----sparkstreaming的代码如下所示:package SparkStreamimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.sp...原创 2017-10-28 22:37:22 · 1310 阅读 · 0 评论 -
SparkStream的两种经典使用方式:
大家: 好!SparkStream的两种经典使用方式,仅仅涉及到SparkStream,没有涉及到各种对接,数据来源是tcp的端口号第一种: 按照间隔对数据进行计算,对历史数据不做处理package SparkStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stre...原创 2018-08-14 15:49:24 · 4362 阅读 · 0 评论 -
sparksql结合hive
第一步: 在spark的conf目录下创建hive的配置文件的信息/usr/local/spark/conf 创建文件hive-site.xml里面的内容是:<configuration><property><name>hive.metastore.uris</name><value>thrift://192.168.1...原创 2018-08-14 10:08:48 · 471 阅读 · 0 评论 -
Sparksql连接mysql数据库
大家: 好!Sparksql连接mysql数据库的scala代码,研究了一段时间,踩了一个坑,分享出来package SparkSqlimport java.util.Propertiesimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org...原创 2017-10-28 22:13:37 · 1167 阅读 · 0 评论 -
如何优雅的停止掉SparkStreaming
关于如何优雅的停止SparkStreaming,网上挺多的,我测试了一种简单的方法,分享出来一个简简单单的SparkStreaming样例,从一个文件中读取数据后将结果保存到指定的目录中package SparkStreamimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, Str...原创 2019-03-21 17:06:20 · 1515 阅读 · 0 评论