
每天一个程序
不管代码的难易程度,一步步慢慢来
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
HiveJdbcClient的操作 【Hive】
import java.sql.*; /** * Description: HiveJdbcClient的操作 * 修改默认的hiveserver2的启动端口: * $HIVE_HOME/bin/hiveserver2 --hiveconf hive.server2.thrift.port=14000 * $HIVE_HOME/bin/beeline -u jdb...原创 2019-03-05 19:25:49 · 400 阅读 · 0 评论 -
External DataSource 之parquet【Spark SQL】
package february.sql import org.apache.spark.sql.SparkSession /** * * ====== Spark SQL默认处理的format是parquet ==== * Description: Parquet 文件操作 * * 处理parquet数据 * spark.read....原创 2019-03-04 18:44:44 · 252 阅读 · 0 评论 -
基于API和SQL的基本操作【DataFrame】
写在前面: 当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 // =====基于dataframe的API=======之后的就都是DataFrame 的操作了============== infoDF.show() infoDF.filter(infoDF.col("age") > 30).show() 另,也可以...原创 2019-02-27 14:58:13 · 395 阅读 · 0 评论 -
DataFrame 转换为Dataset
写在前面: A DataFrame is a Dataset organized into named columns. A Dataset is a distributed collection of data. 贴代码: package february.sql import org.apache.spark.sql.SparkSession /** * Description: ...原创 2019-02-27 09:39:03 · 3475 阅读 · 0 评论 -
RDD转换为DataFrame【反射/编程】
先贴代码 package february.sql import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} import org.apache.spark.sql.{Row, SparkSession} /** * Description: ============Spark...原创 2019-02-25 20:32:54 · 504 阅读 · 0 评论 -
WordCount程序【Spark Streaming版本】
~~ 前置 ~~ Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafka package february.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * ...原创 2019-02-22 16:48:53 · 335 阅读 · 3 评论 -
基于RDD实现简单的WordCount程序【含环境搭建】
写在前面 因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。 然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。 废话不多说,我们直接干吧。 开发环境 本地开发 工具 版本 Spark 2.2.0 Scala 2...原创 2019-02-21 10:45:58 · 829 阅读 · 0 评论