
spark
文章平均质量分 64
mach_learn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark sql on hive安装问题解析
安装spark时,默认的spark assembly 不包含hive支持。spark官网上说明“Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly.” ,要想spark sql在hive上运行,需要编辑与自己使原创 2015-01-06 11:19:05 · 6601 阅读 · 0 评论 -
spark on yarn运行产生缺jar包错误及解决办法
spark在很多时候由于配置的原因造成缺少jar包的情况,本文介绍了两种缺少jar包情况,并介绍了如何使用spark-submit的--jars和--driver-class-path参数将jar包动态调用。原创 2014-12-09 15:42:05 · 9922 阅读 · 1 评论 -
spark 1.3.0 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。 DataFrame将数据写入hive中时,默认的是hive默认数据库,insertInto没有指定数据库的参数,本文使用了下面方式将数据写入hive表或者hive表的分区中,仅供参考。原创 2015-04-03 11:41:21 · 7925 阅读 · 1 评论 -
spark1.3.0 on yarn 构建(hive0.12.0)
1、编译spark源文件 下载spark时,可以选择对应自己hadoop版本的pre-built版下载最新spark1.3.0。 如果没有自己hadoop版本对应的预构建版本,或者spark对应的hive版本不一致等都需要重新构建 构建方法详情见spark官网网址为https://spark.apache.org/docs/latest/building-spark.html 本文是使用m原创 2015-04-03 14:37:38 · 935 阅读 · 0 评论 -
spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。原创 2015-05-14 14:02:51 · 8551 阅读 · 11 评论 -
Spark 批量写数据入HBase
介绍 工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。原创 2015-06-02 15:26:22 · 3762 阅读 · 4 评论 -
Spark 基于item和user 的协同过滤实现
mahout已经提供了 item-based cf 算法,但是要想在 mahout 算法上修改item-based cf 相对来说比较繁琐,比如改进相似度或者改进推荐结果计算公式,更加令人头疼的是mahout 修改比较难调试,相比来说 spark 实现起来更加简单方便,同时 spark shell 在调试阶段特别方便。本文使用 spark 编写了 item-based和 user-based 两种协同过虑算法。原创 2015-07-15 11:31:21 · 12290 阅读 · 4 评论