大数据
李海成
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSQL入门
解析github上spark的例子 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和操作RDD。对于sql,使用sqlContext。但是随着DataSet和DataFrame的API逐渐成为标准的API,就需要为他们建立接入点。所以在spark2.0中,引入SparkSession作为DataSet和...原创 2018-09-05 19:28:09 · 332 阅读 · 0 评论 -
spark、hive、MR数据清洗的区别
Q: 如题三者都可以进行数据清洗,区别是什么?各自使用场景是什么? A: Spark处理任务比MR快,但是对内存消耗是很大的。 多数场景优先考虑hive进行数据清洗,少部分会单独编写MR或者Spark程序进行复杂处理。 Spark自然适合实时数据处理,例如公司现在放贷业务需要30s放款或拒绝,spark是最合适的。 如果不要求实时处理,只是单纯数据量大,MR则是合适的选择。 现在在做...原创 2018-09-04 21:42:00 · 4937 阅读 · 0 评论 -
大数据处理流程
Q: 大数据处理的流程是什么,需要对应掌握哪些技能? A: 1、数据采集 flume:数据采集与聚合 2、数据清洗 对脏数据进行清洗 spark、Hive、MR、或其他 清洗之后可以存放到HDFS(Hive、Spark SQL) 3、数据处理 按照业务逻辑处理数据 spark、Hive、MR、或其他 4、处理结果入库 ...原创 2018-09-04 21:56:35 · 2728 阅读 · 0 评论 -
设置idea本地测试spark的log日志量
需求: 运行时log打印太多,以至于找不到有用信息,需要减少log量 解决: import org.apache.log4j._ object SparkStatFormatJob { Logger.getLogger("org").setLevel(Level.ERROR) } 较早版本的spark也可以用 val sc = new SparkContext(conf) sc....原创 2018-09-04 23:11:52 · 1567 阅读 · 0 评论 -
flume配置
agent1.sources = source1 agent1.sinks = sink1 agent1.channels = channel1 source: agent1.sources.source1.channels = channel1 # 监听目录 agent1.sources.source1.type = spooldir agent1.sources.source1.spo...原创 2018-09-18 10:42:47 · 275 阅读 · 0 评论 -
sqoop并发度如果太小会怎么样
问题:sqoop 导入数据报内存溢出 解决:-m 100改成1024 思考:之前一直以为sqoop -m参数设置的太小只会影响运行时间。 结果昨天-m 100的时候一直崩,mentor设置成1024就解决了。...原创 2018-09-28 10:35:29 · 1863 阅读 · 0 评论
分享