大数据读hdfs文件笔记

报错:

Exception in thread "main" java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.conf.Configuration

可能缺少commons-collections-3.2.2.jar、guava-11.0.2.jar(各版本不定自选)

报错:

Exception in thread "main" java.lang.NoClassDefFoundError: com/google/protobuf/ServiceException

可能缺少:protobuf-java-2.5.0.jar

报错:

Exception in thread "main" java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.security.UserGroupInformation

可能缺少:commons-configuration.jar、hadoop-auth-2.7.1.jar

### 关于大数据相关书籍及学习资料的推荐 对于希望深入理解并掌握大数据技术的学习者来说,以下是几本经典书籍以及一些高质量的学习资源: #### 1. **《大数据技术与实践》** 这本书提供了全面的大数据技术体系介绍,涵盖了从日志采集到数据同步、离线计算再到实时计算等多个方面的内容[^3]。书中不仅详细描述了具体的技术实现方法,还针对实际应用场景中的常见问题给出了有效的解决方案。 #### 2. **Hadoop生态系统的入门指南** 如果目标是了解如何构建基于Hadoop的数据处理平台,则可以参考一份专注于Hadoop的工作笔记。此文档特别提到了利用Flume来进行高效日志收集,并将其保存至HDFS或HBase中[^4]。这为初学者提供了一个清晰的操作路径来熟悉分布式文件系统及其周边工具链。 #### 3. **综合性的在线课程与教程** 除了纸质书之外,在网络上也有许多优质的视频讲座和互动练习可以帮助巩固理论知识。例如,“大数据产业”的定义及相关企业经济活动分析能够帮助我们更好地认识整个行业的背景和发展趋势[^1];而另一份材料则按照不同层次划分出了完整的技能树结构,适合按部就班地提升个人能力水平[^2]。 ```python # 示例代码展示简单的MapReduce逻辑 def map_function(data_chunk): results = [] for record in data_chunk: key, value = process_record(record) results.append((key,value)) return results def reduce_function(key_values_pair_list): aggregated_result={} for k,v in key_values_pair_list: if not k in aggregated_result.keys(): aggregated_result[k]=[] aggregated_result[k].append(v) final_output={k:sum(vs)/len(vs)for k,vs in aggregated_result.items()} return final_output ``` 以上就是关于大数据领域内值得阅的一些参考资料汇总。每种形式都有其独特的优势所在,可以根据自己的偏好选择最适合的方式开启这段旅程!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值