在这种多个组件的组合中,常常会涉及组件的启动顺序问题,如果顺序不对会报错。一般来说顺序如下:
(1)启动flume日志收集,尤其是里面的sink连接的那个组件要在这一步之后启动
(2)如果要向flume中的source指定的hostname:port发送信息,该程序一定在上一步之后
(3)启动kafka,获取flume发来的日志信息,因为这一步要连接flume中的sink,一定是(1)之后,否则会有 Connection refused等错误
(4)spark streaming 从kafka 中读取信息

本文介绍了在使用Flume、Kafka及Spark Streaming等大数据组件时正确的启动顺序,避免因顺序不当导致的连接拒绝等问题。首先启动Flume日志收集组件及其sink,接着启动向Flume source发送信息的程序,然后启动Kafka接收Flume发送的日志信息,最后由Spark Streaming从Kafka中读取这些信息。
337

被折叠的 条评论
为什么被折叠?



