选择器单数据源多出口步骤详解
方法/步骤
1
1、准备工作 在/opt/module/flume/job目录下创建group1文件夹
2
在/opt/module/datas/目录下创建flume3文件夹
3
2、创建flume-file-flume.conf配置1个接收日志文件的source和两个channel、两个sink,分别输送给flume-flume-hdfs和flume-flume-dir。创建配置文件并打开
4
添加如下内容
5
注:Avro是由Hadoop创始人Doug Cutting创建的一种语言无关的数据序列化和RPC框架。注:RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。
6
3、创建flume-flume-hdfs.conf配置上级Flume输出的Source,输出是到HDFS的Sink。创建配置文件并打开
7
添加如下内容
8
4、创建flume-flume-dir.conf配置上级Flume输出的Source,输出是到本地目录的Sink。创建配置文件并打开
9
添加如下内容
10
提示:输出的本地目录必须是已经存在的目录,如果该目录不存在,并不会创建新的目录。
11
5、执行配置文件分别开启对应配置文件:flume-flume-dir,flume-flume-hdfs,flume-file-flume。
12
6、启动Hadoop和Hive
13
7、检查HDFS上数据
14
8、检查/opt/module/datas/flume3目录中数据
下一篇:考古界不敢公开的秘密