使用MapReduce对日志数据进行简单的清理和总结

By | 2018年9月19日

使用MapReduce和spark对日志数据进行简单的清理和总结

首先使用MapReduce对日志进行分割,将time,ip,url提取出来,在用reduce进行一个整合,根据ip地址的出现次数,打印到hdfs中。在整合中我使用了bean结构来存储数据,bean继承了WritableComparable接口。

使用时先将BaiduLog和LogBean两个类导入项目,并配置相应的Maven依赖,然后导出项目的jar到虚拟机中,将日志文件上传到HDFS中,使用命令运行

hadoop jar rain-hadoop-1.0-SNAPSHOT.jar com.rain.mapreduce.BaiduLog /data/baidu.log /data/log/clean5

BaiduLog.java

LogBean.java

发表评论

电子邮件地址不会被公开。 必填项已用*标注