流式计算引擎中密集滑动窗口的性能优化研究

打开文本图片集
关键词:大数据;流式计算;窗口计算;Flink
中图分类号:TP316.4 文献标识码:A
1引言(Introduction)
在大数据技术发展早期,批处理技术应用广泛,如阿帕奇软件基金会开发的Hadoop MapReduce框架、加州大学伯克利分校开发的Spark框架等,取得了令人瞩目的成果[1];但随着业务要求的不断提高,离线计算高延迟的弊端逐渐暴露,流式计算引擎应运而生,包括最早由推特公司开发的Storm框架、Spark框架的流计算扩展Spark Streaming、谷歌公司开发的Google Dataflow框架、最早由柏林工业大学开发的Flink框架等[2],它们能在数据连续到达的同时进行实时计算,被广泛应用在对时间性要求很高的场景中。(剩余5881字)