实时计算
实时计算一般是指通过流处理方式计算当日的数据都算是实时计算。也会有一些准实时计算,利用离线框架通过批处理完成(小时、10分钟级)的计算,一般为过渡产品,不能算是实时计算。
1. 实时计算特点
1.1 局部计算
每次计算以输入的每条数据,或者微批次、小窗口的数据范围进行计算,没法像离线数据一样能够基于当日全部数据进行统计排序分组。
1.2 开发成本较高
相比离线的批处理SQL,实时计算需要通过代码,往往需要对接多种数据容器完成,相对开发较为复杂。
1.3 资源成本较高
实时计算虽然单位时间内数据量不如批处理,但是需要 24 小时不停进行运行,一旦计算资源投入就无法释放,所以每个任务都要合理分配资源。
1.4 时效性
实时计算往往对时效性有一定的要求,所以要尽量优化整个计算链,减少计算过程中的中间环节。
1.5 可视化性
因为数据是不断变化的,所以相对于严谨整齐的离线报表,实时数据更寄希望通过图形化的手段能够及时的观察到数据趋势。
2. 数仓架构设计
2.1 离线架构
