转换之连接组件
连接是转换里面的将多个数据集(数据流)通过关键字进行连接起来,形成一个数据集的过程。
1. 合并记录
合并记录是用于将两个不同来源的数据合并,这个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。注意旧数据和新数据需要事先按照关键字段排序,并且旧数据和新数据要有相同的字段名称。
合并后的数据包括旧数据来源和新数据来源的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果中用一个标识字段,用来指定新旧数据的比较结果。
- 旧数据源:选择旧数据来源。
- 新数据源:选择新数据来源。
- 标志字段:设置标识字段的名称,标识字段用于保存比较的结果,比较结果有以下几种:
- "identical" - 旧数据和新数据一样
- "changed" - 数据发生了变化
- "new" - 新数据中有而旧数据没有的记录
- "deleted" - 旧数据有而新数据中没有的记录
- 关键字段:用于定位两个数据源中的同一条记录的字段
- 比较字段:对于两个数据源中的同一条记录,指定需要比较的字段
先排序: 合并记录:
运行结果:
2. 记录集连接
记录集连接可以对两个步骤中的数据流进行左连接,右连接,内连接,外连接。但是需要注意在进行记录集连接之前,需要对记录集的数据进行排序,并且排序的字段还一定要选择两个表关联的字段,否则数据混乱,出现null值。操作步骤如下:
- 选择需要连接的两个数据流
- 选择连接类型(inner、left outer,right outer,full outer)
- 从两个数据流步骤选出连接字段
先排序,两个排序时必须按照相同字段排序 运行结果-左连接
警告
两个记录集排序要求排序规则完全一样,包括相同的字段和排序规则。