Skip to content

转换之连接组件

连接是转换里面的将多个数据集(数据流)通过关键字进行连接起来,形成一个数据集的过程。

1. 合并记录

Alt text 合并记录是用于将两个不同来源的数据合并,这个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。注意旧数据和新数据需要事先按照关键字段排序,并且旧数据和新数据要有相同的字段名称。
合并后的数据包括旧数据来源和新数据来源的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果中用一个标识字段,用来指定新旧数据的比较结果。

  1. 旧数据源:选择旧数据来源。
  2. 新数据源:选择新数据来源。
  3. 标志字段:设置标识字段的名称,标识字段用于保存比较的结果,比较结果有以下几种:
    • "identical" - 旧数据和新数据一样
    • "changed" - 数据发生了变化
    • "new" - 新数据中有而旧数据没有的记录
    • "deleted" - 旧数据有而新数据中没有的记录
  4. 关键字段:用于定位两个数据源中的同一条记录的字段
  5. 比较字段:对于两个数据源中的同一条记录,指定需要比较的字段

先排序:
Alt text 合并记录:
Alt text 运行结果:
Alt text

2. 记录集连接

Alt text 记录集连接可以对两个步骤中的数据流进行左连接,右连接,内连接,外连接。但是需要注意在进行记录集连接之前,需要对记录集的数据进行排序,并且排序的字段还一定要选择两个表关联的字段,否则数据混乱,出现null值。操作步骤如下:

  1. 选择需要连接的两个数据流
  2. 选择连接类型(inner、left outer,right outer,full outer)
  3. 从两个数据流步骤选出连接字段

先排序,两个排序时必须按照相同字段排序 Alt text 运行结果-左连接 Alt text

警告

两个记录集排序要求排序规则完全一样,包括相同的字段和排序规则。