Skip to content

文本处理工具

1. cut

cut 的工作就是"剪",具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出 基本用法 cut [选项参数] filename 说明:默认分隔符是制表符

选项参数功能
-f列号,提取第几列
-d分隔符,按照指定分隔符分割列,默认是制表符"\t"
-c按字符进行切割 后加加 n 表示取第几列 比如 -c 1
sh
[root@hadoop100 shell_learn]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1,6,7
root:/root:/bin/bash
jack:/home/jack:/bin/bash

2. awk

一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。

2.1 基本用法

awk [选项参数] '/pattern1/{action1} /pattern2/{action2}...' filename, 其中:

  • pattern:表示 awk 在数据中查找的内容,就是匹配模式
  • action:在找到匹配内容时所执行的一系列命令
选项参数功能
-F指定输入文件分隔符
-v赋值一个用户定义变量

awk的内置变量

变量说明
FILENAME文件名
NR已读的记录数(行号)
NF浏览记录的域的个数(切割后,列的个数)
sh
[root@hadoop100 shell_learn]# cat /etc/passwd | awk -F':' 'BEGIN{print "hello"}{print $1","$7}END{print "end of file"}'
hello
root,/bin/bash
bin,/sbin/nologin
daemon,/sbin/nologin
adm,/sbin/nologin
lp,/sbin/nologin
sync,/bin/sync
shutdown,/sbin/shutdown
halt,/sbin/halt
mail,/sbin/nologin
operator,/sbin/nologin
games,/sbin/nologin
ftp,/sbin/nologin
nobody,/sbin/nologin
systemd-network,/sbin/nologin
dbus,/sbin/nologin
polkitd,/sbin/nologin
sshd,/sbin/nologin
postfix,/sbin/nologin
chrony,/sbin/nologin
jack,/bin/bash
end of file

其中在action中内置提供了print操作,BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行

sh
## 将 passwd 文件中的用户 id 增加数值 1 并输出
[root@hadoop100 shell_learn]# [root@hadoop100 shell_learn]# cat /etc/passwd | awk -v i=1 -F":" '/bash$/{print $3+i}'
1
1001
## 查询 ifconfig 命令输出结果中的空行所在的行号
[root@hadoop100 shell_learn]# ifconfig | awk -F " " '/^$/{print "空行行号:"NR}'
空行行号:9
空行行号:18

3. grep

grep(global regular expression print)用于搜索文本数据并输出匹配的行。

3.1 常用命令和选项

  1. 基本命令
sh
grep "搜索内容" filename
  1. 忽略大小写
sh
## 忽略匹配内容的大小写
grep "搜索内容" filename
  1. 显示行号
sh
grep -n "搜索内容" filename
  1. 反向匹配
sh
## 显示不包含 "搜索内容" 的行。
grep -v "搜索内容" filename
  1. 限制匹配行数
sh
grep -m 5 "搜索内容" filename
  1. 递归搜索
sh
grep -r "搜索内容" /path/to/directory
  1. 上下文行
sh
## 显示匹配行及其前后各 3 行的上下文
grep -C 3 "搜索内容" filename

3.2 日志分析

sh
## 查找Exception的日志
[jack@hadoop102 log]$  grep -ni -m 2 -C 3 'Exception' flink-jack-standalonesession-0-hadoop102.log
331-2025-02-20 21:56:15,357 INFO  org.apache.flink.runtime.resourcemanager.slotmanager.DefaultSlotStatusSyncer [] - Starting allocation of slot 1237a1bef5e361eeb939ce644f7f9129 from localhost:36468-a42662 for job e21b5380553d598c24e965d0e9285a05 with resource profile ResourceProfile{cpuCores=1, taskHeapMemory=96.000mb (100663293 bytes), taskOffHeapMemory=0 bytes, managedMemory=128.000mb (134217730 bytes), networkMemory=32.000mb (33554432 bytes)}.
332-2025-02-20 21:56:15,438 INFO  org.apache.flink.runtime.executiongraph.ExecutionGraph       [] - Source: kafka_data[1] -> Sink: Collect table sink (1/1) (b76f1441c28fb75b65b0b9c59d1d3557_cbc357ccb763df2852fee8c4fc7d55f2_0_0) switched from SCHEDULED to DEPLOYING.
333-2025-02-20 21:56:15,439 INFO  org.apache.flink.runtime.executiongraph.ExecutionGraph       [] - Deploying Source: kafka_data[1] -> Sink: Collect table sink (1/1) (attempt #0) with attempt id b76f1441c28fb75b65b0b9c59d1d3557_cbc357ccb763df2852fee8c4fc7d55f2_0_0 and vertex id cbc357ccb763df2852fee8c4fc7d55f2_0 to localhost:36468-a42662 @ localhost (dataPort=44544) with allocation id 1237a1bef5e361eeb939ce644f7f9129
334:2025-02-20 21:56:15,767 ERROR org.apache.flink.runtime.source.coordinator.SourceCoordinatorContext [] - Exception while handling result from async call in SourceCoordinator-Source: kafka_data[1]. Triggering job failover.
335:org.apache.flink.util.FlinkRuntimeException: Failed to list subscribed topic partitions due to 
336-    at org.apache.flink.connector.kafka.source.enumerator.KafkaSourceEnumerator.checkPartitionChanges(KafkaSourceEnumerator.java:248) ~[flink-sql-connector-kafka-3.3.0-1.19.jar:3.3.0-1.19]
337-    at org.apache.flink.runtime.source.coordinator.ExecutorNotifier.lambda$null$4(ExecutorNotifier.java:133) ~[flink-dist-1.17.2.jar:1.17.2]
338-    at org.apache.flink.util.ThrowableCatchingRunnable.run(ThrowableCatchingRunnable.java:40) [flink-dist-1.17.2.jar:1.17.2]