文本处理工具

1. cut

cut 的工作就是"剪"，具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出基本用法: cut [选项参数] filename 说明：默认分隔符是制表符

选项参数	功能
-f	列号，提取第几列
-d	分隔符，按照指定分隔符分割列，默认是制表符"\t"
-c	按字符进行切割后加加 n 表示取第几列比如 -c 1

[root@hadoop100 shell_learn]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1,6,7
root:/root:/bin/bash
jack:/home/jack:/bin/bash

2. awk

一个强大的文本分析工具，把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理。

2.1 基本用法

awk [选项参数] '/pattern1/{action1} /pattern2/{action2}...' filename, 其中：

pattern：表示 awk 在数据中查找的内容，就是匹配模式
action：在找到匹配内容时所执行的一系列命令

选项参数	功能
-F	指定输入文件分隔符
-v	赋值一个用户定义变量

awk的内置变量

变量	说明
FILENAME	文件名
NR	已读的记录数(行号)
NF	浏览记录的域的个数(切割后，列的个数)

[root@hadoop100 shell_learn]# cat /etc/passwd | awk -F':' 'BEGIN{print "hello"}{print $1","$7}END{print "end of file"}'
hello
root,/bin/bash
bin,/sbin/nologin
daemon,/sbin/nologin
adm,/sbin/nologin
lp,/sbin/nologin
sync,/bin/sync
shutdown,/sbin/shutdown
halt,/sbin/halt
mail,/sbin/nologin
operator,/sbin/nologin
games,/sbin/nologin
ftp,/sbin/nologin
nobody,/sbin/nologin
systemd-network,/sbin/nologin
dbus,/sbin/nologin
polkitd,/sbin/nologin
sshd,/sbin/nologin
postfix,/sbin/nologin
chrony,/sbin/nologin
jack,/bin/bash
end of file

其中在action中内置提供了print操作，BEGIN在所有数据读取行之前执行；END在所有数据执行之后执行

## 将passwd文件中的用户id增加数值1并输出
[root@hadoop100 shell_learn]# cat /etc/passwd | awk -v i=1 -F":" '/bash$/{print $3+i}'
1
1001
## 查询ifconfig命令输出结果中的空行所在的行号
[root@hadoop100 shell_learn]# ifconfig | awk -F " " '/^$/{print "空行行号："NR}'
空行行号：9
空行行号：18

3. grep

grep(global regular expression print)用于搜索文本数据并输出匹配的行。

3.1 常用命令和选项

基本命令

# -w表示全匹配搜索
grep -w "搜索内容" filename

忽略大小写

## 忽略匹配内容的大小写
grep "搜索内容" filename

显示行号

grep -n "搜索内容" filename

反向匹配

## 显示不包含 "搜索内容" 的行。
grep -v "搜索内容" filename

限制匹配行数

grep -m 5 "搜索内容" filename

递归搜索

grep -r "搜索内容" /path/to/directory

上下文行

## 显示匹配行及其前后各3行的上下文
grep -C 3 "搜索内容" filename

使用正则表达式匹配查找

# ^行首锚点 $行尾锚点
grep -E '^目标字符串$' 文件名

3.2 日志分析

## 查找Exception的日志
[jack@hadoop102 log]$  grep -ni -m 2 -C 3 'Exception' flink-jack-standalonesession-0-hadoop102.log
331-2025-02-20 21:56:15,357 INFO  org.apache.flink.runtime.resourcemanager.slotmanager.DefaultSlotStatusSyncer [] - Starting allocation of slot 1237a1bef5e361eeb939ce644f7f9129 from localhost:36468-a42662 for job e21b5380553d598c24e965d0e9285a05 with resource profile ResourceProfile{cpuCores=1, taskHeapMemory=96.000mb (100663293 bytes), taskOffHeapMemory=0 bytes, managedMemory=128.000mb (134217730 bytes), networkMemory=32.000mb (33554432 bytes)}.
332-2025-02-20 21:56:15,438 INFO  org.apache.flink.runtime.executiongraph.ExecutionGraph       [] - Source: kafka_data[1] -> Sink: Collect table sink (1/1) (b76f1441c28fb75b65b0b9c59d1d3557_cbc357ccb763df2852fee8c4fc7d55f2_0_0) switched from SCHEDULED to DEPLOYING.
333-2025-02-20 21:56:15,439 INFO  org.apache.flink.runtime.executiongraph.ExecutionGraph       [] - Deploying Source: kafka_data[1] -> Sink: Collect table sink (1/1) (attempt #0) with attempt id b76f1441c28fb75b65b0b9c59d1d3557_cbc357ccb763df2852fee8c4fc7d55f2_0_0 and vertex id cbc357ccb763df2852fee8c4fc7d55f2_0 to localhost:36468-a42662 @ localhost (dataPort=44544) with allocation id 1237a1bef5e361eeb939ce644f7f9129
334:2025-02-20 21:56:15,767 ERROR org.apache.flink.runtime.source.coordinator.SourceCoordinatorContext [] - Exception while handling result from async call in SourceCoordinator-Source: kafka_data[1]. Triggering job failover.
335:org.apache.flink.util.FlinkRuntimeException: Failed to list subscribed topic partitions due to 
336-    at org.apache.flink.connector.kafka.source.enumerator.KafkaSourceEnumerator.checkPartitionChanges(KafkaSourceEnumerator.java:248) ~[flink-sql-connector-kafka-3.3.0-1.19.jar:3.3.0-1.19]
337-    at org.apache.flink.runtime.source.coordinator.ExecutorNotifier.lambda$null$4(ExecutorNotifier.java:133) ~[flink-dist-1.17.2.jar:1.17.2]
338-    at org.apache.flink.util.ThrowableCatchingRunnable.run(ThrowableCatchingRunnable.java:40) [flink-dist-1.17.2.jar:1.17.2]

文本处理工具 ​

1. cut ​

2. awk ​

2.1 基本用法 ​

3. grep ​

3.1 常用命令和选项 ​

3.2 日志分析 ​