grep正则表达式及sort、diff等相关命令

   2017-01-06 0
核心提示:Linux文本处理三剑客:grep:文本过滤工具(模式:patter)sed:stream editor 流编辑器,文本编辑工具awk:linux上的实现gawk,文本报告生成器(格式化文本)* 正则表达式:Regular Expression,REGEXP,由一类特殊字符及文本字符所编写的模式,其中有些字符

Linux文本处理三剑客:

grep:文本过滤工具(模式:patter)

sed:stream editor 流编辑器,文本编辑工具

awk:linux上的实现gawk,文本报告生成器(格式化文本)

* 正则表达式:Regular Expression,REGEXP,由一类特殊字符及文本字符所编写的模式,其中有些字符其不表达字面意义,而是用于表示控制或者通配的功能;

* 分类: 基本正则表达式:BRE;扩展正则表达式:ERE

* 元字符:\(hello[[:space:]]\+\)\+ 匹配模式

grep :Global search REgular expression and Print out the line.

作用:文本搜索工具,根据用户指定的"模式(过滤条件)" 对目标文件逐行进行匹配检查,打印匹配到的行

模式:由正则表达式的元字符及文本字符所编写的过滤条件
  • 正则表达式引擎:

    grep:支持正则表达式,-E:支持扩展表达式
    egrep:扩展正则表达式,-G支持正则表达式

    grep [OPTIONS] PATTERN [FILE…] grep [OPTIONS] [-e PATTERN | -f FILE] [FILE…] -i:ignorecase 忽略字符大小写 -o:仅显示匹配的字符的字符 -v:反向显示不匹配的信息 -E:支持使用扩展的正则表达式元字符 -q: –quite 安静不输出信息,通过echo $?获取是否匹配,即执行是否成功 -A #:输出匹配的后#行数,与-B相反 -C #:前后指定#行数, -A,-B,-C,上下文之意

  • 基本正则表达式元字符:

    字符匹配
        .:匹配任意单个字符 eg:grep “r..t" /etc/passwd
        []:匹配指定范围内的任意单个字符
        [^]:匹配指定范围外的任意单个字符
        [:lower:],[:upper:],[:digit:],[:alpha:],[:alnum:]
    
    匹配次数:用于要指定其出现次数的字符后面,用于限制其前面字符出现的次数
        *: 匹配其前面的字符任意次:0,1,多次;
         eg:grep "x*y"  abxy,aby,yab,xxxy
        .*:匹配任意长度的任意字符
           eg: grep "r.*" /etc/passwd ,贪吃蛇模式
        \?:匹配其前面的字符出现0,1;即前面的字符可有可无
        \+:匹配其前面的字符至少1次,或多次
        \{m\}:匹配前面的字符m次
        \{m,n\}:匹配前面的字符至少m,至多出现n次
        \{0,n\}:匹配前面的字符至多n
        \{m,\}:匹配前面的字符至少m
    
    位置锚定
        ^: 行首锚定;用于模式的最左侧
        $: 行尾锚定;用于模式的最右侧
          eg:^PATTERN$ 匹配正行
               ^$:空白行;
             ^[[:space:]]*$: 空白或包含空白的字符的行
             单词锚定:非特殊字符组成的 连续字符都称为单词
             \<或者 \b;词首 \>,\b:词尾 \<PATTERN\> 精确锚定单词

    练习:

    1,显示/etc/passwd文件中不以/bin/bash结束的行

    2,找出/etc/passwd文件中两位数或者三位数

    3,找出”netstat -tan“ 命令结果中以‘LISTEN'后跟0,1,多个空白字符的行

    分组及引用
             \(\):将一个或者多个字符捆绑在一起,当一个整体进行处理
    
            注意:分组括号中的模式匹配到的内容会被正则表达式引擎自动记录与内部的变量中,这些变量:
            \1:模式冲左侧起,第一个左括号以及与之匹配的右括号之间的模式匹配的字符
            \2:模式冲左侧起,第二个左括号以及与之匹配的右括号之间的模式匹配的字符
            \3:模式冲左侧起,第三个左括号以及与之匹配的右括号之间的模式匹配的字符
            ...
            He loves his lover
            He likes His lover.
            She like her likes
            She loves her liker
    
            grep "\(r..t\).*\1"  file  ;后向引用:引用前面的分组括号中模式所匹配到的字符
    
            eg: root:sdf;asdfkajs;dlfjroot.fasdf;asdf  这个文本中出现了两个root字符串
    1. ~]#grep "^[[:space:]]\\+" ;以空格字符为行首,至少出现一次 

    2. ~]#grep "LISTEN*$" ; 以LISTEN结束的行,后面可有可无的字符

    1. ~]#grep "\\<[0-9]\\{2,3\\}\\>" /etc/passwd

    2. ~]#grep "LISTEN*$" ; 以LISTEN结束的行,后面可有可无的字符 

    3. ~]#grep -E "\\<[0-9]{2,3}\\>" /etc/passwd 或者 egrep  "\\<[0-9]{2,3}\\>" 这是扩展正则表达式

    1. ~]#grep -v "/bin/bash" /etc/passwd

egrep:扩展正则表达式(grep -E)

    egrep     [OPTIONS] PATTERN [FILE....]
    -i,-o,-v,-q,-A,-B,-C
    -G:支持基本正则表达式
    扩展正则表达式的元字符
    字符匹配:
        .:匹配任意单个字符 eg:grep “r..t" /etc/passwd
        []:匹配指定范围内的任意单个字符
        [^]:匹配指定范围外的任意单个字符
    次数匹配
        *:任意次,0,1,...
        ?:0,或者1次
        +:至少1次
        {m}:m次
        {m,n}:至少m次,至多n次
        {0,n}:至少0次,至多n次
        {m,}:,至少m次

    位置锚定
        ^:行首锚定
        $:行尾锚定
        \<,\b, 词首锚定
        \>,\b ,词尾锚定
    分组及引用
        ():分组,括号中匹配到的内容被表达式引擎记录于内部的变量中:后向引用,\1,\2,\3,...
        a|b:a或B
         (c|C)at:cat或Cat

练习:

1,找出/proc/meminfo文件中,所有在大写或者小写s开头的行,至少两种方式:

~]#grep -E "^(s|S)"  /proc/meminfo ~]#grep "^[sS]" /proc/meminfo ~]#grep -i "^s" /proc/meminfo ; -i不区分大小写 ~]#grep "^\\(s\\|S\\)" /proc/meminfo ; 基本正则表达式必须加转移字符

2,显示当前系统上root、centos或testbash用户的相关信息

~]#grep -E "^(root|centos|testbash)\\>" /etc/passwd ; 直接锚定词尾 ~]#grep "^(root\\|centos\\|testbash)\\>" /etc/passwd ; 直接锚定词尾

3,找出/etc/rc.d/init.d/functions文件中某单词后面 跟一个小括号的行

~]#grep -E "[_[:alnum:]]+\\(\\)" /etc/rc.d/init.d/functions ; 找出所有的函数了,[_[:alnum:]]+\\(\\) 这就是函数名的匹配模式元字符

4,使用echo命令输出一绝对路径,使用egrep取出基名

~]# echo /etc/rc.d/init.d/  | egrep -o "[^/]+/?$" ; 相当于basename

5,找出ifconfig命令结果之中1-255之间的数值

~]#egrep --color=auto "\\<[1-2][0-9][0-5]\\>"

6,找出ifconfig命令结果中的ip地址

~]#egrep "[1-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3}" ;ip地址,第一个字节应该不能为0吧

7,添加用户bash,testbash,basher以及nologin(shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行

~]#egrep "^([[:alpha:]]+\\>).*\\1$" /etc/passwd ; 这个只是利用字母表的表,下个这个更为准确 ~]#egrep "^([^:]+\\>).*\\1$"  /etc/passwd  ; 利用这个文件分隔符的特性,就行分割单词

fgrep:不支持正则表达式元字符:主要遇到大文件时,这个命令性能会更好

wc 命令

-l :行数
-w:单词数
-c:字节数

cut命令

-d:指定符号为分割符-d: 以冒号分隔符,只能单个分隔符
-f:需要显示的域 (-f#;-f#-#;-f#,#)
~]# cut -d':' -f1,6-7 /etc/passwd

sort命令 ;默认是第一个字符进行排序

-t CHAR: 指定分隔符
-k #:用于排序比较的字段
-n:基于数值大小排序
-r: 逆序排序
-f:忽略字符大小写
-u: 重复的行只保留一份
~]#    sort -t':' -k 3 -n /etc/passwd

uniq命令,报告或去掉重复的行

-u:只显示没有重复的行
-c:显示每行重复的数
-d:仅显示重复过的行
~]# cut -d':' -f 7 /etc/passwd | sort -u | wc -l  ; 统计有多少shell ~]# cut -d':' -f 7 /etc/passwd | sort | uniq -c  ; 统计各行重复的次数

注意:uniq是结合sort使用的,直接使用uniq,如果两个相同行不在一起,则是不能排除的,所以只有排序过后才能用uniq去掉重复行(也相当于-u参数)

diff命令:逐行比较文件的

-u 使用unfiled 机制,即系那是要修改行的上下文,

patch 打补丁

可以结合diff命令使用,新旧文件的不同之处统计统计出来

~]# diff passwd passwd.new  >passwd.patch  ; 对比两个文件的不同之处放入补丁包文件 ~]# patch -i passwd.patch passwd  ; 向旧文件打入补丁包文件内容 ~]# patch -R -i passwd.patch passwd ; 撤回已打入的补丁内容

1,取出eth0中的ip地址

ifconfig eth0 | grep -Ei "inet addr" | cut -d':' -f 2 | cut -d' ' -f1

还有join,tr,col,paste expand等相关命令

testInet

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 每天一条linux命令——halt
    halt命令用来关闭正在运行的Linux操作系统。halt命令会先检测系统的runlevel,若runlevel为0或6,则关闭系统,否则即调用shutdown来关闭系统。 语法:halt(选项)选项:-d:不要在wtmp中记录;-f:不论目前的runlevel为何,不调用shutdown即强制关闭系统;-i:
    02-10
  • 几个linux命令查看堆栈内存问题 几个linux命令
      公司编写代码,发现整个在程序里面调用system时候总是失败,原因是can't allocate memory ,根本原因不是内存不足,而是堆栈内存不够。使用ulimit -s 2048后有所好转但是发现一旦系统进程开启多了后仍然会挂。后来使用objdump -x 后发现了原因有个动态库
    02-09
  • Linux命令总结--rm命令 linux的rmp命令
    (来源于http://www.cnblogs.com/xqzt/p/5398919.html)1、命令简介rm(Remove file 删除目录或文件)删除文件,对于链接文件,只是删除整个链接文件,而原有文件保持不变。新手在删除文件之前一定要知道这些:很重要1.可以用mv代替rm的绝对不要用rm,不要着急
    02-09
  • Linux命令行批量创建目录详解 linux创建目录
    以前一直用-p创建目录链,觉得很方便了。在空目录/opt/app/myapp里创建src,再创建main,再创建javamkdir -p /opt/app/myapp/src/main/java没想到还可以这样玩##¥%……*(root@vm1:~/tmp# mkdir -p src/{{main,test}/{java,resources},main/webapp}root@vm1:
    02-09
  • Linux命令之乐--script和scriptplay
    script和scriptplay可以把终端会话记录到一个文件中,可以用来制作命令行教学视屏。 开始录制会话[root@new test]# script -t 2timing.log -a output.sessionScript started, file is output.session[root@new test]# echo hellohello[root@new test]# echo
    02-09
  • java 开发常用的Linux命令
    1.查找文件 find / -name filename.txt 根据名称查找/目录下的filename.txt文件。find . -name "*.xml" 递归查找所有的xml文件find . -name "*.xml" |xargs grep "hello world" 递归查找所有文件内容中包含hello world的xml文件grep -H 'spring' *.xml 查找所
    02-09
  • 常用Linux命令整理 Linux常用命令总结
    常用Linux命令整理常见系统命令export 查看或修改环境变量# 例:临时修改命令提示符为字符串$export PS1=$# 例:临时修改命令提示符显示系统时间 时间使用\t 表示export PS1="[\u@\h \t \W]\$"man 查看linux系统的手册# 例:查看ls命令如何使用man ls # 回车
    02-09 Linux
  • linux命令行—《命令行快速入门》 linux常用命令csdn
    linux命令行—《命令行快速入门》 linux常用命
    pwd print working directory 打印工作目录hostname my computer's network name 电脑在网络中的名称mkdir make directory 创建路径cd change directory 改变路径ls list directory 列出路径下的内容rmdir remove directory 删除路径pushd push directory 推
    02-09
  • Linux命令(五) 五个常用的linux命令
    Linux命令(五) 五个常用的linux命令
    jenkins触发钉钉报警机制1、安装钉钉插件钉钉报警需要安装Ding Talk插件,支持钉钉报警2、打开钉钉创建钉钉机器人2.1选择机器人类型——自定义2.2添加机器人2.3填写机器人信息填写机器人姓名—设置安全设置为加密类型,并复制出来加密值2.4创建完成保持webhoo
    02-09
  • 03_Linux基础-文件类型-主辅提示符-第1提示符-Linux命令-内外部命令-快捷键-改为英文编码-3个时间-stat-其他基础命令
    03_Linux基础-文件类型-主辅提示符-第1提示符-L
    03_Linux基础-文件类型-主辅提示符-第1提示符-Linux命令-内外部命令-快捷键-改为英文编码-3个时间-stat-{1..100}-du-cd-cp-file-mv-echo-id-shell-ln-env-set-which-rpm-/usr-/与/root-hostname-vim-cat-pwd-alias-unalias-ls-ASCII-wc-chmod博客
    02-09
点击排行