java正则匹配读取txt文件提取特定开头和结尾的字符串

   2023-02-09 学习力0
核心提示:目录前言一、使用FileInputStream处理二、使用正则开始匹配1.匹配规则书写2.pattern代码案例总结 前言前天刚入职的算法同事,过来问我怎么提取txt文件中的数据,我一看这还不简单,结果…搞了好久。正则不用真的会忘记,写篇博客增加一下记忆吧。需求:提取t

前言

前天刚入职的算法同事,过来问我怎么提取txt文件中的数据,我一看这还不简单,结果…搞了好久。

正则不用真的会忘记,写篇博客增加一下记忆吧。

需求:提取txt文件中,有特定开头(双引号) ,特定结尾(双引号) 的中间的数据,打印出来

一、使用FileInputStream处理

FileInputStream:是java中的字节输入流,就是通过字节的形式进行读取

构造方法 可以通过传递指定打开文件的路径字符串,来创建FileInputStrem对象

new FileInputStrem("文件路径")  

InputStremReader 是连接字节流和字符流之间的桥梁,我们通过 new InputStremReader() 的构造方法,传递一个FileInputStrem对象,和一个编码格式,这个编码格式具体根据你要读取文件的编码格式

InputStreamReader(file,"UTF-8");

编码格式可以打开txt文件在右下角查看

java正则匹配读取txt文件提取特定开头和结尾的字符串

// 这里利用了一下小技巧就是 我这个同事给我的文件 每个要提取的数据都在同一行内,所以可以通过每行读取。

        while ((line = br.readLine()) != null) {
            System.out.println(getPatternCode(line,rgex));
        }

二、使用正则开始匹配

1.匹配规则书写

正则表达式匹配规则 这里是以 (ox) 开始 以“ 结尾
这里的第一对括号防止防止转义 所以加了\
然后()表示一个子表达式的开始和结尾 要匹配这两个字符的话 就用上面的\
.表示匹配任意
*表示匹配任意多个
\” 表示匹配最后字符
这里的规则大概就是这样,可以根据需要自己匹配

String rgex = "\\(0x\\)(.*?)\"";

2.pattern

pattern是正则表达式的编译形式 匹配的模式
Pattern.compile 是获取Pattern实例,Pattern的构造器是私有的,只能通过compile方法获取

Pattern pattern = Pattern.compile(rgex);

matcher类也是私有的,只能通过pattern.matcher来创建,
构造方法传递一个参数时,返回一个matcher实例,是匹配上的字符串
构造方法传递两个参数时,返回一个boolean值,表示是否匹配上指定的字符串

Matcher m = pattern.matcher(string);

m.find() 是部分匹配,
从给定的字符串开始匹配,第一次匹配到之后 如果没有重置,则会从上次匹配到的最后一个字符的下一位开始往后匹配
匹配成功后会返回 true

m.find()

m.group() 是返回匹配的数据
group(0) 是返回原始匹配的数据
group(1) 是返回第一次匹配到的数据

m.group(1);

代码案例

package fileOperation;

import java.io.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @program: solution
 * @description: 读取文件 利用正则表达式筛选数据
 * @author: Wang Hai Xin
 * @create: 2022-10-24 18:52
 **/
public class txtFiltration {

    public static void main(String[] args) throws IOException {
        /**/
        FileInputStream file = new FileInputStream("C:\\project\\solution\\src\\main\\java\\fileOperation\\djk-Log 2022-10-21 17_48_06.txt");
        /*指定文件类型*/
        InputStreamReader isr = new InputStreamReader(file, "UTF-8");

        BufferedReader br = new BufferedReader(isr);

        /*匹配规则*/
        String rgex = "\\(0x\\)(.*?)\"";

        String line = null;
        while ((line = br.readLine()) != null) {
            System.out.println(getPatternCode(line,rgex));
        }
    }
    
    public static String getPatternCode(String string, String rgex){
        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(string);
        while (m.find()) {
            return m.group(1);
        }
        return null;
    }
}

效果展示,直接将结果从控制台复制使用即可

注意:控制台展示的数目有限,如果出现前半部分丢失, 可能是控制台展示的数据达到上限,可以通过输出到指定文件或者exel文件中

java正则匹配读取txt文件提取特定开头和结尾的字符串

总结 

原文地址:https://blog.csdn.net/qq_44850489/article/details/127507967
 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • #新闻拍一拍# Oracle 调研如何避免让 Java 开发者投奔 Rust 和 Kotlin | Linux 中国
    #新闻拍一拍# Oracle 调研如何避免让 Java 开发
     导读:• 英特尔对迟迟不被 Linux 主线接受的 SGX Enclave 进行了第 38 次修订 • ARM 支持开源的 Panfrost Gallium3D 驱动本文字数:977,阅读时长大约:1分钟作者:硬核老王Oracle 调研如何避免让 Java 开发者投奔 Rust 和 KotlinOracle 委托分析公司 Omd
    03-08
  • oogle的“ JavaScript杀手” Dart 与JavaScript的比较
    oogle的“ JavaScript杀手” Dart 与JavaScript
    JavaScript通常被称为浏览器脚本语言,但它也已扩展到许多服务器端和移动应用程序开发环境。JS已经存在了将近20年,可以肯定地说它确实是一种成熟且稳定的编程语言。在Facebook发布React和React Native框架之后,JS变得越来越流行。JavaScript具有自己的软件
    03-08
  • sf02_选择排序算法Java Python rust 实现
    Java 实现package common;public class SimpleArithmetic {/** * 选择排序 * 输入整形数组:a[n] 【4、5、3、7】 * 1. 取数组编号为i(i属于[0 , n-2])的数组值 a[i],即第一重循环 * 2. 假定a[i]为数组a[k](k属于[i,n-1])中的最小值a[min],即执行初始化 min =i
    02-09
  • Delphi XE6 通过JavaScript API调用百度地图
    Delphi XE6 通过JavaScript API调用百度地图
    参考昨天的内容,有朋友还是问如何调用百度地图,也是,谁让咱都在国内呢,没办法,你懂的。 首先去申请个Key,然后看一下百度JavaScript的第一个例子:http://developer.baidu.com/map/jsdemo.htm下一步,就是把例子中的代码,移动TWebBrower中。 unit Unit
    02-09
  • JavaScript面向对象轻松入门之抽象(demo by ES5
    抽象的概念  狭义的抽象,也就是代码里的抽象,就是把一些相关联的业务逻辑分离成属性和方法(行为),这些属性和方法就可以构成一个对象。  这种抽象是为了把难以理解的代码归纳成与现实世界关联的概念,比如小狗这样一个对象:属性可以归纳出“毛色”、
    02-09
  • Java与Objective-C的渊源 objective-c和c++的区
    java创始成员Patrick Naughton回忆,通常人们会认为Java是学Modula-3和C+,其实这些都是谣传,而对Java影响比较大的则是Objective-C:单 继承、动态绑定和加载、类对象、纯虚函数、反射、原始类型包装类等。Java的接口直接抄自OC的协议。  Objective-C是扩
    02-09
  • Java项目导出数据为 PDF 文件的操作代码
    Java项目导出数据为 PDF 文件的操作代码
    目录Java项目如何导出数据为 PDF 文件?一、代码结构如下二、代码说明1、添加依赖 pom.xml2、HTML模板文件 audit_order_record.html3、添加字体4、PDF 导出工具类5、导出接口6、打开浏览器测试三、效果图Java项目如何导出数据为 PDF 文件?一个小需求,需要将
  • 盘点Java中延时任务的多种实现方式 java 延时队列怎么实现
    盘点Java中延时任务的多种实现方式 java 延时队
    目录场景描述实现方式一、挂起线程二、ScheduledExecutorService 延迟任务线程池三、DelayQueue(延时队列)四、Redis-为key指定超时时长,并监听失效key五、时间轮六、消息队列-延迟队列场景描述①需要实现一个定时发布系统通告的功能,如何实现? ②支付超时
  • Java Semaphore信号量使用分析讲解
    Java Semaphore信号量使用分析讲解
    目录前言介绍和使用API介绍基本使用原理介绍获取许可acquire()释放许可release()总结前言大家应该都用过synchronized 关键字加锁,用来保证某个时刻只允许一个线程运行。那么如果控制某个时刻允许指定数量的线程执行,有什么好的办法呢? 答案就是JUC提供的信
  • 【Java并发入门】03 互斥锁(上):解决原子性问题
    【Java并发入门】03 互斥锁(上):解决原子性
    原子性问题的源头是线程切换Q:如果禁用 CPU 线程切换是不是就解决这个问题了?A:单核 CPU 可行,但到了多核 CPU 的时候,有可能是不同的核在处理同一个变量,即便不切换线程,也有问题。所以,解决原子性的关键是「同一时刻只有一个线程处理该变量,也被称
    02-09
点击排行