去除字符串中的HTML标签

   2023-03-08 学习力0
核心提示:背景:Kindeditor内容保存在数据库中的类型是text,包含文字和HTML标签。需求:显示内容的前50个字(纯文字内容)方法:将字段查出去除标签,截取前50  1 import java.util.regex.Matcher; 2 import java.util.regex.Pattern; 34 public class StrUtils { 56

背景Kindeditor内容保存在数据库中的类型是text,包含文字和HTML标签。

需求:显示内容的前50个字(纯文字内容)

方法:将字段查出去除标签,截取前50

 

 1 import java.util.regex.Matcher;
 2 import java.util.regex.Pattern;
 3 
 4 public class StrUtils {
 5 
 6     private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式
 7     private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定义style的正则表达式
 8     private static final String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
 9     private static final String regEx_img = "<img\\s*([^>]*)\\s*src=\\\"(.*?)\\\"\\s*([^>]*)>";// 定义image标签的正则表达式
10     private static final String regEx_emoji = "[\\ud83c\\udc00-\\ud83c\\udfff]|[\\ud83d\\udc00-\\ud83d\\udfff]|[\\ud83e\\udd00-\\ud83e\\udfff]|[\\u2600-\\u27ff]";// 定义表情标签的正则表达式
11     private static final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符
12     private static final String regEx_special = "\\&[a-zA-Z]{1,10};";//定义特殊字符
13 
14 
15     public static String delHTMLTag(String htmlStr) {
16 
17         // 过滤script标签
18         Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
19         Matcher m_script = p_script.matcher(htmlStr);
20         htmlStr = m_script.replaceAll("");
21 
22         // 过滤style标签
23         Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
24         Matcher m_style = p_style.matcher(htmlStr);
25         htmlStr = m_style.replaceAll("");
26 
27         // 过滤image标签
28         Pattern p_img = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);
29         Matcher m_img = p_img.matcher(htmlStr);
30         htmlStr = m_img.replaceAll("");
31 
32         // 过滤emoji标签
33         Pattern p_emoji = Pattern.compile(regEx_emoji, Pattern.CASE_INSENSITIVE);
34         Matcher m_emoji = p_emoji.matcher(htmlStr);
35         htmlStr = m_emoji.replaceAll("");
36 
37         // 过滤html标签
38         Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
39         Matcher m_html = p_html.matcher(htmlStr);
40         htmlStr = m_html.replaceAll("");
41 
42         // 过滤空格回车标签
43         Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
44         Matcher m_space = p_space.matcher(htmlStr);
45         htmlStr = m_space.replaceAll("");
46 
47         // 过滤特殊字符
48         Pattern p_special = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
49         Matcher m_special = p_special.matcher(htmlStr);
50         htmlStr = m_special.replaceAll("");
51 
52         return htmlStr.trim(); // 返回文本字符串
53     }
54 
55     public static String getTextFromHtml(String htmlStr){
56         htmlStr = delHTMLTag(htmlStr);
57         htmlStr = htmlStr.replaceAll(" ", "");
58         if (htmlStr.length()>50){
59             htmlStr = htmlStr.substring(0,50);
60         }
61         return htmlStr;
62     }
63 
64 }

 

 

 

 

 

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • HTML中将背景颜色渐变 html设置背景颜色渐变
    通过使用 css3 渐变可以让背景两个或多个指定的颜色之间显示平稳的过渡,由于用到css3所以需要考虑下浏览器兼容问题,例如:从左到右的线性渐变,且带有透明度的样式:#grad {background: -webkit-linear-gradient(left,rgba(255,0,0,0),rgba(255,0,0,1)); /*
    03-08
  • html5 Canvas 如何自适应屏幕大小
    但是这样创建出的画布不能随着浏览器窗口大小的改变而动态的改变画布的大小。而这一点往往又非常重要, 因为我们会经常改变浏览器窗口大小,不会一直保持某个固定的大小。 html代码 canvas width="300" height="300" id="myCanvas"/canvas设置样式 * {
    03-08
  • Vue中出现Do not use built-in or reserved HTML elements as component id:footer等等vue warn问题
    Vue中出现Do not use built-in or reserved HTM
    错误示图:原因:是因为在本地项目对应文件的script中,属性name出现了错误的命名方式,导致浏览器控制台报错!  诸如: name: header 、  、 name: menu , 等等都属于错误的命名方式等 错误代码命名如下:解决办法:办法1: 如果我们采用正确命名
    03-08
  • HTML在网页中插入音频视频简单的滚动效果
    HTML在网页中插入音频视频简单的滚动效果
    每次上网,打开网页后大家都会看到在网页的标签栏会有个属于他们官网的logo,现在学了HTML了,怎么不会制作这个小logo呢,其实很简单,也不需要死记硬背,每当这行代码出现的时候能知道这是什么意思就ok1 link rel="shortcuticon" type="image/x-icon" href="
    03-08
  • HTML的video标签,不能下载视频代码
    !-- 在线视频不能下载代码 --!DOCTYPE html html headscript src="../Demo/demo/book/JQuery/jQuery v2.2.0.js"/script/headbody div style="text-align:center;"video src="../images/PreviewVideo.mp4" width="820"controls="controls&
    03-08
  • ThinkPHP报错 The requested URL /admin/index/login.html was not found on this server.
    ThinkPHP报错 The requested URL /admin/index/
           解决方案在入口文件夹public下查看.htaccess是否存在。不存在则新建,存在的话,那内容替换为下面这串代码 就可以解决Not Fund#IfModule mod_rewrite.c#Options +FollowSymlinks -Multiviews#RewriteEngine On##RewriteCond %{REQUEST_FILENAME
    03-08
  • HTML特殊字符、列表、表格总结 html特殊符号对
            HTML实体字符  在HTML中一些特殊的字符需要用特殊的方式才能显示出来,比如小于号、版权等,  在课堂上老师教了我们一个有点意思的:空格,在教材上字符实体是“nbsp”通过老师  的演示我们发现不同的浏览器他所显示的效果不同,有的比
    03-08
  • 【JavaScript】使用document.write输出覆盖HTML
    您只能在 HTML 输出中使用 document.write。如果您在文档加载后使用该方法,会覆盖整个文档。分析HTML输出流是指当前数据形式是HTML格式的数据,这部分数据正在被导出、传输或显示,所以称为“流”。通俗的来说就是HTML文档的加载过程,如果遇到document.writ
    03-08
  • ASP.Net MVC 控制@Html.DisplayFor日期显示格式
    在做一個舊表的查詢頁時,遇到一個問題:字段在db里存儲的是DATETIME,但保存的值只有日期,沒有時間數據,比如2018/2/26 0:00:00,顯示出來比較難看,當然也可以做一個ViewModel,在字段上添加Attribute定義來更改名稱和顯示名稱,如下:[Display(Name = "建
    03-08
  • html 基础代码
    title淄博汉企/title/headbody bgcolor="#00CC66" topmargin="200" leftmargin="200" bottommargin="200"a name="top"/a今天br /天气nbsp;nbsp;nbsp;nbsp;nbsp;不错br /font color="#CC0000"格式控制标签br /b 文字加粗方式1\bbr /str
    03-08
点击排行