Python去除html标签的几种方法总结 python修改html标签的值

   2023-02-07 学习力0
核心提示:目录Python去除html标签的方法python正则表达式去除html标签的属性总结Python去除html标签的方法最近小说看得比较多,但是很多小说网站都存在各种小广告,看起来很不方便,所以就自己写了个小程序,把小说都爬下来,然后搭个自己喜欢web页面来看。在爬取过程

Python去除html标签的方法

最近小说看得比较多,但是很多小说网站都存在各种小广告,看起来很不方便,所以就自己写了个小程序,把小说都爬下来,然后搭个自己喜欢web页面来看。

在爬取过程中没有出现太大的问题,只有在清洗数据时,发现小说文本中混杂HTML标签,所以就需要对标签进行清洗。

我自己尝试了字符串的处理方式,正则,还有lxml等方式来处理这个问题,现在记录一下使用方式。

我们使用下面这个字符串举例说明,内容为一段html代码。需要对这段字符串进行处理,提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正则来处理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

输出结果:

你好哈哈大家好

2. 使用BeautifulSoup来处理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

输出结果:

你好哈哈大家好

3. 使用lxml来出来

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

输出结果:

你好哈哈大家好

python正则表达式去除html标签的属性

import re
test='<p class="pictext" align="center">陈细妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

输出

<p>陈细妹</p>

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。

原文地址:https://blog.csdn.net/ares_beyong/article/details/121284781
 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 在线图书借阅网站( Python +Vue 实现)
    在线图书借阅网站( Python +Vue 实现)
    功能介绍平台采用B/S结构,后端采用主流的Python语言进行开发,前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括:首页、图书详情页、用户中心模块。后台功能包括:总览、借阅管理、图书管理、分类管理、标签管理、评论管理、用
    03-08
  • JavaScript忍者秘籍——闭包 python忍者秘籍
    概要:本篇博客主要介绍了JavaScript的闭包1.闭包的工作原理  简单地说,闭包就是一个函数在创建时允许该自身函数访问并操作该自身函数之外的变量时所创建的作用域。例如:var outerValue = 'ninja';var later;function outerFunction(){var innerValue = '
    03-08
  • Python实现类似JavaScript 的Json对象
    Python实现类似JavaScript 的Json对象用过js的都知道 js中json也是一个对象,所以可以直接通过class.attr 取值,当attr不存在时也不会报错,那么Python可不可以也实现这样一个类,实现.取值呢答案肯定是可以的,只需要通过setattr把key,value 写入一个空类中
    03-08
  • 文成小盆友python-num15 - JavaScript基础
    一、JavaScript简介JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给
    03-08
  • 你可能不知道的java、python、JavaScript以及jq
    一.概述  java循环语句分为四种形式,分别是 while, do/while, for, foreach;  python中循环语句有两种,while,for;  JavaScript中循环语句有四种,while,do/while,for,for/in  jQuery循环语句each二、java循环语句  a、while    while的
    03-08
  • python爬虫——BeautifulSoup详解(附加css选择器)
    python爬虫——BeautifulSoup详解(附加css选择
     BeautifulSoup是一个灵活有方便的网页解系库,处理搞笑,支持多种解析器,利用他可以不编写正贼表达式即可方便实现网页信息的提取。  解析库:我们主要用lxml解析器  标签选择器:# coding=utf-8from bs4 import BeautifulSoup as bshtml = """htmlhead
    03-08
  • 5.Python使用最新爬虫工具requests-html
    5.Python使用最新爬虫工具requests-html
    1.安装,在命令行输入:pip install requests-html,安装成功后,在Pycharm引入即可。2.代码如下所示:from requests_html import HTMLSessionimport requestssession = HTMLSession()r = session.get('http://www.win4000.com/wallpaper_2358_0_10_1.html')i
    03-08
  • Python 前端之HTML
    Python 前端之HTML
    1.HTML  !DOCTYPE=HTML表示各个浏览器用统一的HTML模式来解析,避免出现不同浏览器用不同规则解析显示效果不一样的问题。2.HEAD/HEAD里定义的标签  title/title打开浏览器时上面的提示信息  meta没有结束标签  a.meta charset="UTF-8"/指定网页的编码
    03-08
  • python.UnitTest框架(用例执行、结果断言、HTM
    本文将以下方面,阐述UnitTest框架的初级操作:UnitTest介绍:  UnitTest框架的优点  需要注意的地方UnitTest框架使用:  TestCase类中定义的几个特殊方法   执行用例  测试结果  断言  HTML报告  UnitTest介绍:     unittest单元测试
    03-08
  • [转][python] 常用正则表达式爬取网页信息及分析HTML标签总结
    [转][python] 常用正则表达式爬取网页信息及分
    转载至:https://blog.csdn.net/Eastmount/article/details/51082253这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~当然如果会Selenium基于自动化
    03-08
点击排行