
类型: 办公效率 版本: V2.2
大小: 601.7 时间: 2025-11-08





1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。海尔ES60H-C6(NE)热水器使用说明书pdf高清版
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
易控税app下载-易控税app0.9.6.8官方正式版
391.8M
易控税app是一款非常优质的手机线上税务相关资讯阅读软件,用户下载这款软件就能够在上面了解到非常多相关的资讯,app的主要功能是解决票难管、税难减、风险难防控、...
番薯免费小说去广告版下载-番薯免费小说去广告版3.00.96.022 免费版
1,588.7M
番薯免费小说是功能非常强大的免费小说阅读器,免费畅读各类小说,翻出不一样的阅读体验!可以下载大量小说,慢慢挑选着看,同时实时同步更新,最重要的是这些小说都是免费...
风爆远征私服下载-风爆远征满v版1.1.5 安卓最新版
1,108.4M
风爆远征是一款魔兽题材的策略卡牌手游。游戏有着精美的画面风格,为玩家展现了一个真实绚丽的魔兽世界。你可以选择熟悉的魔兽角色加入战斗,战斗中可上阵最多12个英雄,...
口袋妖怪:绿叶版386免安装中文版
429.6M
《口袋妖怪火红/叶绿》是口袋妖怪的初代版本《口袋妖怪红/绿》的复刻版。其在内容上与GB上的红绿两版大体相同,画面上采用“红宝石/蓝宝石”的游戏引擎加以强化。在游...
totwoo下载-totwooAPP3.8.0官方休闲版
1,753.1M
totwoo是一款情侣感应软件,配合手链或者项链使用,情侣有一方有他家产品就行双方都下载这个软件就能互相敲击对方的心灵了,想念了敲一敲没回消息敲一敲,还有星座、...
草稿本手机版下载-草稿本app3.7.9全功能修改版
642.3M
草稿本app,是一款实用的办公学习助手,便捷的操作性和以及强大的记录服务,为你的工作和学习带去强大的动力,欢迎各位有志青年前来下载哦!草稿本功能介绍草稿本是一款...
c4droid汉化版完整版下载-c4droid最新版中文版8.01 手机版
543.6M
C4droid是手机上最最常用的c语言编译软件,写小程序还能生成apk,非常方便而且软件也非常的强大,基本满足现在各种阶段的编程需求,主要还是免费的,这个是中文...
日历清单app下载-日历清单app1.0.19官方安卓版
1,881.2M
日历清单app是一款多功能备忘录日历软件,用户下载这款软件能够在上面详细的记载每一天发生的事情,也能够记录未来某天需要用户去做的事情,软件能够多端同步,不管在什...
Bomb It! Bounce Masters(炸弹弹跳大师)0.13.0 安卓版
1,125.0M
这款游戏是一款非常好玩的弹跳游戏,游戏的玩法有点类似炸弹人,不过相比较而言有着3d的画风,玩起来也是更加的带感,相信不少人喜欢!炸弹弹跳大师怎么玩你能跳多远?测...
安安出行司机版苹果版下载-安安出行司机版0.1.0 官网最新版
1,362.4M
安安出行司机版正式的推出苹果版,方便在你的手机找到附近的旅客,当然本站这个是司机版本,更加的方便你可以直接的找到你的客户,让你赚到更多的金钱!安安出行司机版功能...
萌宝挖挖挖官方下载-萌宝挖挖挖手游1.0 安卓正式版
1,148.3M
萌宝挖挖挖手游是一款趣味休闲益智游戏,玩家将成为小坑货四处去挖掘宝石,无论是敌人还是队友,你都要想办法从它的身上找到宝石,让自己变强大,然后发家致富才是硬道理!...
花小钱iPhone版下载-花小钱苹果版1.0 官方ios版
383.9M
花小钱是一款能让您购物过程中省钱,同时也能赚到钱的APP,为您挑选性价比高的产品,专注于为您提供更好的购物体验。软件特色1、特惠闪购,明星好货,天天秒杀。2、正...
不朽觉醒手游下载-不朽觉醒官方版0.9.2 最新版
978.7M
《不朽觉醒》是一款暗黑风冒险育成MMORPG手游,这个是今年一款全新的冒险RPG大作,这个版本是繁体中文版,但是是官方的正式版本哦,而且也正式开服了,火热进行中...
狂暴之翼2满v无限钻石版下载-狂暴之翼2(无限送充值卡)bt版1.0.0 福利版
1,836.8M
狂暴之翼2(无限送充值卡)bt版送海量钻石、领稀有宠物、赠绝世怒翼等等,全方位收割充值卡,不仅登录会免费送,升级也送,每日活跃也送,闯关成功还会送哦~高帧率魔幻...
内蒙古河长巡河app下载-内蒙古河长通app1.2.5 最新版
271.6M
内蒙古河长通也就是内蒙古自治区河湖长制移动管理平台,致力于为内蒙古地区的水资源生态稳定打造的全新管理平台,专注于线上管理水利,完善河长制的工作模式,能快速的监察...
Corecraft安卓版下载-Corecraft手游3.0 最新官方版
2025/11/04 23:04
星语编码进制转换工具V1.5 绿色单文件版
2025/10/15 05:28
艺术考核app安卓版下载-艺术考核手机版0.2.1 最新版
2025/10/17 07:18
泰拉地图app下载-泰拉地图查看器1.4 最新版
2025/10/18 07:03
魔法研究安卓下载-魔法研究游戏(Magic Research)1.15.0 手机版
2025/10/19 04:47
中华万年历老黄历2024下载-中华万年历老黄历app8.9.8 安卓版
2025/11/06 00:39
流放末路游戏下载-流放末路1.0.1 安卓版
2025/11/06 05:58
云南省电子税务局app下载-云南税务局电子税务局app3.6.5 最新版
2025/10/17 15:07
橙子库存通免费版下载-橙子库存通入库出库管理软件2025.06.1901 最新版
2025/10/21 15:31
Bubble水准仪app下载-Bubble水准仪app测量软件2.6 安卓版
2025/10/24 14:04
绝世杀神手游2.01 安卓版
2025/10/30 17:21
宝宝记忆达人宝宝巴士-宝宝记忆达人游戏9.60.10.00 安卓免费版
2025/10/18 13:55
滑板族app1.0.0最新版
2025/10/18 11:23
手机硬件检测软件下载-手机硬件检测app1.0.0 安卓手机版
2025/10/17 14:20
DHgate敦煌网买家版app最新版下载安装-DHgate敦煌网app官方正版6.7.2 手机版
2025/10/25 02:29
DHgate敦煌网买家版app最新版下载安装-DHgate敦煌网app官方正版6.7.2 手机版
2025/10/25 02:29更新
敦煌网买家版App(DHgate)作为全球领先的跨境B2B电商平台,汇聚了3300万+中国优质商品,涵盖服装、电子、家居等全品类,以极具竞争力的批发价格和&qu...
支持 ( 35 ) 盖楼(回复)
支持 ( 56 ) 盖楼(回复)
支持 ( 196 ) 盖楼(回复)
支持 ( 114 ) 盖楼(回复)
支持 ( 156 ) 盖楼(回复)
支持 ( 62 ) 盖楼(回复)
支持 ( 86 ) 盖楼(回复)
支持 ( 22 ) 盖楼(回复)
支持 ( 105 ) 盖楼(回复)
支持 ( 183 ) 盖楼(回复)
支持 ( 131 ) 盖楼(回复)
支持 ( 48 ) 盖楼(回复)
支持 ( 90 ) 盖楼(回复)
支持 ( 163 ) 盖楼(回复)
支持 ( 50 ) 盖楼(回复)
支持 ( 68 ) 盖楼(回复)
支持 ( 198 ) 盖楼(回复)
支持 ( 35 ) 盖楼(回复)
支持 ( 181 ) 盖楼(回复)
支持 ( 102 ) 盖楼(回复)