1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。最终幻想13-2游戏通关存档-最终幻想13-2游戏通关存档1.2 绿色版
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
展开内容
中国旅游业ppt课件-地理中国旅游业ppt通用版
安环家app下载-安环家app2.2.2 官方版
神位纷争iPhone版下载-神位纷争苹果版1.2.2 手机ios版
迈迈智行app1.1.3.2 安卓版
好莱坞老电影软件下载-好莱坞老电影app1.0 安卓版
白纸编程app下载-白纸编程app1.2.4 安卓版
VC6.0Spelly插件下载-VC++Spelly(代码拼写检查)3.0.1 官方最新版
寸草之心app下载-寸草之心安卓版(老人定位软件)1.0 官方版
幸福全家app官方下载-幸福全家app1.0.9官方安卓版
9377一剑斩仙手游官网下载-9377一剑斩仙1.11.10 元宝服
雷达题库app1.2 安卓版
轻欢星球下载-轻欢星球最新版2.1.0 官方版
小迁工具箱app官方正版下载-小迁工具箱5.05.0 手机版
职场礼仪培训ppt-职场礼仪培训课件(共72页)免费版【精品课件】
瓶子赏金翻转安卓版下载-Bounty Flip(瓶子赏金翻转游戏)1.0.3单机版
微信视频录屏双方声音软件下载-微信视频录屏双方声音app4.0.6 安卓手机版
8.4/1,085.5M
这是一个可以进行微信视频录屏的软件,通过这个app你可以看到非常多的功能,一键进行手机录屏,非常好用的功能,快速开启各种特效,一键录制,不用操作,省心放心。微信...
仙境传奇冰雪无限刀下载-仙境传奇冰雪版手游1.0 冰雪异兽版
8.2/1,258.0M
仙境传奇冰雪版手游这个版本是最新的版本,这是一个经典的传奇游戏,这款游戏也出了很多好玩的版本,这个版本也是很受玩家的喜欢,毕竟福利很多,而且对平民也很友好,游戏...
2020年鼠年手抄报简单版-2020鼠年春节手抄报简单又漂亮免费版
9.3/932.1M
2020鼠年春节手抄报简单又漂亮,过寒假,小朋友也都有一定的课外作业,很多老师都布阵了手抄报的任务,大家可以进行展示。手抄报介绍手抄报,是指中国古代新闻传播媒介...
果壳智能手表助手-果壳手表助手(GEAK Watch)3.0.1 官方最新版
9.3/1,776.1M
果壳手表助手(GEAKWatch)是果壳手机连接电脑的驱动,安装驱动后可以让果壳手表与电脑建立建立良好的连接,连接后可以对手表进行设置和升级,并且可以安装更多的...
8.3/1,279.6M
迪腾扫地机app是一款专为迪腾家用扫地机器人打造的手机遥控终端,用户通过这款软件,直接远程遥控,实现扫地机的智能控制,帮你完成扫地、吸尘、拖地等功能,是你智能家...
8.6/1,150.8M
仙魔大战最新版是一款以东方神话题材为背景的角色扮演手游,玩家可以在游戏中扮演不同的角色,体验刺激的战斗和丰富的剧情故事。游戏有着多种玩法模式,绝对不会让你无聊哦...
勇者大冒险破解版地图下载-勇者大冒险1.88 破解版【附攻略+隐藏英雄密码】
9.9/1,949.2M
勇者大冒险1.88破解版是最新出来的一款破解地图,这款地图支持人数是2人,不过增加了几个装备技能,还附有隐藏密码哦,有需要的赶紧下载吧~勇者大冒险1.88破解版...
8.1/964.4M
如今很多的地方政府都是在推广一些移动app办公的模式,如鞍山就推出了下载的这款鞍山政务手机app客户端,在线就可以反应任何的问题,还是可以直接的查询到你的问题的...
8.1/829.0M
柯米克app是一款赛车模型app,这个软件记录了很多不同的车辆模型,可以让大家十分方便的观察车辆情况,查看整体的产品信息,让大家了解更多!柯米克app介绍KAM...
ssh实例下载-ssh源码事例(SSH整合实例)【整合打包】
8.6/206.3M
SSH为struts+spring+hibernate的一个集成框架,是目前较流行的一种Web应用程序开源框架。这里为您提供的是经过整合的ssh源码事例(SSH...
10.0/1,103.1M
百度影院是一款非常不错的影视资源软件,软件覆盖了全网最全面的资源库,覆盖了几乎所有的热门影视剧,整个平台的视频播放流畅,不会卡顿,影片质量高清,快来下载看看吧!...
7.8/718.8M
好品猫购物商城是一款非常实用的在线购物软件,可以让你买到自己最喜欢的东西,而且还能让你快速的把自己的任务完成,各种好玩有趣的内容等你来发现,需要的下载吧。好品猫...
捷波朗蓝牙耳机app官方版下载-捷波朗耳机Jabra Sound+安卓中文版5.18.0 最新版
8.0/1,996.0M
捷波朗耳机配对app--JabraSound+,为您量身定制的应用体验。非常不错的硬件和软体。功能一目了然,很好用。升级了降噪模式后体验更棒。如果你有购买捷波朗...
宝藏猎人地下城之战(treasure hunter 3d)1.0 安卓版
8.4/244.8M
宝藏猎人地下城之战(treasurehunter3d)是宝藏猎人系列的最新之作,这个版本有着全新的改版,不仅在剧情上面,而且角色的道具也是新增加了许多!宝藏猎人...
SENA app下载-SENA塞纳蓝牙耳机app2.9 安卓中文版
9.6/488.6M
塞纳SENA蓝牙耳机官方专为旗下所有产品打造的通用设置应用,SENAapp支持20S,10S,10C,10U,10R,骑兵和Tufftalk等设力求,里面自带中...
8.6/799.2M
这是要给手机备忘录工具软件,通过这个app你可以每日记录一些生活工作上线的事情,功能比较齐全,十分简单好用,人人都可以使用!小智备忘app简介1、全新上线的一个...
7.6/1,702.8M
兽人王者手游是一款卡牌类对决游戏,游戏以经典的魔幻世界为主题,在游戏中可以遇到各种各样的魔兽,每一个都是有着不同的属性,你可以自由的收集魔兽,并且编制他们的队伍...
AI一下软件下载官方版-AI一下智能助手软件1.5.2 最新版
8.4/830.7M
AI一下APP其实是一款非常棒的AI智能体软件,软件可以带给用户诸多精彩,高效的玩机体验,无论你是被生活难题困扰,还是在学术海洋中迷茫,又或是面对工作挑战,“A...
Media Encoder cc 2017 mac下载-Adobe Media Encoder cc 2017 mac版中文版
8.6/25.5M
MediaEncodercc2017mac版是一款非常不错的视频音频编码器软件,利用此款软件,用户可以将Mp4、3gp和FLV还有CDROM、DVD等多种编码的...
8.7/1,493.0M
剑来十五境是一款设计画风十分精美完美还原修仙世界的仙侠类型冒险游戏,高质量的游戏3D引擎技术处理的基础游戏画质可以给予玩家们极佳的游戏体验感觉,跨服竞技千人同屏...
8.0/257.2M
由青岛市交通运输公共服务中心官方打造的万能交通运输app,青岛交通终于正式上线,它的服务涵盖了青岛市所有的交通方面,公交、地铁、出租、长途客运、火车、航空等等,...
小说阅读器免费下载-小说阅读器电脑版(美捷小说阅读器)1.0 免费版
9.0/509.6M
美捷小说阅读器是一款专门针对TXT小说的简单实用的txt小说阅读器。支持自动滚屏、自动记录阅读进度、自动生成小说等功能。软件绿色免费,界面美观,使用方便。文本小...
防蹭网软件下载-防蹭网大师2019(防蹭网工具)1.2.0.1000官方免费版
7.8/278.4M
自从各种WiFi蹭网的神器的出现,自己家里的网都总是被人给使用。那么这时只需要默默的来到这里下载防蹭网大师2018,就能帮助你监控自己家的网络设备,从而来提高网...
联想智能扫地机app-联想扫地机app1.0.3 官方配套版
9.5/1,133.6M
联想扫地机智能APP是一款用来远程控制扫地机器人的软件,可以在手机端远程实时操作扫地机,让扫地机启动、暂停、区域清扫、预约清扫、充电、设置禁区等。联想扫地机ap...
8.3/1,131.5M
香港中文大学是最新的一个非常好的大学,那么大家是否知道知道香港中文大学风景呢?下面为大家带来香港中文大学各种风景图,喜欢这个大学的可以看看哦!香港中文大学图片预...