、代碼(以這個網頁為例 http://www.qunar.com/site/zh/Cooperate_4.shtml )
package extract;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class extracthtmlfulllink {
/**
* @param args
*/
public static String getText(String f){
StringBuffer sb=new StringBuffer();
try {
Parser parser=new Parser(f);
parser.setEncoding("UTF-8");
NodeFilter filter=new NodeClassFilter(LinkTag.class);
NodeList links=new NodeList();
for (NodeIterator e=parser.elements();e.hasMoreNodes();){
e.nextNode().collectInto(links, filter);
}
for (int i=0;i<links.size();i++){
LinkTag linktag=(LinkTag)links.elementAt(i);
sb.append("\n|"+linktag.getLinkText()+"|=>"+linktag.getLink());
}
} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return sb.toString();
}
public static void main(String[] args) {
// TODO Auto-generated method stub
String s=getText("./htmls/Qunar_com.htm");
System.out.print(s);
}
}
2、效果(包括電子郵件地址都已經提取)
|“去哪兒”旅游搜索引擎|=>http://www.qunar.com/
|首頁|=>http://www.qunar.com/
|機票|=>http://flight.qunar.com/
|酒店|=>http://hotel.qunar.com/
|知道new|=>http://zhidao.qunar.com/
|簽證|=>http://visa.qunar.com/
|博客|=>http://i.qunar.com/
|打折|=>http://deals.qunar.com/
|廣告合作|=>http://www.qunar.com/site/zh/Cooperate_4.shtml
|收藏本站|=>http://www.qunar.com/
|首頁|=>http://www.qunar.com/
|關于“去哪兒”|=>http://www.qunar.com/site/zh/Qunar.in.China_1.2.shtml
|公司簡介|=>http://www.qunar.com/site/zh/Qunar.in.China_1.2.shtml
|公司大事記|=>http://www.qunar.com/site/zh/zhMilestones.shtml
|中國在線旅游發展背景|=>http://www.qunar.com/site/zh/zhBackground.shtml
|管理團隊簡介|=>http://www.qunar.com/site/zh/Ours.Team_1.4.shtml
|媒體報道|=>http://www.qunar.com/site/zh/News.Room_1.5.shtml
|職位招聘|=>http://www.qunar.com/site/zh/Jobs_2.shtml
|聯系我們|=>http://www.qunar.com/site/zh/ContactUs_3.shtml
|去哪兒聯盟(API)|=>http://un.qunar.com/
|免責申明|=>http://www.qunar.com/site/zh/Duty_5.shtml
|隱私條款|=>http://www.qunar.com/site/zh/Privacy_6.shtml
|常見問題|=>http://www.qunar.com/site/zh/Question_7.shtml
|關于訂票|=>http://www.qunar.com/site/zh/AboutBooking_10.shtml
|友情鏈接|=>http://www.qunar.com/site/zh/Links_8.shtml
|改進建議|=>http://www.qunar.com/site/zh/Feedback_9.shtml
|About
Us|=>http://www.qunar.com/site/en/Qunar.in.China_1.1.shtml
|Adservice@qunar.com|=>adservice@qunar.com
|adservice@qunar.com|=>adservice@qunar.com
||=>http://www.hd315.gov.cn/beian/view.asp?bianhao=010202007112700003
|關于Qunar.com|=>http://www.qunar.com/site/zh/Qunar.in.China_1.2.shtml
|聯系我們|=>http://www.qunar.com/site/zh/ContactUs_3.shtml
|廣告合作|=>http://www.qunar.com/site/zh/Cooperate_4.shtml
|媒體報道|=>http://hot.qunar.com/
|職位招聘|=>http://www.qunar.com/site/zh/Jobs_2.shtml
|免責聲明|=>http://www.qunar.com/site/zh/Duty_5.shtml
|旅游導航|=>http://123.qunar.com/
|旅游論壇|=>http://bbs.qunar.com/
|常見問題|=>http://www.qunar.com/site/zh/Question_7.shtml
|使用幫助|=>http://www.qunar.com/site/zh/Tips_new.shtml
|友情鏈接|=>http://www.qunar.com/site/zh/Links_8.shtml
|改進建議|=>http://www.qunar.com/site/zh/Feedback_9.shtml
|about
us|=>http://www.qunar.com/site/en/Qunar.in.China_1.1.shtml
|京ICP備05021087號|=>http://www.miibeian.gov.cn/
|電信與信息服務業務經營許可證060856號|=>http://downtmp.qunar.com/qunaricp.pdf
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
