Introduction
Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. That’s where Apache Solr comes in. Solr is an open source full text search framework, with Solr we can search the visited pages from Nutch. Luckily, integration between Nutch and Solr is pretty straightforward as explained below.
Apache Nutch supports Solr out-the-box, greatly simplifying Nutch-Solr integration. It also removes the legacy dependence upon both Apache Tomcat for running the old Nutch Web Application and upon Apache Lucene for indexing. Just download a binary release from here .
---------------------------------------------------------------------------------------------------------------譯文(如有不當請指正):
???? Apache Nutch 是一個用JAVA語言編寫的開源web爬蟲項目。通過使用它,我們能夠以一種自動化的方式找到web頁面上的超鏈接,減少了大量的維護工作,例如檢查無用的鏈接或者創建一個所有訪問過搜索頁面的副本。講到這里Apache Solr出現,Solr是一個開源的全文檢索框架,通過solr我們能搜索Nutch訪問過的頁面。幸運的是,整合Nutch和Solr是十分簡單的,例如下面的講解。
???? Apache Nutch 支持Solr拆箱即用,使得Nutch 和solr的整合非常簡單。同時也去除了遺留的依賴問題:不必在Apchce tomcat上運行老版本的Nutch web應用程序,也不必基于Lucene進行搜索。請下載一個Nutch的二進制版本從 http://www.apache.org/dyn/closer.cgi/nutch/
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
