您好,登錄后才能下訂單哦!
小編給大家分享一下Nutch1.9如何安裝,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
一、 Nutch安裝并整合到Solr
1、下載并解壓Nutch(此處使用版本1.9) http://nutch.apache.org/
2、修改apache-nutch-1.9/conf/nutch-site.xml
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
3、添加需要爬取的urls種子,創建apache-nutch-1.9/urls/seed.txt:
此處添加一條url(如:http://www.oschina.net/)
4、Nutch與Solr整合需要替換Solr Home中的Schema.xml
首先做好備份:
mv solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org
將nutch中的schema-solr4.xml copy到solr_home中,如下:
cp apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml
5、修改solr_home/solr/collection1/conf/schema.xml,
在 <field name="id"下面加上
<field name="_version_" type="long" indexed="true" stored="true"/>
由于覆蓋了之前配置好的IK分詞器。所以需要重新配置:
在<types>中增加如下內容:
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
將需要用到IK分詞的字段的type值修改以上定義的name
<field name="content" type="text_ik" stored="true" indexed="true"/>
<field name="title" type="text_ik" stored="true" indexed="true"/>
<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>
<field name="anchor" type="text_ik" stored="true" indexed="true"/>
到此處配置完成。
測試爬取:
bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1
當完成后,打開solr的管理界面,點擊query將會看到nutch爬取的數據
以上是“Nutch1.9如何安裝”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。