Nutch爬虫版本选择、环境和安装使用教程:
一、Nutch版本的选择
Nutch1.x是基于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于Apach Gora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。
二、Nutch工作环境
1、Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu 14.04.3 LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwin。
2、JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。
3、HBase:可从网上下载最新版。
4、Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。
5、Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。
6、Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。
三、Nutch的安装与配置应该包括下面5个部分如下图:
1、JDK的安装配置
2、下载并解压HBase
3、Ant的安装与配置
4、Nutch的安装与配置
5、将Nutch和Solr集成在一起
四、Nutch的简单使用
1、一站式抓取
进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。
2、分布式抓取
可以分为2步:Nutch数据文件夹组成和生成抓取列表。