• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

Nutch爬虫版本选择、环境和安装使用教程

作者:云创智学|发布时间:2021-11-26 14:14:31.0|来源:云创智学

Nutch爬虫版本选择、环境和安装使用教程:

一、Nutch版本的选择

Nutch1.x是基于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于Apach Gora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。


二、Nutch工作环境

1、Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu 14.04.3 LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwin。

2、JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。

3、HBase:可从网上下载最新版。

4、Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。

5、Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。

6、Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。

三、Nutch的安装与配置应该包括下面5个部分如下图:

1、JDK的安装配置

2、下载并解压HBase

3、Ant的安装与配置

4、Nutch的安装与配置

5、将Nutch和Solr集成在一起


四、Nutch的简单使用

1、一站式抓取

进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。

2、分布式抓取

可以分为2步:Nutch数据文件夹组成和生成抓取列表。

联系方式
企业微信