storm-crawler

A collection of resources for building low-latency, large scale web crawlers on Storm available under Apache License.

How to use

As a Maven dependency

Available from Maven Central with :

<dependency>
    <groupId>com.digitalpebble</groupId>
    <artifactId>storm-crawler-core</artifactId>
    <version>0.5</version>
</dependency>

Running in local mode

To get started with storm-crawler, it's recommended that you run the CrawlTopology in local mode.

NOTE: These instructions assume that you have Maven installed.

First, clone the project from github:

git clone https://github.com/DigitalPebble/storm-crawler

Then :

cd core
mvn clean compile exec:java -Dstorm.topology=com.digitalpebble.storm.crawler.CrawlTopology -Dexec.args="-conf crawler-conf.yaml -local"

to run the demo CrawlTopology in local mode.

On a Storm cluster

Alternatively, generate an uberjar:

mvn clean package

and then submit the topology with storm jar:

storm jar target/storm-crawler-core-0.6-SNAPSHOT-jar-with-dependencies.jar  com.digitalpebble.storm.crawler.CrawlTopology -conf crawler-conf.yaml

to run it in distributed mode.

Getting help

Mailing list : http://groups.google.com/group/digitalpebble

Or use the tag storm-crawler on stackoverflow.

Name		Name	Last commit message	Last commit date
Latest commit History 423 Commits
core		core
external		external
.gitignore		.gitignore
LICENSE		LICENSE
NOTICE		NOTICE
README.md		README.md
eclipse-formatting-profile.xml		eclipse-formatting-profile.xml
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

storm-crawler

How to use

As a Maven dependency

Running in local mode

On a Storm cluster

Getting help

About

Releases

Packages

Languages

License

jakekdodd/storm-crawler

Folders and files

Latest commit

History

Repository files navigation

storm-crawler

How to use

As a Maven dependency

Running in local mode

On a Storm cluster

Getting help

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages