본문 바로가기

Useful Information

Nutch 2.0 Build in Eclipse

Apache 프로젝트 중  웹페이지 수집(Crawling)을 

위해 태어난 Nutch는 개발의 효율을 높이기 위해

수많은 사람들이 Eclipse에서의 컴파일하고자 시도하였지만

몇가지 문제로 어려움을 겪어왔었다.


그러나 다행히 관련 많은 문제점(pom.xml 관련 문제 등)들이 

최신 소스코드들에는 이미 수정되어 반영되어 있었다.


그래서 사실상, 

1. 바로 SVN을 통해서 HEAD 버전을 CHECKOUT하고

2. ANT BUILD

3. MAVEN - MAVEN DEPENDENCY MANAGEMENT

의 과정을 거치면 컴파일을 다 끝낼 수 있다.

(위 1-3의 과정은 모두 해당 eclipse plugin을 설치해야 된다.)

(참고 1)


이 후, AGENT 설정 및 여러가지 필터, 시드 설정을 하고

아래 처럼 간단히 실행을 할 수 있는 데,


메뉴 Run > Run Configuration 을 선택

Java Application용 실행기

 - Main Class : org.apache.nutch.crawl.CrawlProgram
 - Argument : urls -dir crawl -depth 3 -topN 50



이 때  conf 부분의 설정을 제대로 가져오지 못하는 문제가 발생한다.

먼저 여기서 conf 설정을 추가하여 주자.

1. JAVA BUILD PATH에서 Source에서 conf폴더를 삭제한다.

2. Library에 conf 폴더를 추가한다.



정말 이클립스에서 Nutch 빌드가 악명 높다더니, 

그래도 많이 좋아졌다고 생각하고 있다 -_ㅠ

자 이제 다시 열코딩 시작..



Cute Little Girl in Pink Dances on  Beach during the Kite Festival.
Cute Little Girl in Pink Dances on Beach during the Kite Festival. by mikebaird 저작자 표시