티스토리 뷰


오래전 부터 늘 궁금했던 웹 크롤링...

DB가 이미 구축되어 외부에 공개되어 제공되고 있다면 쓰기도 쉽겠지만, 내가 필요한 정보들을 따로 수집해서 의미있는 DB로 만들어야 한다면?


최근 일주일에 한번 모이는 스터디를 진행하면서 웹 크롤링이 필요한 상황이 발생하였습니다. 결론적으로 웹 크롤링 엔진은 Node.js를 이용해서 뇨뇽님이 개발해주시기로 하셨지만, 저 개인적으로도 웹 크롤링을 어떻게 하는지 너무 궁금해서 결국 직접 해보기로 하고 책을 질렀습니다.

"자바스크립트와 Node.js를 이용한 웹 크롤링 테크닉"

쿠지라 히코우즈쿠에 지음 / 이동규 옮김 (제이펍 출판사)


웹 크롤링을 배워보려고 검색을 해봤을 때, 가장 많이 나오는 방법이 파이썬을 이용한 방식, 그리고 자바 스크립트과 Node.js를 이용하는 방식이었습니다. 특히나 파이썬을 이용한 방식에 대한 포스팅이 정말 많은 것이 인상적이었습니다. 관련 홈페이지도 많고... 파이썬이 최근 정말 대세로 떠오르고 있구나 하는 생각이 많이 들더군요. 


'어떤 방식을 배워볼까', 잠깐 고민을 했지만, 

1. 우리 스터디에서 하려고 하는 방식이 Node.js를 이용하는 방식이라는 점과

2. DB를 수집은 파이썬이 강력할 수 있지만, 자바스크립트를 이용한 방식이 향후 DB의 재가공에 조금 더 편할 수 있다는 검색결과만 믿고 

자바스크립트와 Node.js를 이용한 방식으로 한번 배워보기로 했습니다. 실제 둘다 해보고 나면 비교가 가능할 것 같지만, 지금 제 수준에서는 어려울 것 같네요. 나중에 한번 경험을 해보고 비교를 해보고 싶습니다.


'자바스트립트와 Node.js를 이용한 웹 크롤링 테크닉' 책을 보면서 공부한 내용은 워크북 형식으로 포스팅해보도록 하겠습니다.


나중에는 NASA나 ESA, KARI 데이터들도 모아서, 의미있는 데이터를 제공해줄 수 있었으면 좋겠습니다.

SPACECHILD의 이름을 달고 서비스를 할 수 있으면 더 바랄 게 없겠죠^^


댓글
댓글쓰기 폼