Diveintodata - diveintodata.org - Dive Into A Data Deluge
General Information:
Latest News:
Amazon EC2에서 whirr을 이용한 Hadoop 클러스터 구동 방법 19 Mar 2011 | 02:06 pm
최근 연구내용 검증을 위해 Amazon EC2에서 Hadoop 클러스터를 구축하여 실험을 수행 하는 중입니다. 그런데 Hadoop 클러스터를 EC2에 구축하는데 있어 Amazon EC2 환경에 대한 이해 부족과 자료의 부족으로 직접 부딪혀서 해결해야 하는 부분들이 꽤 있었습니다. 저는 이 포스팅을 통해 제가 시도했던 방법을 소개하고 제 경험을 공유하고자 합...
An Example of Hadoop MapReduce Counter 15 Mar 2011 | 02:56 am
MapReduce Counter Hadoop MapReduce Counter provides a way to measure the progress or the number of operations that occur within MapReduce programs. Basically, MapReduce framework provides a number of...
VoltDB and its related links 1 Jun 2010 | 05:26 pm
There has been lots of buzz about VoltDB (academic name is H-Store [5]) since a week ago. VoltDB is lead by M. Stonebraker, and it is an open source OLTP DBMS. There are some interesting points: Runn...
HDFS Scalability 향상을 위한 시도들 (1) 24 May 2010 | 05:21 pm
얼마전 Yahoo!의 HDFS 팀에서 Multiple nodes를 사용하여 HDFS namenode의 Horizontal Scalability를 향상 시키는 방법을 제안 했었습니다 (HDFS-1052). 그런데 그 뒤로는 Dhruba Borthakur라는 Hadoop 커미터가 Vertical Scalability 개선 방법을 제안했습니다(The Curse ...
HDFS Scalability 향상을 위한 시도들 (1) 24 May 2010 | 01:21 pm
얼마전 Yahoo!의 HDFS 팀에서 Multiple nodes를 사용하여 HDFS namenode의 Horizontal Scalability를 향상 시키는 방법을 제안 했었습니다 (HDFS-1052). 그런데 그 뒤로는 Dhruba Borthakur라는 Hadoop 커미터가 Vertical Scalability 개선 방법을 제안했습니다(The Curse ...
A Brief Summary of Independent Set in Graph Theory 24 Apr 2010 | 02:27 pm
Graph Basics Let G be a undirected graph. G=(V,E), where V is a set of vertices and E is a set of edges. Every edge e in E consists of two vertices in V of G. It is said to connect, join, or link th...
Hadoop RPC를 이용한 서버/클라이언트 구현 21 Apr 2010 | 12:04 am
Hadoop은 이미 알려질대로 잘 알려진 분산 컴퓨팅 프레임워크입니다. 많은 사람들이 Hadoop 하면 MapReduce 프로그래밍을 주로 떠올리지만 자체적으로 제공하는 Hadoop RPC와 분산 파일 시스템인 HDFS를 가지고도 재미있는 것을 시도해 볼 수 있을 것 같습니다. 본 포스팅에서는 그 중에서 Hadoop RPC를 이용한 간단한 서버 클라이언트 ...
Postgresql로 한글 full text search 시도기 22 Mar 2010 | 09:40 pm
최근 일이 있어 Postgresql을 이용한 full text search (FTS) 를 시도해보았다. Postgresql 자체가 역사가 긴 녀석이라 그런지 full text 검색 다양한 방법들을 제공했다. pgtrgm, tsearch2 와 같은 메소드를 제공하고 GIN (Generalized Inverted Index) 나 GiST (Generalized...
Data-Intensive Text Processing with MapReduce Draft Available in Online 11 Mar 2010 | 02:46 pm
Data-Intensive Text Processing with MapReduce, Jimmy Lin and Chris Dyer Actually, there have never been books that directly deal with MapReduce programming and algorithms. This book addresses from Ma...
애플 타플릿 IPad 발표 됐군요. 28 Jan 2010 | 09:08 am
나오기 전부터 시끄럽더니 단순한 언론 플레이는 아니었던 것 같습니다. 아래 두 링크는 발표와 제품 사진, 그리고 동영상입니다. 가격이 $499 부터 시작한다는게 조금 부담이네요. http://www.engadget.com/2010/01/27/live-from-the-apple-tablet-latest-creation-event/ http://www.ap...