728x90
SPARK와 HBASE 연동
데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.
SPARK와 연동해서 사용할 방법을 찾고 있는데...
검색해 보면 두가지가 나온다.
HORTONWOKRS-SHC
HBase-connector
위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.
아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.
그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.
처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...
위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.
허나 이걸 zeppelin에서 돌릴려면
일단 repo를 추가 해야 한다.
spark interpreter 로 가서
zeppelin.dep.additionalRemoteRepository
spark-packages,http://dl.bintray.com/spark-packages/maven,false;
hortonwork,http://repo.hortonworks.com/content/groups/public/,false;
horwonwork 항목을 추가 해준다 그러면 예제처럼 제플린에서 활용이 가능하다.
맨마지막 false는 스냅샷을 사용 할건지 말건지의 옵셕이다.
'프로그래밍 > spark' 카테고리의 다른 글
SPARK ElasticSearch 연동 (0) | 2018.01.02 |
---|---|
Spark Serialized Task is Too Large Error (0) | 2018.01.02 |