본문 바로가기
프로그래밍/spark

SPARK와 HBASE 연동

by W.C. 2018. 1. 2.
728x90

SPARK와 HBASE 연동

데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.

SPARK와 연동해서 사용할 방법을 찾고 있는데...

검색해 보면 두가지가 나온다.

HORTONWOKRS-SHC
HBase-connector

위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.

아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.

그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.

처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...

위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.

허나 이걸 zeppelin에서 돌릴려면

일단 repo를 추가 해야 한다.

spark interpreter 로 가서

zeppelin.dep.additionalRemoteRepository

spark-packages,http://dl.bintray.com/spark-packages/maven,false;
hortonwork,http://repo.hortonworks.com/content/groups/public/,false;

horwonwork 항목을 추가 해준다 그러면 예제처럼 제플린에서 활용이 가능하다.

맨마지막 false는 스냅샷을 사용 할건지 말건지의 옵셕이다.

'프로그래밍 > spark' 카테고리의 다른 글

SPARK ElasticSearch 연동  (0) 2018.01.02
Spark Serialized Task is Too Large Error  (0) 2018.01.02