본문 바로가기

HBase4

HBase Thrift Daemon HBase에 외부 접근하기 위해서는 Thrift Daemon을 실행 시켜 줘야 한다./usr/hdp/current/hbase-master/bin/hbase-daemon.sh start thrift -p port --infoport infoport 2018. 11. 15.
Spark Serialized Task is Too Large Error Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l.. 2018. 1. 2.
SPARK와 HBASE 연동 SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa.. 2018. 1. 2.
HBASE 설정 HBASE 설정현재 IDC에 운영중인 hadoop 클러스트에서 HBASE 기반의 피닉스를 같이 운영하다보니 여러가지 문제가 발생하고 있다. 가장 큰 문제는 HBase RegionServer가 자꾸 죽는 다는 것이다. 원인은 메모리!! Node Manager랑 Region Server를 같이 쓰다 보니 메모리가 절대 부족... 어떻게 공유 하면서 최적으로 사용 할 수 있을까... The JVM is doing a long running garbage collecting which is pausing every threads (aka "stop the world"). Since the RegionServer’s local ZooKeeper client cannot send heartbeats, the ses.. 2017. 12. 28.