본문 바로가기

Spark5

zeppelin-0.8.1 설치 삽질(with elasticsearch) 회사에 신규 CDH Hadoop을 설치 하였다. 당연히 zeppelin을 설치 하려고 했는데 회사 내에 다른 주임님이 요즘 zeppelin 버그가 너무 많아서 실무에서는 잘 안쓰인다고 했다. jupyter가 짱이라면서... 흠... 초창기 부터 사용해왔던 나로써는 아직 zeppelin에 대한 좋은 기억들이 있어서 이번에 그냥 zeppelin을 설치 해보기로 했다. 일단 홈페이지에서 zeppeiln-0.8.1(최신 버젼) 빌드 버젼을 받아서 실행 실행은 잘된다. 하지만 문제점들이 발생 1. json 로드 시 common-langs 버젼 오류가 발생하면서 json 파일이 로드가 안된다. 원인 : CDH에서 spark2.4 는 common-lang3-3.7 을 쓰고 있는데 zeppelin에서는 common-l.. 2019. 7. 15.
zeppelin, Elasticsearch 와 spark 테스트 Poc를 수행하기 위해 CDH6.1을 설치 하였다. 거기서 분석 툴로서 Zeppelin을 간만에 올려 보기로 하고 진행 하던 중 발 생한 문제 정리 Zeppelin 버젼은 0.8.0 CDH 버젼은 6.1Elasticsearch 버젼은 6.6 CDH 설치는 무리 없이 진행.Elasticsearch도 별 무리 없이 진행. zeppelin 설이 진행 시 많은 문제가 있었다. -> 최초 zeppelin 홈페이지에서 package 파일을 다운 받아 실행1. 에러 메시지 common-lang 버젼 충돌 오류 --------------------------------- CDH spark2.4에서는 common-lang-2.6을 사용하고 있는데 zeppelin 에서는 common-lang3-3.5를 사용 중 =.. 2019. 2. 28.
SPARK ElasticSearch 연동 SPARK ElasticSearch 연동Spark의 장점은 다른 Database와 연동이라고 볼수 있을 것이다.다른 DataBase의 데이터를 Spark로 가져와 빠르게 분석 할 수 있다.ElasticSearch과의 연동이 필요해서 관련된 글이다.zepplien notebook으로 연동한 것이다.ElasticSearch에서 데이터 가져오기//elastic search의 데이터를 가져와 DataFrame 형태로 만듬 //elastic search의 array타입은 string으로 넘어오는 듯 import org.apache.spark.sql.SparkSession import org.elasticsearch.spark._ import org.apache.spark.SparkConf import org.ap.. 2018. 1. 2.
Spark Serialized Task is Too Large Error Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l.. 2018. 1. 2.
SPARK와 HBASE 연동 SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa.. 2018. 1. 2.