Spark
-
zeppelin-0.8.1 설치 삽질(with elasticsearch)프로그래밍/hadoop 2019. 7. 15. 11:15
회사에 신규 CDH Hadoop을 설치 하였다. 당연히 zeppelin을 설치 하려고 했는데 회사 내에 다른 주임님이 요즘 zeppelin 버그가 너무 많아서 실무에서는 잘 안쓰인다고 했다. jupyter가 짱이라면서... 흠... 초창기 부터 사용해왔던 나로써는 아직 zeppelin에 대한 좋은 기억들이 있어서 이번에 그냥 zeppelin을 설치 해보기로 했다. 일단 홈페이지에서 zeppeiln-0.8.1(최신 버젼) 빌드 버젼을 받아서 실행 실행은 잘된다. 하지만 문제점들이 발생 1. json 로드 시 common-langs 버젼 오류가 발생하면서 json 파일이 로드가 안된다. 원인 : CDH에서 spark2.4 는 common-lang3-3.7 을 쓰고 있는데 zeppelin에서는 common-l..
-
zeppelin, Elasticsearch 와 spark프로그래밍/Elasticserach 2019. 2. 28. 15:46
테스트 Poc를 수행하기 위해 CDH6.1을 설치 하였다. 거기서 분석 툴로서 Zeppelin을 간만에 올려 보기로 하고 진행 하던 중 발 생한 문제 정리 Zeppelin 버젼은 0.8.0 CDH 버젼은 6.1Elasticsearch 버젼은 6.6 CDH 설치는 무리 없이 진행.Elasticsearch도 별 무리 없이 진행. zeppelin 설이 진행 시 많은 문제가 있었다. -> 최초 zeppelin 홈페이지에서 package 파일을 다운 받아 실행1. 에러 메시지 common-lang 버젼 충돌 오류 --------------------------------- CDH spark2.4에서는 common-lang-2.6을 사용하고 있는데 zeppelin 에서는 common-lang3-3.5를 사용 중 =..
-
SPARK ElasticSearch 연동프로그래밍/spark 2018. 1. 2. 18:27
SPARK ElasticSearch 연동Spark의 장점은 다른 Database와 연동이라고 볼수 있을 것이다.다른 DataBase의 데이터를 Spark로 가져와 빠르게 분석 할 수 있다.ElasticSearch과의 연동이 필요해서 관련된 글이다.zepplien notebook으로 연동한 것이다.ElasticSearch에서 데이터 가져오기//elastic search의 데이터를 가져와 DataFrame 형태로 만듬 //elastic search의 array타입은 string으로 넘어오는 듯 import org.apache.spark.sql.SparkSession import org.elasticsearch.spark._ import org.apache.spark.SparkConf import org.ap..
-
Spark Serialized Task is Too Large Error프로그래밍/spark 2018. 1. 2. 17:30
Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l..
-
SPARK와 HBASE 연동프로그래밍/spark 2018. 1. 2. 17:28
SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa..