본문 바로가기

프로그래밍/spark3

SPARK ElasticSearch 연동 SPARK ElasticSearch 연동Spark의 장점은 다른 Database와 연동이라고 볼수 있을 것이다.다른 DataBase의 데이터를 Spark로 가져와 빠르게 분석 할 수 있다.ElasticSearch과의 연동이 필요해서 관련된 글이다.zepplien notebook으로 연동한 것이다.ElasticSearch에서 데이터 가져오기//elastic search의 데이터를 가져와 DataFrame 형태로 만듬 //elastic search의 array타입은 string으로 넘어오는 듯 import org.apache.spark.sql.SparkSession import org.elasticsearch.spark._ import org.apache.spark.SparkConf import org.ap.. 2018. 1. 2.

Spark Serialized Task is Too Large Error Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l.. 2018. 1. 2.

SPARK와 HBASE 연동 SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa.. 2018. 1. 2.

이전 1 다음

티스토리툴바