본문 바로가기

분류 전체보기282

SPARK ElasticSearch 연동 SPARK ElasticSearch 연동Spark의 장점은 다른 Database와 연동이라고 볼수 있을 것이다.다른 DataBase의 데이터를 Spark로 가져와 빠르게 분석 할 수 있다.ElasticSearch과의 연동이 필요해서 관련된 글이다.zepplien notebook으로 연동한 것이다.ElasticSearch에서 데이터 가져오기//elastic search의 데이터를 가져와 DataFrame 형태로 만듬 //elastic search의 array타입은 string으로 넘어오는 듯 import org.apache.spark.sql.SparkSession import org.elasticsearch.spark._ import org.apache.spark.SparkConf import org.ap.. 2018. 1. 2.
Spark Serialized Task is Too Large Error Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l.. 2018. 1. 2.
SPARK와 HBASE 연동 SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa.. 2018. 1. 2.
HBASE 설정 HBASE 설정현재 IDC에 운영중인 hadoop 클러스트에서 HBASE 기반의 피닉스를 같이 운영하다보니 여러가지 문제가 발생하고 있다. 가장 큰 문제는 HBase RegionServer가 자꾸 죽는 다는 것이다. 원인은 메모리!! Node Manager랑 Region Server를 같이 쓰다 보니 메모리가 절대 부족... 어떻게 공유 하면서 최적으로 사용 할 수 있을까... The JVM is doing a long running garbage collecting which is pausing every threads (aka "stop the world"). Since the RegionServer’s local ZooKeeper client cannot send heartbeats, the ses.. 2017. 12. 28.
Hive Table 생성 시 Multi-character delimiter 적용 방법 Hive Table 생성 시 Multi-character delimiter 적용 방법Hive 에서 table을 만들 때 그냥 row format delimited fields terminated by '___' 이런 식으로 하면 !!그냥 '_' 캐릭터 하나로 인식한다. 여러개의 문자를 한꺼번에 인식하지 않는 다는 말이다.그럴 때는create table testtale ( logflag string, tst string, isp string, device string, model string, os_ver string, app_ver string, ukey string, ad_id string, dpx string, dpy string,logtype string, log string, curadm stri.. 2017. 12. 28.
Hive MIN/MAX STRUCT 쿼리 사용 ### Hive Min/Max Struct ### 업무중 관련 데이터를 하면서 추가 적인 정보 요청으로 쿼리 고민에 빠지게 되었다.'나는 점수가 몇점인데 나랑 속한 데이터 중에 가장 큰 점수를 가지고 있는 놈의 이름은 무엇인가' SUBQuery 를 사용하면 쉽게 해결 할 수 있는 문제이지만 좀더 간결한 방식을 원해서 그리고 지원 할 것이라 생각되어 검색해 보았다.찾아 보니 **MIN/MAX STRUCT**라는 Function이 Hive 0.6.0에서 부터 지원되고 있었다.그러나 hive 관련 문서에서는 본적이 없다..흠.. 사용 방법은 이러하다 select kind, admcode_gu, max(struct(rv_rate, pid)).col1 as rv_rate , max(struct(rv_rate,pi.. 2017. 12. 25.