-
SPARK ElasticSearch 연동프로그래밍/spark 2018. 1. 2. 18:27
SPARK ElasticSearch 연동Spark의 장점은 다른 Database와 연동이라고 볼수 있을 것이다.다른 DataBase의 데이터를 Spark로 가져와 빠르게 분석 할 수 있다.ElasticSearch과의 연동이 필요해서 관련된 글이다.zepplien notebook으로 연동한 것이다.ElasticSearch에서 데이터 가져오기//elastic search의 데이터를 가져와 DataFrame 형태로 만듬 //elastic search의 array타입은 string으로 넘어오는 듯 import org.apache.spark.sql.SparkSession import org.elasticsearch.spark._ import org.apache.spark.SparkConf import org.ap..
-
Spark Serialized Task is Too Large Error프로그래밍/spark 2018. 1. 2. 17:30
Spark Serialized Task is Too Large ErrorHBase와 연동하여 테스트 중Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html에러 메시지Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes). Consider increasing spark.rpc.message.maxSize or using broadcast variables for l..
-
SPARK와 HBASE 연동프로그래밍/spark 2018. 1. 2. 17:28
SPARK와 HBASE 연동데이터 관리를 위해서 HBASE를 사용해야 할 일이 생겼다.SPARK와 연동해서 사용할 방법을 찾고 있는데...검색해 보면 두가지가 나온다.HORTONWOKRS-SHC HBase-connector 위에꺼는 DataFrame 단으로 접근이 가능해서 데이터를 입력이 가능하다.아래는 RDD 단으로 접근해서 데이터 입력이 가능하다.그리고 위에께 꾸준히 업데이트 되고 있는 것으로 보인다.처음에 저 링크를 찾지 못해 엄청 해메고 말았지만...위에 꺼를 설치하고 테스트 하면 잘된다. 굳이 설명이 필요 없겠다.허나 이걸 zeppelin에서 돌릴려면일단 repo를 추가 해야 한다.spark interpreter 로 가서zeppelin.dep.additionalRemoteRepositoryspa..
-
HBASE 설정프로그래밍/hbase 2017. 12. 28. 11:41
HBASE 설정현재 IDC에 운영중인 hadoop 클러스트에서 HBASE 기반의 피닉스를 같이 운영하다보니 여러가지 문제가 발생하고 있다. 가장 큰 문제는 HBase RegionServer가 자꾸 죽는 다는 것이다. 원인은 메모리!! Node Manager랑 Region Server를 같이 쓰다 보니 메모리가 절대 부족... 어떻게 공유 하면서 최적으로 사용 할 수 있을까... The JVM is doing a long running garbage collecting which is pausing every threads (aka "stop the world"). Since the RegionServer’s local ZooKeeper client cannot send heartbeats, the ses..
-
Hive Table 생성 시 Multi-character delimiter 적용 방법프로그래밍/hive 2017. 12. 28. 11:35
Hive Table 생성 시 Multi-character delimiter 적용 방법Hive 에서 table을 만들 때 그냥 row format delimited fields terminated by '___' 이런 식으로 하면 !!그냥 '_' 캐릭터 하나로 인식한다. 여러개의 문자를 한꺼번에 인식하지 않는 다는 말이다.그럴 때는create table testtale ( logflag string, tst string, isp string, device string, model string, os_ver string, app_ver string, ukey string, ad_id string, dpx string, dpy string,logtype string, log string, curadm stri..
-
Hive MIN/MAX STRUCT 쿼리 사용프로그래밍/hive 2017. 12. 25. 17:27
### Hive Min/Max Struct ### 업무중 관련 데이터를 하면서 추가 적인 정보 요청으로 쿼리 고민에 빠지게 되었다.'나는 점수가 몇점인데 나랑 속한 데이터 중에 가장 큰 점수를 가지고 있는 놈의 이름은 무엇인가' SUBQuery 를 사용하면 쉽게 해결 할 수 있는 문제이지만 좀더 간결한 방식을 원해서 그리고 지원 할 것이라 생각되어 검색해 보았다.찾아 보니 **MIN/MAX STRUCT**라는 Function이 Hive 0.6.0에서 부터 지원되고 있었다.그러나 hive 관련 문서에서는 본적이 없다..흠.. 사용 방법은 이러하다 select kind, admcode_gu, max(struct(rv_rate, pid)).col1 as rv_rate , max(struct(rv_rate,pi..
-
Hive CLI 기본 셋팅프로그래밍/hive 2017. 12. 25. 17:20
요즘도 Hive 기본 CLI를 사용하고 있는 사람이 있르지 모르겠지만.... 부득이 하게 가끔 하이브 기본 CLI를 사용해야 할때가 있다. 그럴 때 데이터 조회 시 테이블 header나 현재 db명이 안나오면 좀 불편한 경우가 있다 그럴 땐 CLI에서 SET hive.cli.print.current.db = true(hive 현재 db명 표시)SET hive.cli.print.header = true(table 조회 시 최 상단에 테이블 header 표시) 영구 등록hive-site.xml에 등록하면 된다.
-
서버에 열려 있는 PORT 확인프로그래밍/linux 2017. 12. 20. 16:46
가끔 포트 포워딩으로 필요할 때만 특정 PORT를 Open 할 때가 있다.그런데 이게 비정상 적으로 종료하게 되면 PORT는 열려 있는 채로 서버에 존재하게 된다.해당 Port를 닫고 싶을 때 어떤 Port가 열려 있을 때 확인 하고 Kill 하는 방법 이다. lsof -i TCP:port[포트 확인] netstat -ln [연결프로그램 확인] netstat -lnp | grep 32769[어떤 작업인지 확인] ps auwex | grep -w 32769