프로그래밍/hadoop
-
DataNode Java Heap Warning프로그래밍/hadoop 2016. 8. 24. 11:55
HDP 버젼을 2.4로 업데이트 이후 DATANODE JAVA HEAP WARNING을 자주 보게 되었다. 기존까지 별 문제 없다가 업데이트 이후 자주 보이고 있다. 결국은 GC 문제로 추정되는데 WARNING이 발생하더라도 나중에는 사라지게 된다. DATANODE의 JAVA HEAP의 크기를 증가 시켜 줘도 똑 같은 현상이 발생하는 걸 보면 확실히 GC의 문제이다. 이 GC가 너무 자주 동작해도 문제고 너무 동작하지 않아서 FULL GC가 돌게 되어도 문제다. 어느 것이든 성능 이슈가 발생하게 된다. 일단 나의 이론이 맞는지 증명해 보기 위한 간단한 테스트! "jcmd GC.run" 명령으로 해당 DATANODE에 강제적으로 full garbage collect를 동작하게 해주면 위의 경고는 조금 후 ..
-
JounalNode 오류 관련 해프닝프로그래밍/hadoop 2016. 7. 12. 13:51
현재 구동 중인 Hadoop Cluster에 로그 미삭제로 인한 디스크 FULL이 발생. JournalNode의 기록이 작성 중 중단되는 현상이 발생. - 용량 확보 후 JournalNode을 재 시작 하였으나 파일 쓰기 오류 발생 => 참고로 JournalNode를 사용하기 위해서는 3개의 set 2개는 동작 가능해야 하는 상황이어야 함 - ambari API를 통한 재 구동 명령이 듣지 않음.- 수동 명령어로 재시작 (hortonworks HDP-2.4): /usr/hdp/{버전}/hadoop/sbin/hadoop-deamon.sh start journalnode - 여전히 쓰기 오류 발생WARN namenode.FSImage (EditLogFileInputStream.java:scanEditLog(..
-
HDP 2.0에서 HDP 2.4로 업그레이드 삽질프로그래밍/hadoop 2016. 5. 27. 10:53
오래전 부터 쓰던 Hortonworks 사의 HDP 2.0 버젼을을 최근에 나온 2.4 버젼으로 업그레이드 해야 할 필요성이 생겼다. 일단 너무 오래된 버젼이라 나날이 발전하고 있는 Hadoop 관련 시스템들의 지원이 제대로 이루어 지고 있지 않고 있었고 현재 만들고 있는 데이터들의 생성 속도도 현저하게 저하되고 있었다. 일단 Rolling Upgrade를 지원하는지를 확인 해봐야 했다. 메일 생성되는 데이터가 있으니 진행에 차질이 없어야 하니! Hortonworks 홈페이지에서 확인해 보니 Rolling upgrade를 지원한다! 하지만! ImportantAmbari 2.2.2 does not support managing an HDP 2.1 or 2.0 cluster. If you are runnin..
-
PostgreSQL shell command(ambari)프로그래밍/hadoop 2016. 4. 11. 19:48
Hadoop 설치 시 hostname를 잘 못 지정하여 설치하여 hostname을 변경 후 재 설치 했더니... ambari-server 에서 host하나가 없어 졌다고 자꾸 alert을 발생 시키고 있다. 이거 어찌 하겠는가... 같은 host인데 이름만 바꼈을 뿐... 다르게 인식하다니... 상관은 없지만 아무래도 경고 메시지가 시뻘걷게 떠 있으니 여간 신경이 쓰이지 않을 수 없다!!! 결구은 ambari DB에서 삭제 해주는 방법을 선택했다. 암바리 DB는 postgreSQL 흠 MySQL? MS-SQL? 암튼 뭐! 일단 ambari에 설치에 사용된 postgreSQL은 embaded postgreSQL 이다. 참고 하시고! postgreSQL 접속은! psql --host=127.0.0.1 --u..
-
Hiveserver2 Thread의 지속 적인 증가 현상 해결프로그래밍/hadoop 2016. 3. 10. 20:50
HDP-2.3.4.0-3485 버젼을 사용 중인데...특이하게 종종 Hiveserver2의 task Thread가 증가 하는 경우가 발생한다.결국에는 Thread가 계속 증가하다가 Hadoop의 성능이 현저하게 떨어지고 결국에는 뻗어 버리고 만다. 처음에는 원인을 몰랐다. ps -ef|grep hiveserver 명령후 나오는 pid를 가지고 /proc/{pid}/task/ 폴더 안에 들어가 보면 해당 process의 thread 수를 알 수가 있다. 이를 통해서 hiveserver2를 통해서 생성되는 thread 수를 파악 했고 for ((;;)) ; do ls |wc -l ; sleep 5 ;done 을 통해 쿼리 수행 시 thread 수를 계속적으로 모니터링 한 결과 지속 적인 증가가 이루어 지는 ..