ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Spark Serialized Task is Too Large Error
    프로그래밍/spark 2018. 1. 2. 17:30
    728x90

    Spark Serialized Task is Too Large Error

    HBase와 연동하여 테스트 중

    Hbase에서 scan한 데이터를 가져와서 RDD 형태 DataFrame형태로 만들 때 이런 에러가 발생했다.

    참조 - https://docs.databricks.com/spark/latest/faq/spark-serialized-task-is-too-large.html

    에러 메시지

    Serialized task XXX:XXX was XXX bytes, which exceeds max allowed: spark.rpc.message.maxSize (XXX bytes).
    Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.

    설정 상에서 저 위에 값을 바꿔줘도 되지만

    프로그램밍으로 해결 할 수도 있다.

    %scala
    
    val largeList = Seq(...) // This is a large list
    val partitionNum = 100 // Increase this number if necessary
    val rdd = sc.parallelize(largeList, partitionNum)
    val ds = rdd.toDS()
    Copy to clipboardCopy
    %python
    
    largeList = [...] # This is a large list
    partitionNum = 100 # Increase this number if necessary
    rdd = sc.parallelize(largeList, partitionNum)
    ds = rdd.toDS()


    728x90

    '프로그래밍 > spark' 카테고리의 다른 글

    SPARK ElasticSearch 연동  (0) 2018.01.02
    SPARK와 HBASE 연동  (3) 2018.01.02
Designed by Tistory.