Spark 메모리 문제
메모리 문제 확인
메모리 문제로 인해 다음과 같은 오류 메시지가 발생하는 경우가 많습니다.
SparkException: Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 30) (10.139.64.114 executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
그러나 이러한 오류 메시지는 일반적인 경우가 많으며 다른 문제로 인해 발생할 수 있습니다. 따라서 메모리 문제가 있다고 의심되는 경우 코어당 메모리를 두 배로 늘려 문제에 영향을 주는지 확인하여 문제를 확인할 수 있습니다.
예를 들어 메모리당 코어가 4개, 메모리가 16GB인 작업자 유형이 있는 경우 4코어와 32GB 메모리가 있는 작업자 유형으로 전환해 볼 수 있습니다. 이는 이전에 사용했던 코어당 4GB에 비해 코어당 8GB를 제공합니다. 여기서 중요한 것은 코어와 메모리의 비율입니다. 추가 메모리로 실패하는 데 시간이 오래 걸리거나 전혀 실패하지 않는 경우 이는 올바른 궤도에 있다는 좋은 신호입니다.
메모리를 늘려 문제를 해결할 수 있다면 정말 좋습니다. 어쩌면 그 솔루션입니다. 문제가 해결되지 않거나 추가 비용을 부담할 수 없는 경우 더 깊이 파고 들어야 합니다.
가능한 원인
메모리 문제에 대한 잠재적인 이유는 여러 가지가 있습니다.
- 셔플 파티션이 너무 적습니다.
- 대규모 브로드캐스트
- UDF
-
Window 함수는
PARTITION BY
문 없이 - 기울임
- 스트리밍 상태