
1. 장애 현상Spark 작업 중 특정 노드에서 자주 FetchFailedException 오류가 발생하면서 작업이 지연되고 재시도 실패가 간헐적으로 발생하고 있었습니다. Hadoop 클러스터에서는 CPU / Memory / DISK / Network 등 충분한 리소스가 있었으며 별다른 이상 현상을 탐지 할 수 없었습니다. (또한, Hadoop 은 Bonding 으로 구성되어 있음) 로그 예시FetchFailedException: Connection from closed2. 초기 진단2.1 netstat -i 확인 결과문제가 발생한 노드와 정상 노드 간의 인터페이스 수신 상태를 비교해보니 다음과 같은 차이를 확인할 수 있었습니다.노드RX-ERRRX-DRPRX-OVR비고slave0001010520문제 없..
업무 기록/Trouble Shooting
2025. 4. 15. 21:25
공지사항
최근에 올라온 글