본문 바로가기 메뉴 바로가기

seob

프로필사진
  • 글쓰기
  • 관리&로그인
  • 태그
  • 방명록
  • RSS
  • 링크(이웃)추가

seob

검색하기 폼
  • 전체보기 (136)
    • 업무 기록 (48)
      • 기본 (41)
      • Cloud Native (4)
      • Data Platform (1)
      • Trouble Shooting (2)
    • IT (17)
      • Python (0)
      • Windows (4)
      • 기타 (12)
      • Network (1)
      • 비공개 자료 (0)
    • 서비의 사생활 (71)
      • 맛집과 레시피 (48)
      • 여행 (4)
      • 잡동사니 (19)
  • 방명록
  • 링크(이웃)추가
  • 로그인

rx-err (1)
Hadoop 클러스터에서 발생한 네트워크 패킷 손실 이슈 분석 및 해결

1. 장애 현상Spark 작업 중 특정 노드에서 자주 FetchFailedException 오류가 발생하면서 작업이 지연되고 재시도 실패가 간헐적으로 발생하고 있었습니다. Hadoop 클러스터에서는 CPU / Memory / DISK / Network 등 충분한 리소스가 있었으며 별다른 이상 현상을 탐지 할 수 없었습니다. (또한, Hadoop 은 Bonding 으로 구성되어 있음) 로그 예시FetchFailedException: Connection from closed2. 초기 진단2.1 netstat -i 확인 결과문제가 발생한 노드와 정상 노드 간의 인터페이스 수신 상태를 비교해보니 다음과 같은 차이를 확인할 수 있었습니다.노드RX-ERRRX-DRPRX-OVR비고slave0001010520문제 없..

업무 기록/Trouble Shooting 2025. 4. 15. 21:25
이전 1 다음
이전 다음
공지사항
최근에 올라온 글

Blog is powered by Tistory / Designed by Tistory
맨 위로

티스토리툴바