DevOps

DevOps - Incident severity level의 정의

shj4895 2025. 1. 17. 17:13

Incident severity level이란 IT 시스템, 서비스, 애플리케이션 또는 인프라에서 발생한 Incident의 심각성을 측정하고 분류하기 위해 사용되는 표준화된 기준입니다. 이에 대한 level과 기준은 조직마다 다르게 정의됩니다.

Severity 1

정의 : 전체 비즈니스 중단 상황. 주요 서비스나 시스템이 완전히 중단되거나 보안 사고, 데이터 손실이 발생한 경우입니다.

사례 :

  1. 주요 서비스(결제, 인증 등)가 완전히 중단된 경우.
  2. 클라우드 제공업체의 심각한 문제(Azure, AWS)로 인프라가 완전히 중단된 경우.
  3. 보안 사고(예: 랜섬웨어, 데이터 유출 등)으로 인해 서비스가 즉각 중단된 경우.
  4. 중요한 사용자 데이터가 손실되어 비즈니스 운영이 불가능한 경우.

Severity 2

정의 : 부분적 비즈니스 중단 상황. 주요 기능 일부가 정상 작동하지 않아 사용자 경험 저하 및 업무 지연이 발생하지만, 비즈니스의 기본 운영은 유지 가능한 경우입니다.

사례 :

  1. 주요 API 응답 속도 저하인 경우.
  2. 특정 기능(파일 업로드, 보고서 생성 등)이 작동하지 않아 업무 지연이 발생한 경우.
  3. 웹 애플리케이션의 주요 페이지 로드 시간이 10초 이상 걸려 사용자 이탈이 증가한 경우.
  4. 서버나 데이터베이스의 리소스 한계로 인해 간헐적인 서비스 거부 상태가 발생한 경우.
  5. 특정 클라이언트 또는 서버 간 네트워크 연결이 자주 끊겨 중요한 트랜잭션이 중단된 경우.

Severity 3

정의 : 비즈니스 연속성에는 큰 영향을 미치지 않는 기능적 결함이나 성능 저하. 일부 사용자 경험이 저하되지만 시스템은 전반적으로 작동하는 경우입니다.

사례 :

  1. 필수적이지 않은 기능에 지연이 발생하거나 아예 작동하지 않는 경우(ex: 검색 필터 동작 안 함, 파일 업로드 속도 지연).
  2. 비즈니스에 큰 영향을 미치지 않는 데이터 처리가 지연된 경우.
  3. 다국어 지원에 문제가 발생한 경우(ex: 특정 언어 번역 누락 또는 오타).
  4. 특정 작업 수행 시 불필요한 경고 메시지가 표시되는 경우(운영에는 영향 없음).

Severity 4

정의 : 시스템 성능이나 안정성에는 영향을 미치지 않는 경미한 결함이나 최적화 작업을 수행한 경우입니다.

사례 :

  1. 상대적으로 잘 사용하지 않는 브라우저에서 UI 요소가 다르게 보이는 경우(ex: 오래된 Edge 버전).
  2. 디버깅 로그가 과도하게 출력되거나 예상치 않은 메시지가 로그에 표시되는 경우.
  3. 주요 기능과 관련이 없는 최적화 작업을 수행한 경우(ex: 로깅 수준 변경).
  4. 사용자 매뉴얼, API 문서에 일부 오래된 정보가 포함된 경우.

아래는 위 내용을 요약한 표입니다.

 
Severity Level Definition Key Features Examples
Severity 1 전체 서비스 또는 핵심 기능이 중단되어 비즈니스에 심각한 영향을 미침.
  • 대규모 사용자 영향
  • 재정적 손실 가능
  • 즉각적인 대응 필요
  • 주요 서비스 전체 다운
  • 시스템 전체 다운
  • 대규모 데이터 유출
Severity 2 비즈니스 핵심 기능 일부 중단 또는 성능 심각 저하로 사용자 경험에 악영향.
  • 제한적 사용자 영향
  • 업무 지연 발생
  • 주요 기능 일부 작동 불가
  • 특정 서비스(API, 결제 등) 다운
  • 네트워크 성능 심각 저하
  • 서버 리소스 한계로 간헐적 서비스 응답 거부
Severity 3 비즈니스 운영에는 큰 영향을 미치지 않으나 사용자 경험에 영향을 미치는 경미한 문제.
  • 주요 기능 정상 작동
  • 부가 기능 문제 발생
  • 사용자 문의 또는 불편 증가
  • 필수적이지 않은 기능의 지연 혹은 중단
  • 다국어 지원 기능에 번역 누락 혹은 오타
  • 불필요한 경고 메시지 표시
Severity 4 비즈니스나 성능에 영향이 없는 경미한 결함, 최적화 작업 또는 일반 지원 요청.
  • 서비스 운영에 영향 없음
  • 개선 또는 최적화 요청
  • 경미한 사용자 불편
  • UI 요소가 다르게 보이는 경우
  • 과도한 디버깅 로그 출력
  • 주요 기능과 관련이 없는 최적화 작업