DevOps
DevOps - Incident severity level의 정의
shj4895
2025. 1. 17. 17:13
Incident severity level이란 IT 시스템, 서비스, 애플리케이션 또는 인프라에서 발생한 Incident의 심각성을 측정하고 분류하기 위해 사용되는 표준화된 기준입니다. 이에 대한 level과 기준은 조직마다 다르게 정의됩니다.
Severity 1
정의 : 전체 비즈니스 중단 상황. 주요 서비스나 시스템이 완전히 중단되거나 보안 사고, 데이터 손실이 발생한 경우입니다.
사례 :
- 주요 서비스(결제, 인증 등)가 완전히 중단된 경우.
- 클라우드 제공업체의 심각한 문제(Azure, AWS)로 인프라가 완전히 중단된 경우.
- 보안 사고(예: 랜섬웨어, 데이터 유출 등)으로 인해 서비스가 즉각 중단된 경우.
- 중요한 사용자 데이터가 손실되어 비즈니스 운영이 불가능한 경우.
Severity 2
정의 : 부분적 비즈니스 중단 상황. 주요 기능 일부가 정상 작동하지 않아 사용자 경험 저하 및 업무 지연이 발생하지만, 비즈니스의 기본 운영은 유지 가능한 경우입니다.
사례 :
- 주요 API 응답 속도 저하인 경우.
- 특정 기능(파일 업로드, 보고서 생성 등)이 작동하지 않아 업무 지연이 발생한 경우.
- 웹 애플리케이션의 주요 페이지 로드 시간이 10초 이상 걸려 사용자 이탈이 증가한 경우.
- 서버나 데이터베이스의 리소스 한계로 인해 간헐적인 서비스 거부 상태가 발생한 경우.
- 특정 클라이언트 또는 서버 간 네트워크 연결이 자주 끊겨 중요한 트랜잭션이 중단된 경우.
Severity 3
정의 : 비즈니스 연속성에는 큰 영향을 미치지 않는 기능적 결함이나 성능 저하. 일부 사용자 경험이 저하되지만 시스템은 전반적으로 작동하는 경우입니다.
사례 :
- 필수적이지 않은 기능에 지연이 발생하거나 아예 작동하지 않는 경우(ex: 검색 필터 동작 안 함, 파일 업로드 속도 지연).
- 비즈니스에 큰 영향을 미치지 않는 데이터 처리가 지연된 경우.
- 다국어 지원에 문제가 발생한 경우(ex: 특정 언어 번역 누락 또는 오타).
- 특정 작업 수행 시 불필요한 경고 메시지가 표시되는 경우(운영에는 영향 없음).
Severity 4
정의 : 시스템 성능이나 안정성에는 영향을 미치지 않는 경미한 결함이나 최적화 작업을 수행한 경우입니다.
사례 :
- 상대적으로 잘 사용하지 않는 브라우저에서 UI 요소가 다르게 보이는 경우(ex: 오래된 Edge 버전).
- 디버깅 로그가 과도하게 출력되거나 예상치 않은 메시지가 로그에 표시되는 경우.
- 주요 기능과 관련이 없는 최적화 작업을 수행한 경우(ex: 로깅 수준 변경).
- 사용자 매뉴얼, API 문서에 일부 오래된 정보가 포함된 경우.
아래는 위 내용을 요약한 표입니다.
Severity Level | Definition | Key Features | Examples |
Severity 1 | 전체 서비스 또는 핵심 기능이 중단되어 비즈니스에 심각한 영향을 미침. |
|
|
Severity 2 | 비즈니스 핵심 기능 일부 중단 또는 성능 심각 저하로 사용자 경험에 악영향. |
|
|
Severity 3 | 비즈니스 운영에는 큰 영향을 미치지 않으나 사용자 경험에 영향을 미치는 경미한 문제. |
|
|
Severity 4 | 비즈니스나 성능에 영향이 없는 경미한 결함, 최적화 작업 또는 일반 지원 요청. |
|
|