신뢰성과 관찰 가능성

신뢰성과 관찰 가능성이 중요한 이유

실제 시스템에서는 장애가 드문 예외 상황이 아니라, 지속적으로 감지하고 처리해야 하는 예상되는 조건입니다.

🖥️

부하: 20%

안정적

스파이크

성능 저하

감지됨

복구 중

📊

메트릭

📄

로그

🚨

알림

시스템은 끊임없이 실패 상태를 오갑니다. 가시성은 문제를 조기에 감지해 전체 장애가 발생하기 전에 복구를 시작할 수 있게 합니다.

트래픽 급증과 리소스 한계는 시스템에 과부하를 일으킬 수 있습니다.
의존성 및 데이터베이스는 실패하거나 느려질 수 있습니다.
네트워크 문제는 지연, 패킷 손실 또는 서비스 중단을 유발합니다.

상세정보

프로덕션에서 동작하는 백엔드 시스템은 예측할 수 없는 조건에 끊임없이 노출됩니다. 통제된 환경과 달리, 실제 시스템은 언제든지 변동하는 트래픽, 부분적인 장애, 성능 저하를 처리해야 합니다. 이러한 문제는 예외가 아니라 시스템의 정상적인 동작 일부입니다.

신뢰성은 구성 요소가 실패하더라도 시스템이 올바르게 계속 동작할 수 있는 능력입니다. 여기에는 가용성 유지, 다운타임 최소화, 오류 발생 시 우아하게 복구하는 것이 포함됩니다. 신뢰할 수 있는 시스템은 장애가 발생할 것을 전제로 하고, 이를 견딜 수 있도록 설계됩니다.

관찰 가능성은 시스템 내부에서 무슨 일이 일어나고 있는지 이해하는 데 초점을 맞춥니다. 문제가 발생하면 엔지니어는 근본 원인을 파악하기 위해 내부 상태와 동작을 볼 수 있어야 합니다. 관찰 가능성이 없으면 장애는 진단 가능한 문제가 아니라 추측의 대상이 됩니다.

실무에서는 시스템이 지속적인 루프를 따릅니다. 장애가 발생하면 모니터링 시스템이 비정상 동작을 감지하고, 엔지니어는 사용 가능한 데이터를 바탕으로 조사합니다. 이 과정의 속도와 정확성은 시스템 안정성과 사용자 경험에 직접적인 영향을 미칩니다.

로깅

로그는 시스템 내부에서 발생하는 이벤트를 구조화된 기록으로 남긴 것으로, 실행 중에 어떤 일이 일어났는지에 대한 자세한 타임라인을 제공합니다.

🖥️

시스템

📜

로그 스트림

...

INFO

시스템 활동

QUERY

데이터 작업

ERROR

실패

로그는 시스템 동작의 타임라인을 형성해 디버깅과 분석을 가능하게 합니다.

로그는 요청, 쿼리, 오류와 같은 시스템 활동을 단계별로 기록합니다.
로그는 장애를 디버깅하고 시스템 동작을 이해하는 데 필수적입니다.
서로 다른 로그 유형은 시스템의 서로 다른 부분을 확인할 수 있게 해줍니다.

상세정보

백엔드 시스템 내부의 모든 작업은 로그 항목을 생성할 수 있습니다. 예를 들어 요청이 수신되거나, 사용자가 인증되거나, 데이터베이스 쿼리가 실행되거나, 오류가 발생할 때마다 각 단계가 로그로 기록될 수 있습니다. 이러한 기록은 엔지니어가 분석할 수 있는 이벤트의 시간순 흔적을 만듭니다.

로그는 가장 기본적인 관찰 가능성(observability) 도구 중 하나입니다. 시스템에 장애가 발생하면, 엔지니어는 보통 무엇이 잘못되었는지 이해하기 위해 가장 먼저 로그를 확인합니다. 로그 메시지를 살펴보면, 장애에 이르기까지의 작업 순서를 추적하고 근본 원인을 식별할 수 있습니다.

일반적인 로그 유형에는 여러 가지가 있습니다. 애플리케이션 로그는 일반적인 시스템 동작을 기록하고, 오류 로그는 실패와 예외에 집중하며, 액세스 로그는 HTTP 트래픽과 같은 들어오는 요청을 기록합니다. 이 로그들을 함께 보면 시스템 활동을 종합적으로 파악할 수 있습니다.

로깅이 없으면 시스템은 불투명해집니다. 엔지니어는 과거 사건을 신뢰할 수 있게 재구성할 방법이 없기 때문에, 디버깅과 장애 대응이 훨씬 더 어려워집니다.

메트릭

메트릭은 시스템 성능을 정량화하고 시간에 따라 지속적으로 모니터링할 수 있게 해주는 수치 측정값입니다.

요청

360/s

오류

3/s

지연 시간

72ms

과거현재 →

메트릭은 지속적으로 업데이트됩니다 — 스파이크는 이상 징후를 드러내고, 추세는 시스템 상태를 보여줍니다.

메트릭은 요청률, 오류율, 지연 시간과 같은 주요 신호를 추적합니다.
메트릭은 시스템 상태와 성능을 실시간으로 파악할 수 있게 해줍니다.
시간에 따른 추세는 이상 징후를 감지하고 잠재적인 문제를 예측하는 데 도움이 됩니다.

상세정보

로그가 개별 이벤트 수준의 상세 정보를 기록하는 것과 달리, 메트릭은 집계된 수치 데이터에 초점을 맞춥니다. 일반적인 예로는 초당 요청 수, 실패한 요청의 비율, 응답 지연 시간, CPU 사용량 등이 있습니다. 이러한 값은 시스템이 어떻게 동작하고 있는지에 대한 높은 수준의 관점을 제공합니다.

메트릭은 지속적인 모니터링을 위해 설계되었습니다. 시스템은 이러한 측정값을 시간에 따라 수집하고 저장하여, 엔지니어가 추세를 시각화하고 패턴을 식별할 수 있게 합니다. 예를 들어, 지연 시간이 점진적으로 증가하면 성능 병목이 커지고 있음을 나타낼 수 있고, 오류율이 갑자기 급증하면 장애를 의미할 수 있습니다.

메트릭은 가볍고 구조화되어 있기 때문에 대시보드와 알림 시스템에 이상적입니다. 엔지니어는 상세한 로그를 일일이 살펴보지 않고도 시스템 상태를 빠르게 평가하기 위해 메트릭에 의존합니다.

모니터링은 이러한 메트릭을 수집, 저장, 분석하는 작업입니다. 이는 시스템 성능에 대한 지속적인 인사이트를 제공하고, 문제가 큰 장애로 확대되기 전에 조기에 감지할 수 있게 해줍니다.

분산 추적

분산 추적은 하나의 요청을 여러 서비스에 걸쳐 따라가며, 실행 중에 서로 다른 구성 요소가 어떻게 상호작용하는지 보여줍니다.

총 지연 시간

0 ms

⚙️

게이트웨이

20ms

⚙️

인증

25ms

⚙️

API

15ms

🐢

데이터베이스

60ms

⚙️

캐시

10ms

⚙️

응답

5ms

🔴

각 루프는 추적된 요청 하나를 나타냅니다. 시스템은 재설정되고 계속해서 다시 추적합니다.

추적은 요청이 여러 서비스를 거쳐 이동하는 경로를 보여줍니다.
지연이 어디에서 발생하는지, 그리고 어떤 구성 요소가 느린지 식별합니다.
분산 시스템에서 실패의 정확한 원인을 pinpoint하는 데 도움이 됩니다.

상세정보

현대의 백엔드 시스템은 하나의 애플리케이션인 경우가 거의 없습니다. 대신 서로 통신하는 여러 서비스로 구성됩니다. 하나의 사용자 요청은 응답을 반환하기 전에 API 서비스, 인증 서비스, 데이터베이스를 거칠 수 있습니다.

분산 추적은 이 전체 여정을 기록합니다. 요청의 각 단계는 trace로 기록되며, 각 서비스가 얼마나 오래 걸렸는지와 서로 어떻게 연결되어 있는지를 보여줍니다. 이를 통해 시스템 전반에서 요청 실행을 완전히 파악할 수 있습니다.

추적은 성능 문제를 진단할 때 특히 중요합니다. 예를 들어 요청이 느리다면, 추적을 통해 지연이 API 계층, 외부 의존성, 또는 데이터베이스 쿼리 중 어디에서 발생하는지 확인할 수 있습니다.

추적이 없으면 엔지니어는 복잡한 시스템에서 문제가 어디서 발생하는지 추측할 수밖에 없습니다. 추적이 있으면 요청의 정확한 경로를 따라가며 병목이나 실패 지점을 정밀하게 식별할 수 있습니다.

알림

알림은 시스템 동작이 미리 정의된 임계값을 넘어서 주의가 필요할 때 엔지니어에게 알려 주는 자동 신호입니다.

시스템 부하임계값 →

알림 스트림

10 트리거

⚠️

의미 있는 스파이크만 알림을 트리거합니다

건강한 모니터링

임계값은 중요한 것을 정의합니다

알림은 메트릭이 안전하거나 예상된 한계를 초과할 때 트리거됩니다.
이들은 다운타임이나 높은 오류율 같은 문제를 빠르게 감지할 수 있게 해 줍니다.
잘못 구성된 알림은 노이즈를 유발하고 효과를 떨어뜨릴 수 있습니다.

상세정보

프로덕션 시스템에서는 엔지니어가 대시보드를 항상 직접 확인할 수 없습니다. 알림은 메트릭을 지속적으로 모니터링하고 비정상적인 상황이 발생하면 알림을 보내 이 과정을 자동화합니다. 예를 들어 오류율이 갑자기 급증하거나, 서비스가 중단되거나, 데이터베이스의 지연 시간이 높아지는 경우 모두 알림을 트리거할 수 있습니다.

알림은 일반적으로 간단한 흐름을 따릅니다: 메트릭이 미리 정의된 임계값을 넘고, 시스템이 알림을 생성하며, 엔지니어는 이메일, 메시징 앱, 또는 인시던트 관리 도구 같은 채널을 통해 통지를 받습니다.

효과적인 알림에는 신중한 구성이 필요합니다. 임계값이 너무 민감하면 엔지니어가 너무 많은 알림을 받아 알림 피로가 생기고 중요한 신호를 무시하게 될 수 있습니다. 임계값이 너무 느슨하면 중요한 문제가 눈에 띄지 않을 수 있습니다.

목표는 실행 가능한 알림을 설계하는 것입니다. 즉, 실제로 개입이 필요한 문제를 알려 주어야 합니다. 잘 설계된 알림은 대응 시간을 줄이고 시스템의 신뢰성을 유지하는 데 도움이 됩니다.

재시도

재시도는 일시적인 실패가 발생했을 때, 요청을 즉시 실패로 처리하지 않고 자동으로 다시 시도하여 처리합니다.

재시도 타임라인시간 →

시도 1

시도 2

시도 3

시도 4

동시 시도

유휴

재시도가 간격을 둠 → 제어된 복구

많은 실패는 일시적이며 재시도하면 성공할 수 있습니다.
재시도 전략은 재시도가 언제, 얼마나 자주 발생할지 제어합니다.
부적절한 재시도는 시스템에 과부하를 주고 실패를 더 악화시킬 수 있습니다.

상세정보

분산 시스템에서는 실패가 종종 짧게 지속됩니다. 네트워크 타임아웃, 일시적으로 과부하된 서비스, 또는 잠깐의 데이터베이스 문제로 인해 시스템이 여전히 동작 중이어도 요청이 실패할 수 있습니다. 시스템은 즉시 오류를 반환하는 대신 요청을 재시도할 수 있습니다.

재시도는 간단한 패턴을 따릅니다. 요청이 실패하면 시스템은 잠시 기다린 뒤 같은 요청을 다시 시도합니다. 많은 경우, 근본적인 문제가 해결되어 두 번째 시도는 성공합니다.

일반적인 재시도 전략에는 시도 사이에 고정된 지연을 두는 방법이나, 실패할 때마다 지연 시간이 늘어나는 지수 백오프(exponential backoff)를 사용하는 방법이 있습니다. 지수 백오프는 재시도 간격을 넓혀 이미 어려움을 겪고 있는 시스템에 가해지는 압력을 줄여줍니다.

재시도는 신중하게 사용해야 합니다. 공격적인 재시도 동작은 장애 중 부하를 증폭시켜 연쇄적인 문제를 일으킬 수 있습니다. 잘 설계된 재시도 로직은 복구와 시스템 안정성 사이의 균형을 맞춥니다.

서킷 브레이커

서킷 브레이커는 실패하는 서비스에 대한 반복 호출을 중단하여, 작은 문제가 시스템 전체 장애로 확대되는 것을 방지합니다.

✅ 트래픽 전달 중

💻

호출 서비스

⚡

📦

🖥️

서비스

요청은 정상적으로 흐릅니다. 실패는 모니터링되고 있습니다.

반복적인 실패를 감지하고 추가 요청을 일시적으로 차단합니다.
이를 통해 실패 중인 서비스의 부하를 줄이고 연쇄 장애를 방지합니다.
트래픽이 점진적으로 다시 허용되기 전에 시스템이 복구할 수 있습니다.

상세정보

분산 시스템에서는 하나의 실패한 서비스가 연쇄 반응을 일으킬 수 있습니다. 서비스가 이미 실패한 상태인데도 계속 요청을 받으면 과부하가 걸릴 수 있고, 그 결과 지연이나 장애가 시스템의 다른 부분으로 퍼질 수 있습니다.

서킷 브레이커는 실패율을 모니터링하여 이를 해결합니다. 실패가 임계값을 넘으면 회로가 “열리고”, 들어오는 요청은 실패한 서비스로 보내지지 않고 차단되거나 즉시 거부됩니다.

냉각 기간이 지난 후에는 시스템이 소수의 테스트 요청을 허용할 수 있습니다. 이 요청들이 성공하면 회로는 닫히고 정상 트래픽이 다시 시작됩니다. 실패가 계속되면 회로는 열린 상태를 유지합니다.

이 패턴은 실패한 구성 요소에 불필요한 부하가 걸리는 것을 막고 시스템이 복구할 시간을 주므로, 분산 환경에서 안정성을 유지하는 데 중요한 도구입니다.

속도 제한

속도 제한은 클라이언트가 요청을 보낼 수 있는 빈도를 제어하여, 시스템이 과부하되거나 남용되는 것을 방지합니다.

토큰 버킷

●

토큰은 시간이 지나며 보충됩니다

📱

클라이언트

🖥️

서버

요청은 토큰을 소모합니다 — 토큰이 모두 소진되면 새 요청은 보충될 때까지 거부됩니다

이는 클라이언트가 일정 시간 창 내에 보낼 수 있는 요청 수를 제한합니다.
백엔드 서비스가 과도한 부하와 악성 트래픽으로부터 보호됩니다.
한도에 도달하면 요청은 허용되거나 거부됩니다.

상세정보

백엔드 시스템은 여러 클라이언트로부터 동시에 들어오는 트래픽을 처리해야 합니다. 제한이 없으면 단일 클라이언트 또는 여러 클라이언트의 집합이 압도적인 수의 요청을 보내 성능을 저하시키거나 장애를 일으킬 수 있습니다.

속도 제한은 요청 빈도에 경계를 설정합니다. 예를 들어, 시스템은 사용자당 분당 100개의 요청을 허용할 수 있습니다. 클라이언트가 이 한도를 초과하면 추가 요청은 거부되거나 다음 시간 창까지 지연됩니다.

이 메커니즘은 여러 목적을 가집니다. 스팸이나 서비스 거부(DoS) 공격과 같은 남용을 방지하고, 백엔드 리소스가 과부하되는 것을 막으며, 사용자 간 공정한 사용을 보장합니다.

속도 제한은 일반적으로 토큰 버킷(token bucket) 또는 리키 버킷(leaky bucket) 같은 알고리즘으로 구현되며, 이는 시간에 따른 요청 흐름을 추적하고 제어합니다.

관찰 가능성 도구

관찰 가능성 도구는 시스템 데이터를 수집하고 시각화하여, 엔지니어가 상태를 모니터링하고 문제를 실시간으로 진단할 수 있게 합니다.

로그

GET /api

200 OK

DB query

Cache hit

Auth check

이벤트 스트림

메트릭

성능 추세

트레이스

🌐

🖥️

🗄️

요청 경로

✅ 시스템 정상

로그 + 메트릭 + 트레이스 → 실시간 인사이트

이들은 로그, 메트릭, 트레이스와 같은 텔레메트리 데이터를 수집합니다.
대시보드는 시스템 동작과 성능 추세를 시각화합니다.
통합 알림은 문제를 빠르게 감지하고 대응하는 데 도움이 됩니다.

상세정보

현대 시스템은 로그, 메트릭, 트레이스를 포함한 많은 양의 텔레메트리 데이터를 생성합니다. 관찰 가능성 도구는 이 데이터를 집계하고, 대시보드, 쿼리, 알림을 통해 활용할 수 있게 합니다.

Prometheus는 시계열 메트릭을 수집하고 저장하는 데 널리 사용되며, Grafana는 대시보드를 구축하기 위한 강력한 시각화 기능을 제공합니다. Datadog은 모니터링, 알림, 분산 트레이싱을 결합한 통합 플랫폼을 제공합니다. OpenTelemetry는 시스템 전반에서 텔레메트리 데이터를 수집하기 위한 표준화된 프레임워크를 제공합니다.

이 도구들은 파이프라인에서 함께 작동합니다. 애플리케이션이 텔레메트리 데이터를 생성하면, 모니터링 시스템이 이를 수집하고 처리한 뒤, 대시보드에서 시각화하고 알림을 트리거하는 데 사용합니다.

이러한 도구가 없다면 엔지니어는 시스템 동작을 이해할 수 있는 확장 가능한 방법이 없습니다. 관찰 가능성 플랫폼은 원시 시스템 데이터를 실행 가능한 인사이트로 바꾸어, 더 빠른 디버깅과 더 신뢰할 수 있는 시스템을 가능하게 합니다.

질문 섹션

먼저 자신의 말로 답해보고, 그다음 카드를 뒤집어 확인하세요.

1 / 5