Confiabilidade e Observabilidade

Por que Confiabilidade e Observabilidade Importam

Em sistemas do mundo real, falhas não são casos extremos raros — elas são condições esperadas que devem ser detectadas e tratadas continuamente.

🖥️

Carga: 20%

Estável

Pico

Degradado

Detectado

Recuperando

📊

métricas

📄

logs

🚨

alerta

Os sistemas passam constantemente por estados de falha. A observabilidade detecta problemas cedo, para que a recuperação possa começar antes de uma interrupção total.

Picos de tráfego e limites de recursos podem sobrecarregar sistemas.
Dependências e bancos de dados podem falhar ou ficar lentos.
Problemas de rede introduzem latência, perda de pacotes ou indisponibilidade.

Detalhes

Um sistema backend em produção está constantemente exposto a condições imprevisíveis. Diferente de ambientes controlados, sistemas reais precisam lidar com tráfego variável, falhas parciais e degradação de desempenho a qualquer momento. Esses problemas não são exceções — eles fazem parte do comportamento normal do sistema.

Confiabilidade é a capacidade do sistema de continuar funcionando corretamente mesmo quando componentes falham. Isso inclui manter a disponibilidade, minimizar o tempo de inatividade e se recuperar de erros de forma elegante. Um sistema confiável assume que falhas vão acontecer e é projetado para tolerá-las.

Observabilidade foca em entender o que está acontecendo dentro do sistema. Quando algo dá errado, os engenheiros precisam de visibilidade sobre estados e comportamentos internos para identificar a causa raiz. Sem observabilidade, falhas viram suposições em vez de problemas diagnosticáveis.

Na prática, os sistemas seguem um ciclo contínuo: ocorre uma falha, os sistemas de monitoramento detectam comportamento anormal e os engenheiros investigam usando os dados disponíveis. A velocidade e a precisão desse processo impactam diretamente a estabilidade do sistema e a experiência do usuário.

Registro de logs

Logs são registros estruturados de eventos que ocorrem dentro de um sistema, fornecendo uma linha do tempo detalhada do que aconteceu durante a execução.

🖥️

Sistema

📜

Fluxo de Logs

...

INFO

atividade do sistema

QUERY

operações de dados

ERROR

falhas

Os logs formam uma linha do tempo do comportamento do sistema, tornando possível a depuração e a análise.

Logs capturam a atividade do sistema passo a passo, como requests, queries e errors.
Eles são essenciais para depurar falhas e entender o comportamento do sistema.
Diferentes tipos de logs fornecem visibilidade em diferentes partes do sistema.

Detalhes

Toda ação dentro de um backend system pode gerar uma log entry. Por exemplo, quando uma request é recebida, um usuário é autenticado, uma database query é executada ou um error ocorre, cada etapa pode ser registrada como um log. Esses registros criam um histórico cronológico de eventos que os engineers podem analisar.

Logs são uma das ferramentas mais fundamentais de observability. Quando um system falha, os logs geralmente são o primeiro lugar que os engineers procuram para entender o que deu errado. Ao examinar as log messages, os engineers podem rastrear a sequência de operações que levou à falha e identificar a root cause.

Existem vários tipos comuns de logs. Application logs capturam o comportamento geral do system, error logs focam especificamente em failures e exceptions, e access logs registram incoming requests como HTTP traffic. Juntos, esses logs fornecem uma visão abrangente da atividade do system.

Sem logging, os systems se tornam opacos. Os engineers não teriam uma maneira confiável de reconstruir eventos passados, tornando o debugging e a incident response significativamente mais difíceis.

Métricas

Métricas são medições numéricas que quantificam o desempenho do sistema e permitem monitoramento contínuo ao longo do tempo.

Solicitações

360/s

Erros

3/s

Latência

72ms

passadoagora →

As métricas são atualizadas continuamente — picos revelam anomalias, tendências revelam a saúde do sistema.

Métricas acompanham sinais-chave como taxa de requisições, taxa de erros e latência.
Elas fornecem visibilidade em tempo real sobre a saúde e o desempenho do sistema.
Tendências ao longo do tempo ajudam a detectar anomalias e prever possíveis problemas.

Detalhes

Ao contrário dos logs, que capturam informações detalhadas no nível de eventos, as métricas se concentram em dados numéricos agregados. Exemplos comuns incluem requisições por segundo, porcentagem de requisições com falha, latência de resposta e uso de CPU. Esses valores fornecem uma visão de alto nível de como um sistema está se comportando.

As métricas são projetadas para monitoramento contínuo. Os sistemas coletam e armazenam essas medições ao longo do tempo, permitindo que engenheiros visualizem tendências e identifiquem padrões. Por exemplo, um aumento gradual na latência pode indicar um gargalo de desempenho crescente, enquanto um pico repentino na taxa de erros pode sinalizar uma indisponibilidade.

Como as métricas são leves e estruturadas, elas são ideais para dashboards e sistemas de alerta. Engenheiros dependem delas para avaliar rapidamente a saúde do sistema sem precisar analisar logs detalhados.

Monitoramento é a prática de coletar, armazenar e analisar essas métricas. Ele fornece uma visão contínua do desempenho do sistema e permite a detecção precoce de problemas antes que eles se transformem em falhas graves.

Rastreamento Distribuído

O rastreamento distribuído acompanha uma única requisição por vários serviços, revelando como diferentes componentes interagem durante a execução.

Latência Total

0 ms

⚙️

Gateway

20ms

⚙️

Auth

25ms

⚙️

API

15ms

🐢

Banco de Dados

60ms

⚙️

Cache

10ms

⚙️

Resposta

5ms

🔴

Cada loop representa uma solicitação rastreada. O sistema reinicia e rastreia novamente continuamente.

O tracing mostra o caminho que uma requisição percorre por vários serviços.
Ele identifica onde ocorre a latência e qual componente está lento.
Ele ajuda a localizar a origem exata de falhas em sistemas distribuídos.

Detalhes

Sistemas backend modernos raramente são uma única aplicação. Em vez disso, eles são compostos por vários serviços que se comunicam entre si. Uma única requisição de usuário pode passar por um serviço de API, um serviço de autenticação e um banco de dados antes de retornar uma resposta.

O rastreamento distribuído captura toda essa jornada. Cada etapa da requisição é registrada como um trace, mostrando quanto tempo cada serviço levou e como eles estão conectados. Isso fornece uma visão completa da execução da requisição em todo o sistema.

O tracing é especialmente importante para diagnosticar problemas de desempenho. Por exemplo, se uma requisição estiver lenta, o tracing pode revelar se o atraso vem da camada de API, de uma dependência externa ou de uma consulta ao banco de dados.

Sem tracing, os engenheiros são forçados a adivinhar onde os problemas ocorrem em sistemas complexos. Com tracing, eles podem seguir o caminho exato de uma requisição e identificar gargalos ou falhas com precisão.

Alertas

Alertas são sinais automatizados que notificam engenheiros quando o comportamento do sistema ultrapassa limites predefinidos e requer atenção.

Carga do SistemaLimite →

Fluxo de Alertas

10 disparos

⚠️

Apenas picos significativos disparam alertas

Monitoramento Saudável

os limites definem o que importa

Alertas são acionados quando métricas excedem limites seguros ou esperados.
Eles permitem a detecção rápida de problemas como indisponibilidade ou altas taxas de erro.
Alertas configurados de forma inadequada podem gerar ruído e reduzir a eficácia.

Detalhes

Em sistemas de produção, os engenheiros não podem ficar monitorando dashboards manualmente o tempo todo. Os alertas automatizam esse processo ao monitorar métricas continuamente e disparar notificações quando algo anormal acontece. Por exemplo, um aumento repentino na taxa de erro, um serviço fora do ar ou um banco de dados com alta latência podem acionar alertas.

Normalmente, os alertas seguem um fluxo simples: uma métrica ultrapassa um limite predefinido, o sistema gera um alerta e os engenheiros são notificados por canais como e-mail, aplicativos de mensagens ou ferramentas de gerenciamento de incidentes.

Um sistema de alertas eficaz exige configuração cuidadosa. Se os limites forem sensíveis demais, os engenheiros recebem alertas em excesso, levando à fadiga de alertas, em que sinais importantes são ignorados. Se os limites forem permissivos demais, problemas críticos podem passar despercebidos.

O objetivo é criar alertas acionáveis — alertas devem indicar problemas reais que exigem intervenção. Alertas bem projetados reduzem o tempo de resposta e ajudam a manter a confiabilidade do sistema.

Tentativas

As tentativas lidam com falhas temporárias ao tentar novamente uma requisição automaticamente, em vez de falhar imediatamente.

Linha do Tempo de RetryTempo →

Tentativa 1

Tentativa 2

Tentativa 3

Tentativa 4

Tentativas Concorrentes

ocioso

Retries espaçados → recuperação controlada

Muitas falhas são transitórias e podem ter sucesso em uma nova tentativa.
Estratégias de retry controlam quando e com que frequência as tentativas ocorrem.
Retries inadequados podem sobrecarregar sistemas e piorar falhas.

Detalhes

Em sistemas distribuídos, as falhas geralmente são de curta duração. Um timeout de rede, um serviço temporariamente sobrecarregado ou um breve problema no banco de dados pode fazer uma requisição falhar, mesmo que o sistema ainda esteja funcional. Em vez de retornar um erro imediatamente, os sistemas podem tentar a requisição novamente.

Retries seguem um padrão simples: uma requisição falha, o sistema espera por um curto período e então tenta a requisição novamente. Em muitos casos, a segunda tentativa tem sucesso porque o problema subjacente já foi resolvido.

Estratégias comuns de retry incluem adicionar um atraso fixo entre as tentativas ou usar exponential backoff, em que o atraso aumenta após cada falha. Exponential backoff reduz a pressão sobre sistemas que já estão com dificuldades ao espaçar as tentativas.

Retries devem ser usados com cuidado. Um comportamento de retry agressivo pode amplificar a carga durante falhas, causando problemas em cascata. Uma lógica de retry bem projetada equilibra recuperação com estabilidade do sistema.

Disjuntores

Disjuntores impedem chamadas repetidas a serviços com falha, evitando que pequenos problemas se transformem em falhas em todo o sistema.

✅ Tráfego passando

💻

Serviço de Chamador

⚡

📦

🖥️

Serviço

As solicitações fluem normalmente. As falhas estão sendo monitoradas.

Eles detectam falhas repetidas e bloqueiam temporariamente novas requisições.
Isso reduz a carga sobre serviços com falha e evita falhas em cascata.
Os sistemas podem se recuperar antes que o tráfego seja liberado gradualmente novamente.

Detalhes

Em sistemas distribuídos, um serviço com falha pode desencadear uma reação em cadeia. Se um serviço continua recebendo requisições enquanto já está falhando, ele pode ficar sobrecarregado, causando atrasos ou indisponibilidades que se espalham para outras partes do sistema.

Os disjuntores resolvem isso monitorando as taxas de falha. Quando as falhas excedem um limite, o circuito “abre”, e as requisições de entrada são bloqueadas ou rejeitadas imediatamente, em vez de serem enviadas ao serviço com falha.

Após um período de espera, o sistema pode permitir um pequeno número de requisições de teste. Se elas tiverem sucesso, o circuito se fecha e o tráfego normal é retomado. Se as falhas continuarem, o circuito permanece aberto.

Esse padrão evita carga desnecessária sobre componentes com falha e dá tempo para os sistemas se recuperarem, tornando-o uma ferramenta essencial para manter a estabilidade em ambientes distribuídos.

Limitação de Taxa

A limitação de taxa controla com que frequência os clientes podem fazer solicitações, protegendo os sistemas contra sobrecarga e abuso.

Token Bucket

●

tokens são recarregados ao longo do tempo

📱

Cliente

🖥️

Servidor

as requisições consomem tokens — quando acabam, novas requisições são rejeitadas até a recarga

Ela limita o número de solicitações que um cliente pode enviar dentro de uma janela de tempo.
Ela protege os serviços de backend contra carga excessiva e tráfego malicioso.
As solicitações são permitidas ou rejeitadas quando os limites são atingidos.

Detalhes

Os sistemas de backend precisam lidar com tráfego de muitos clientes simultaneamente. Sem limites, um único cliente — ou um grupo de clientes — poderia enviar um número excessivo de solicitações, degradando o desempenho ou causando indisponibilidade.

A limitação de taxa impõe limites à frequência das solicitações. Por exemplo, um sistema pode permitir 100 solicitações por minuto por usuário. Se um cliente exceder esse limite, solicitações adicionais serão rejeitadas ou adiadas até a próxima janela de tempo.

Esse mecanismo atende a vários propósitos. Ele evita abusos, como spam ou ataques de negação de serviço, protege os recursos de backend contra sobrecarga e garante uso justo entre os usuários.

A limitação de taxa é normalmente implementada usando algoritmos como token buckets ou leaky buckets, que acompanham e controlam o fluxo de solicitações ao longo do tempo.

Ferramentas de Observabilidade

Ferramentas de observabilidade coletam e visualizam dados do sistema, permitindo que engenheiros monitorem a saúde e diagnostiquem problemas em tempo real.

Logs

GET /api

200 OK

DB query

Cache hit

Auth check

fluxo de eventos

Métricas

tendência de desempenho

Traces

🌐

🖥️

🗄️

caminho da requisição

✅ Sistema Saudável

logs + métricas + traces → visão em tempo real

Elas coletam dados de telemetria, como logs, métricas e traces.
Dashboards visualizam o comportamento do sistema e tendências de desempenho.
Alertas integrados ajudam a detectar e responder rapidamente a problemas.

Detalhes

Sistemas modernos geram grandes quantidades de dados de telemetria, incluindo logs, métricas e traces. Ferramentas de observabilidade agregam esses dados e os tornam utilizáveis por meio de dashboards, consultas e alertas.

Prometheus é amplamente usado para coletar e armazenar métricas de séries temporais, enquanto o Grafana oferece recursos poderosos de visualização para criar dashboards. O Datadog oferece uma plataforma integrada que combina monitoramento, alertas e distributed tracing. O OpenTelemetry fornece uma estrutura padronizada para coletar dados de telemetria em diferentes sistemas.

Essas ferramentas trabalham juntas em um pipeline: as aplicações geram dados de telemetria, que são coletados e processados por sistemas de monitoramento, depois visualizados em dashboards e usados para disparar alertas.

Sem essas ferramentas, os engenheiros não teriam uma forma escalável de entender o comportamento do sistema. Plataformas de observabilidade transformam dados brutos do sistema em insights acionáveis, permitindo depuração mais rápida e sistemas mais confiáveis.

Seção de Perguntas

Tente responder primeiro com suas próprias palavras e depois vire o cartão para conferir.

1 / 5

Por que Confiabilidade e Observabilidade Importam

Em sistemas do mundo real, falhas não são casos extremos raros — elas são condições esperadas que devem ser detectadas e tratadas continuamente.

🖥️

Carga: 20%

Estável

Pico

Degradado

Detectado

Recuperando

📊

métricas

📄

logs

🚨

alerta

Os sistemas passam constantemente por estados de falha. A observabilidade detecta problemas cedo, para que a recuperação possa começar antes de uma interrupção total.

Picos de tráfego e limites de recursos podem sobrecarregar sistemas.
Dependências e bancos de dados podem falhar ou ficar lentos.
Problemas de rede introduzem latência, perda de pacotes ou indisponibilidade.

Detalhes

Registro de logs

Logs são registros estruturados de eventos que ocorrem dentro de um sistema, fornecendo uma linha do tempo detalhada do que aconteceu durante a execução.

🖥️

Sistema

📜

Fluxo de Logs

...

INFO

atividade do sistema

QUERY

operações de dados

ERROR

falhas

Os logs formam uma linha do tempo do comportamento do sistema, tornando possível a depuração e a análise.

Logs capturam a atividade do sistema passo a passo, como requests, queries e errors.
Eles são essenciais para depurar falhas e entender o comportamento do sistema.
Diferentes tipos de logs fornecem visibilidade em diferentes partes do sistema.

Detalhes

Métricas

Métricas são medições numéricas que quantificam o desempenho do sistema e permitem monitoramento contínuo ao longo do tempo.

Solicitações

360/s

Erros

3/s

Latência

72ms

passadoagora →

As métricas são atualizadas continuamente — picos revelam anomalias, tendências revelam a saúde do sistema.

Métricas acompanham sinais-chave como taxa de requisições, taxa de erros e latência.
Elas fornecem visibilidade em tempo real sobre a saúde e o desempenho do sistema.
Tendências ao longo do tempo ajudam a detectar anomalias e prever possíveis problemas.

Detalhes

Rastreamento Distribuído

O rastreamento distribuído acompanha uma única requisição por vários serviços, revelando como diferentes componentes interagem durante a execução.

Latência Total

0 ms

⚙️

Gateway

20ms

⚙️

Auth

25ms

⚙️

API

15ms

🐢

Banco de Dados

60ms

⚙️

Cache

10ms

⚙️

Resposta

5ms

🔴

Cada loop representa uma solicitação rastreada. O sistema reinicia e rastreia novamente continuamente.

O tracing mostra o caminho que uma requisição percorre por vários serviços.
Ele identifica onde ocorre a latência e qual componente está lento.
Ele ajuda a localizar a origem exata de falhas em sistemas distribuídos.

Detalhes

Alertas

Alertas são sinais automatizados que notificam engenheiros quando o comportamento do sistema ultrapassa limites predefinidos e requer atenção.

Carga do SistemaLimite →

Fluxo de Alertas

10 disparos

⚠️

Apenas picos significativos disparam alertas

Monitoramento Saudável

os limites definem o que importa

Alertas são acionados quando métricas excedem limites seguros ou esperados.
Eles permitem a detecção rápida de problemas como indisponibilidade ou altas taxas de erro.
Alertas configurados de forma inadequada podem gerar ruído e reduzir a eficácia.

Detalhes

Tentativas

As tentativas lidam com falhas temporárias ao tentar novamente uma requisição automaticamente, em vez de falhar imediatamente.

Linha do Tempo de RetryTempo →

Tentativa 1

Tentativa 2

Tentativa 3

Tentativa 4

Tentativas Concorrentes

ocioso

Retries espaçados → recuperação controlada

Muitas falhas são transitórias e podem ter sucesso em uma nova tentativa.
Estratégias de retry controlam quando e com que frequência as tentativas ocorrem.
Retries inadequados podem sobrecarregar sistemas e piorar falhas.

Detalhes

Disjuntores

Disjuntores impedem chamadas repetidas a serviços com falha, evitando que pequenos problemas se transformem em falhas em todo o sistema.

✅ Tráfego passando

💻

Serviço de Chamador

⚡

📦

🖥️

Serviço

As solicitações fluem normalmente. As falhas estão sendo monitoradas.

Eles detectam falhas repetidas e bloqueiam temporariamente novas requisições.
Isso reduz a carga sobre serviços com falha e evita falhas em cascata.
Os sistemas podem se recuperar antes que o tráfego seja liberado gradualmente novamente.

Detalhes

Limitação de Taxa

A limitação de taxa controla com que frequência os clientes podem fazer solicitações, protegendo os sistemas contra sobrecarga e abuso.

Token Bucket

●

tokens são recarregados ao longo do tempo

📱

Cliente

🖥️

Servidor

as requisições consomem tokens — quando acabam, novas requisições são rejeitadas até a recarga

Ela limita o número de solicitações que um cliente pode enviar dentro de uma janela de tempo.
Ela protege os serviços de backend contra carga excessiva e tráfego malicioso.
As solicitações são permitidas ou rejeitadas quando os limites são atingidos.

Detalhes

Esse mecanismo atende a vários propósitos. Ele evita abusos, como spam ou ataques de negação de serviço, protege os recursos de backend contra sobrecarga e garante uso justo entre os usuários.

A limitação de taxa é normalmente implementada usando algoritmos como token buckets ou leaky buckets, que acompanham e controlam o fluxo de solicitações ao longo do tempo.

Ferramentas de Observabilidade

Ferramentas de observabilidade coletam e visualizam dados do sistema, permitindo que engenheiros monitorem a saúde e diagnostiquem problemas em tempo real.

Logs

GET /api

200 OK

DB query

Cache hit

Auth check

fluxo de eventos

Métricas

tendência de desempenho

Traces

🌐

🖥️

🗄️

caminho da requisição

✅ Sistema Saudável

logs + métricas + traces → visão em tempo real

Elas coletam dados de telemetria, como logs, métricas e traces.
Dashboards visualizam o comportamento do sistema e tendências de desempenho.
Alertas integrados ajudam a detectar e responder rapidamente a problemas.

Detalhes

Seção de Perguntas

Tente responder primeiro com suas próprias palavras e depois vire o cartão para conferir.

1 / 5

Confiabilidade e Observabilidade

Por que Confiabilidade e Observabilidade Importam

Registro de logs

Métricas

Rastreamento Distribuído

Alertas

Tentativas

Disjuntores

Limitação de Taxa

Ferramentas de Observabilidade

Seção de Perguntas

Lições relacionadas

Consentimento de Cookies

Confiabilidade e Observabilidade

Por que Confiabilidade e Observabilidade Importam

Registro de logs

Métricas

Rastreamento Distribuído

Alertas

Tentativas

Disjuntores

Limitação de Taxa

Ferramentas de Observabilidade

Seção de Perguntas

Lições relacionadas