Infrastructure

Evoluzione del Service Mesh: Istio Ambient Mesh, Linkerd e le Architetture Senza Sidecar

March 20265 min lettura

Lucio Durán

Engineering Manager & AI Solutions Architect

Disponibile anche in: English, Español

Perché i Sidecar Sono Sempre Stati un Compromesso

Il pattern sidecar — iniettare un container proxy Envoy in ogni pod — ha risolto elegantemente il problema di "come intercettiamo il traffico". Ma ha creato nuovi problemi che si compongono su scala:

Overhead di risorse. Ogni pod riceve un container Envoy che consuma 50-100MB di memoria e una fetta significativa di CPU. A 500 pod, sono 25-50GB di memoria solo per i proxy.

Accoppiamento del ciclo di vita. Il sidecar e il container dell'applicazione condividono un pod. Se Envoy crasha, il pod riavvia.

Complessità dell'iniezione. Mutating webhook che modifica le spec dei pod all'admission time. Ogni deployment, ogni StatefulSet, ogni Job viene modificato.

Ho passato un weekend memorabile a debuggare perché un batch Job si bloccava dopo il completamento. Il container dell'applicazione aveva finito ed era uscito con 0, ma il sidecar Envoy teneva il pod in vita.

Architettura Istio Ambient Mesh

Ambient mesh divide il data plane in due livelli:

Livello 4: ztunnel (DaemonSet Per Nodo)

ztunnel è un proxy L4 scritto in Rust. Un'istanza per nodo. Gestisce mTLS, routing TCP, policy L4 e telemetria.

┌─── Nodo 1 ────────────────────┐ ┌─── Nodo 2 ────────────────────┐
│ │ │ │
│ ┌─────────┐ │ │ ┌─────────┐ │
│ │ Pod A │──────┐ │ │ ┌──────│ Pod B │ │
│ └─────────┘ │ │ │ │ └─────────┘ │
│ ▼ │ │ ▲ │
│ ┌──────────────────────────┐ │ │ ┌──────────────────────────┐ │
│ │ ztunnel (DaemonSet) │◄──────────► ztunnel (DaemonSet) │ │
│ │ L4: mTLS + routing TCP │ │ │ │ L4: mTLS + routing TCP │ │
│ └──────────────────────────┘ │ │ └──────────────────────────┘ │
│ │ │ │
└────────────────────────────────┘ └────────────────────────────────┘
 Tunnel HBONE (HTTP/2 + mTLS)

Livello 7: Waypoint Proxy (Per Namespace/Workload)

Per il traffic management a livello HTTP deployi waypoint proxy:

apiVersion: gateway.networking.k8s.io/v1
kind: Gateway
metadata:
 name: waypoint
 namespace: mia-app
 labels:
 istio.io/waypoint-for: service
spec:
 gatewayClassName: istio-waypoint
 listeners:
 - name: mesh
 port: 15008
 protocol: HBONE

La parte elegante: i servizi che necessitano solo mTLS e policy L4 pagano zero overhead L7.

Misurazioni dell'Overhead di Latenza

Ho benchmarkato tutte e tre le configurazioni sullo stesso cluster EKS (nodi m6i.xlarge, us-east-1):

Risultati: Latenza HTTP/1.1 Cross-Node (microsecondi)

| Configurazione | p50 | p75 | p90 | p99 | p99.9 | |---------------|-----|-----|-----|-----|-------| | Senza mesh (baseline) | 245 | 312 | 425 | 890 | 2.100 | | Istio sidecar (Envoy) | 612 | 785 | 1.050 | 2.340 | 5.800 | | Istio ambient (solo ztunnel, L4) | 298 | 378 | 510 | 1.050 | 2.600 | | Istio ambient (ztunnel + waypoint) | 580 | 745 | 990 | 2.180 | 5.200 | | Linkerd (linkerd2-proxy) | 395 | 498 | 665 | 1.420 | 3.400 |

ztunnel solo L4 aggiunge ~53 microsecondi al p50. Notevolmente basso per quello che sta facendo — mTLS completo con verifica dell'identità SPIFFE su ogni connessione.

Overhead di Memoria

| Configurazione | Memoria Per Pod | Totale per 500 Pod | |---------------|----------------|---------------------| | Istio sidecar | ~70MB | ~35GB | | Istio ambient (ztunnel) | 0 (per nodo: ~120MB) | ~600MB (5 nodi) | | Istio ambient (+ waypoint) | 0 (+ ~200MB per waypoint) | ~1,6GB | | Linkerd | ~25MB | ~12,5GB |

La storia delle risorse è dove ambient mesh vince davvero. Passare da 35GB di memoria proxy nel cluster a 600MB è una riduzione massiccia. Sono soldi veri sulla tua bolletta cloud.

mTLS Senza Sidecar: Dettagli a Livello di Protocollo

Il tunnel HBONE è il meccanismo di trasporto tra gli ztunnel:

1. ztunnel sul Nodo 1 apre connessione TCP verso ztunnel sul Nodo 2 (porta 15008)

2. Handshake TLS 1.3 con autenticazione mutua:
 - Cert client: spiffe://cluster.local/ns/mia-app/sa/pod-a-sa
 - Cert server: spiffe://cluster.local/ns/mia-app/sa/pod-b-sa

3. Sulla connessione mTLS, richiesta HTTP/2 CONNECT

4. ztunnel destinazione valida le policy di autorizzazione

5. Se permesso, apre connessione locale al pod destinazione

Linkerd: L'Alternativa Sottovalutata

Linkerd merita considerazione come alternativa più semplice. Fa meno di Istio, e questa è la sua forza:

curl --proto '=https' --tlsv1.2 -sSfL https://run.linkerd.io/install | sh
linkerd install --crds | kubectl apply -f -
linkerd install | kubectl apply -f -

kubectl annotate namespace mia-app linkerd.io/inject=enabled
# Fatto. Riavvia i tuoi pod e sono meshed.

Il mTLS di Linkerd è attivo di default. Nessuna configurazione.

Strategia di Migrazione: Sidecar ad Ambient

# Fase 1: Installare componenti ambient accanto ai sidecar esistenti
istioctl install --set profile=ambient

# Fase 2: Migrare un namespace a basso rischio
kubectl label namespace canary-app istio.io/dataplane-mode=ambient
kubectl label namespace canary-app istio-injection-
kubectl rollout restart deployment -n canary-app

# Fase 3: Verificare i flussi di traffico
kubectl logs -n istio-system -l app=ztunnel --tail=100

L'insidia critica: le policy di autorizzazione che referenziano label app sui pod sorgente non funzionano in ambient mode. ztunnel identifica le sorgenti per identità SPIFFE (service account), non per label dei pod.

# PRIMA (modalità sidecar — usa label pod, non funziona in ambient)
apiVersion: security.istio.io/v1
kind: AuthorizationPolicy
spec:
 rules:
 - from:
 - source:
 matchLabels:
 app: frontend # ← Questo si rompe in ambient

# DOPO (compatibile ambient — usa identità service account)
apiVersion: security.istio.io/v1
kind: AuthorizationPolicy
spec:
 rules:
 - from:
 - source:
 principals:
 - "cluster.local/ns/mia-app/sa/frontend-sa"

Quando Usare Cosa

Dopo averli gestiti tutti e tre in produzione in diverse aziende:

Istio ambient mesh: Cluster grandi (200+ servizi), team che necessitano policy L7 granulari, requisiti multi-cluster.

Istio modalità sidecar: Workload legacy che necessitano personalizzazione Envoy per pod. Questa è modalità manutenzione.

Linkerd: Cluster piccoli-medi (sotto 200 servizi), team che valorizzano la semplicità operativa, ambienti dove ogni megabyte di memoria conta.

Nessun mesh: Se l'unico requisito è mTLS tra servizi, considera mTLS a livello applicazione con un cert manager.

Le guerre del mesh sono praticamente finite. Istio ha vinto sulle feature, Linkerd ha vinto sulla semplicità, e ambient mesh è il passo evolutivo che rende i sidecar obsoleti per la maggior parte dei workload.

Tips

LuchoTip: Quando migri da Istio sidecar ad ambient, fallo namespace per namespace con il label istio.io/dataplane-mode=ambient. Non provare a flippare tutto il cluster in una volta — il DaemonSet di ztunnel e i waypoint proxy devono essere stabili prima di rimuovere l'iniezione sidecar. L'ho imparato mandando giù tutto il traffico east-west di un cluster di staging per 4 minuti.

LuchoTip: Monitora le metriche Prometheus ztunnel_tcp_connections_opened_total e ztunnel_tcp_connections_closed_total subito dopo aver abilitato l'ambient mode. Un divario crescente tra aperte e chiuse significa che ztunnel sta perdendo connessioni.

LuchoTip: Se stai eseguendo Linkerd, non disturbarti a passare a Istio ambient solo per l'architettura senza sidecar. Il proxy sidecar di Linkerd (linkerd2-proxy, scritto in Rust) aggiunge ~2MB di memoria e <0.5ms di latenza p99 per hop. La semplicità operativa vale di più.

service-meshistiolinkerdambient-meshztunnelkubernetesmtlssidecar

Strumenti menzionati in questo articolo

AWSProva AWS

DigitalOceanProva DigitalOcean

Divulgazione: Alcuni link in questo articolo sono link di affiliazione. Se ti registri tramite questi, potrei guadagnare una commissione senza costi aggiuntivi per te. Raccomando solo strumenti che uso e di cui mi fido personalmente.

X / Twitter LinkedIn WhatsApp

Seguime

Torna al Blog