Scalabilità Elastica con AWS Auto Scaling

AWS Auto Scaling è un servizio che monitora le tue applicazioni e regola automaticamente la capacità (il numero di istanze EC2) per mantenere performance stabili e prevedibili al minor costo possibile. È il motore dell'elasticità del cloud.

I Componenti di un Gruppo di Auto Scaling

La configurazione di Auto Scaling si basa su tre componenti principali:

Launch Template (o Launch Configuration): È un modello che definisce come devono essere create le nuove istanze EC2. Specifica l'AMI (Amazon Machine Image), il tipo di istanza (es. t3.micro), i security group e altre configurazioni.
Auto Scaling Group: È un gruppo logico di istanze EC2. Si definisce la dimensione minima, massima e desiderata del gruppo. L'Auto Scaling Group si occuperà di mantenere sempre in esecuzione il numero di istanze desiderato. Se un'istanza si guasta, il gruppo ne lancerà automaticamente una nuova per sostituirla.
Scaling Policies (Policy di Scalabilità): Sono le regole che dicono al gruppo quando aggiungere (scale-out) o rimuovere (scale-in) istanze.

Tipi di Policy di Scalabilità

1. Dynamic Scaling

È il tipo più comune. L'infrastruttura scala dinamicamente in risposta a cambiamenti nel carico.

Target Tracking Scaling: È la più semplice. Definisci un obiettivo per una metrica (es. "mantieni l'utilizzo medio della CPU di tutte le istanze al 50%"). Auto Scaling si occuperà di aggiungere o rimuovere istanze per rimanere vicino a quell'obiettivo.

2. Predictive Scaling

Usa il machine learning per analizzare i dati storici del traffico e prevedere i picchi di domanda futuri, aggiungendo capacità *prima* che il picco si verifichi.

3. Scheduled Scaling

Permette di scalare in base a una pianificazione temporale. Ad esempio, se sai che il tuo sito ha sempre un picco di traffico ogni giorno feriale alle 9:00, puoi programmare un aumento delle istanze poco prima.

Auto Scaling e Load Balancing

Auto Scaling funziona in perfetta sinergia con un Elastic Load Balancer (ELB). Quando l'Auto Scaling Group lancia una nuova istanza, la registra automaticamente con l'ELB, che inizia a inviarle traffico. Quando un'istanza viene terminata, viene automaticamente rimossa dal load balancer. Questa combinazione crea un'architettura web auto-riparante e veramente elastica.