Failover vidéo : bonnes pratiques pour une diffusion sans interruption

Pourquoi le failover est essentiel

En diffusion en direct, une coupure de flux n’est pas qu’un problème technique, c’est une perte d’audience, de revenus et de réputation. Que vous diffusiez un événement sportif à 50 000 spectateurs ou une assemblée générale d’entreprise à 500 collaborateurs, les attentes sont les mêmes : ça ne doit pas tomber.

Le failover de flux vidéo est le filet de sécurité qui rattrape votre diffusion lorsque le flux principal échoue.

Qu’est-ce que le failover vidéo ?

Le failover est le basculement automatique d’une entrée vidéo principale vers une entrée de secours lorsque le système détecte une défaillance. Un bon système de failover :

  • Détecte rapidement les défaillances : en millisecondes, pas en secondes
  • Bascule sans coupure visible : perturbation visuelle minimale pour les spectateurs
  • Choisit le bon standby : soit par meilleure qualité courante (Best Score), soit en descendant la liste vers la suivante qui reçoit encore du signal (Round-robin) — au choix par route
  • Propose un failback optionnel : opt-in par route. Quand une entrée de priorité supérieure récupère et reste stable, le système remonte la liste vers elle. Désactivé par défaut pour que vous restiez sur le secours sauf si vous l’avez explicitement demandé
  • Ne nécessite aucune intervention manuelle en live : l’automatisation est la base du système

Côté spectateurs : ce qu’ils voient (et ne voient pas)

Failover et failback sont deux opérations distinctes :

  • Failover = bascule de l’entrée principale vers une entrée de secours quand la principale tombe (encodeur planté, fibre coupée, lien Internet qui décroche).
  • Failback = bascule inverse : retour automatique à l’entrée principale quand elle redevient saine et stable.

Vajracast peut faire les deux automatiquement. Le failover est toujours actif sur les routes multi-entrée. Le failback est en opt-in par route (désactivé par défaut), pour les opérateurs qui préfèrent rester sur le secours et décider eux-mêmes du retour.

Côté spectateurs HLS, la transition est imperceptible : pas d’écran noir, pas de message d’erreur, le flux continue avec la nouvelle source. Une micro-discontinuité de 1 à 3 secondes peut survenir le temps qu’un nouveau segment HLS soit publié, mais elle est généralement invisible (le lecteur attend le segment suivant comme il le fait en lecture normale).

Côté SRT direct, la bascule est plus rapide : le selector réoriente le flux dès que la fenêtre de stabilité (3 s par défaut) est franchie sur la nouvelle source, et le viewer SRT reprend la lecture sans buffer significatif.

Anti-flap intégré : les paramètres stability_window=3s et cooldown=7s empêchent le système d’osciller sur un lien qui oscille lui-même. Si votre principale revient et retombe en boucle, le selector reste sur le secours jusqu’à stabilité réelle.

Architecture : entrées redondantes

La base de tout dispositif de failover repose sur des entrées redondantes. Vous avez besoin d’au moins deux chemins indépendants :

Actif/Standby

Le modèle le plus simple. Une entrée est active, l’autre est en attente :

SRT Principal  → [Passerelle] → Sortie
RTMP Secours   → [Passerelle] ↗ (en cas de défaillance)
  • L’entrée principale transporte le flux
  • L’entrée de secours est connectée et prête mais non utilisée
  • En cas de défaillance du principal, la passerelle bascule sur le secours

Actif/Actif

Les deux entrées transportent le flux simultanément. La passerelle sélectionne le meilleur :

Entrée A (SRT) → [Passerelle : comparaison] → Meilleur signal → Sortie
Entrée B (SRT) → [Passerelle : comparaison] ↗
  • Les deux chemins sont supervisés en temps réel
  • La passerelle peut basculer en fonction de la qualité, pas seulement de la connectivité
  • Coût en bande passante plus élevé, mais fiabilité supérieure

Détection : quelle est votre vitesse de réaction ?

La rapidité du failover dépend de la vitesse à laquelle vous détectez le problème. Méthodes de détection courantes :

Supervision de la santé du flux

Surveillez le flux entrant pour détecter :

  • Perte de paquets : SRT le rapporte en temps réel
  • Chutes de débit : une diminution soudaine du débit précède souvent une défaillance complète
  • Images noires/figées : détection basée sur le contenu (avancée)
  • Silence audio : perte du signal audio

Délais d’expiration

Définissez des délais agressifs mais réalistes :

Méthode de détectionDélai typiqueNotes
Perte de paquets SRT<50msLes statistiques SRT sont instantanées
Déconnexion TCP1-5sDépend du timeout TCP
Seuil de débit200-500msFenêtre configurable
Analyse de contenu500ms-2sGourmand en calcul

L’objectif des 50ms

Les équipements de diffusion professionnels visent un failover inférieur à 50ms. Cela signifie :

  1. Défaillance détectée en 20ms
  2. Commande de basculement émise en 10ms
  3. Le tampon de sortie absorbe la transition en 20ms

À 50ms, le basculement est invisible pour les spectateurs — il se produit en 1 à 2 trames vidéo.

Modèles d’implémentation

Modèle 1 : failover au niveau de la passerelle

La passerelle gère elle-même la logique de failover. C’est l’approche la plus simple et la plus fiable.

Vajracast l’implémente nativement :

  • Configurez les entrées principale et de secours dans une chaîne de priorité (jusqu’à 8 par route)
  • Définissez les seuils de détection (pourcentage de perte de paquets, débit plancher, timeout)
  • Choisissez la stratégie de sélection quand le failover se déclenche : Best Score (par défaut, bascule vers l’entrée à la meilleure qualité courante) ou Round-robin (descend la liste vers la suivante qui reçoit encore du signal). Le mode simple saute le choix et fait un round-robin sur les entrées connectées
  • Activez l’auto-failback par route (désactivé par défaut). Une fois activé, une entrée de priorité supérieure qui récupère et tient stable sur la fenêtre de stabilité (par défaut 3s) est promue — le système remonte la liste vers elle. Un cooldown (par défaut 7s) évite le ping-pong entre candidats

Modèle 2 : redondance au niveau de l’encodeur

Faites fonctionner deux encodeurs indépendamment, chacun envoyant vers la passerelle :

Caméra → Encodeur A → SRT → Passerelle
Caméra → Encodeur B → SRT → Passerelle (secours)

Cela protège contre les défaillances de l’encodeur, pas uniquement contre les défaillances réseau.

Modèle 3 : redondance géographique

Pour les diffusions critiques, répartissez sur plusieurs sites :

Encodeur site → SRT → Passerelle (Région A)
Encodeur site → SRT → Passerelle (Région B) [failover]

Les deux passerelles envoient vers le CDN. Le failover d’origine au niveau CDN constitue la dernière couche de protection.

Supervision et alertes

Un failover sans supervision, c’est voler à l’aveugle. Mettez en place :

  1. Tableaux de bord temps réel : visualisez simultanément les métriques de santé de toutes les entrées
  2. Alertes automatisées : soyez prévenu lors de l’activation du failover (Slack, email, webhook)
  3. Journalisation des événements : horodatez chaque basculement pour l’analyse post-incident
  4. Notifications de rétablissement : sachez quand le principal est de retour et stable

Tester votre failover

Ne faites jamais confiance à un système de failover que vous n’avez pas testé. Testez régulièrement :

  • Exercices programmés : déconnectez le câble principal pendant un flux de test
  • Simulation réseau : injectez de la perte de paquets avec des outils comme tc pour tester la récupération SRT face au seuil de failover
  • Défaillance d’encodeur : arrêtez le processus de l’encodeur et mesurez le temps de basculement
  • Test de rétablissement : vérifiez que le système retourne sur le principal après une défaillance
  • Test de charge : confirmez que le failover fonctionne en conditions de pointe

Erreurs courantes

  1. Point de défaillance unique dans le commutateur lui-même : si votre dispositif de failover tombe en panne, tout tombe. Utilisez une passerelle éprouvée et fiable.
  2. Flux de secours non supervisé : votre secours pourrait être hors service au moment où vous en avez besoin. Supervisez les deux entrées en permanence.
  3. Délais d’expiration trop agressifs : basculer sur une perte de paquets momentanée crée des perturbations inutiles. Ajustez vos seuils avec soin.
  4. Pas de failback automatique : un “retour sur le principal” manuel signifie que quelqu’un doit être éveillé à 3h du matin. Pire, sans protection anti-flap, un retour automatique naïf boucle sans fin sur un lien qui oscille. Utilisez une fenêtre de stabilité (3-5s) et un cooldown (5-10s) pour absorber le jitter de récupération.
  5. Pas de tests : la première fois que votre failover se déclenche ne devrait pas être pendant un événement en direct.

L’avantage Vajracast

Vajracast a été conçu avec le failover comme fonctionnalité centrale, pas comme un ajout postérieur :

  • Failover multi-entrées avec chaînes de priorité configurables (jusqu’à 8 entrées par route)
  • Stratégies de sélection en mode quality : Best Score (par défaut) ou Round-robin
  • Basculement en moins de 50ms sur les entrées SRT
  • Supervision de santé en temps réel avec métriques par entrée
  • Auto-failback optionnel (opt-in par route) avec fenêtre de stabilité anti-flap et cooldown post-switch
  • Journalisation complète de chaque événement de failover et failback
  • Agnostique en protocole — fonctionne avec SRT, RTMP, RTSP, UDP et HLS. Les entrées SRTLA agrégées sont aussi supportées — elles sont désagrégées en SRT standard avant d’atteindre le moteur de routage, donc elles s’intègrent dans une chaîne de failover comme n’importe quelle entrée SRT. SRTLA n’est pas un mécanisme de failover : c’est de l’agrégation de liens à l’intérieur d’un seul flux
  • Générateur Bars & Tone intégré comme fallback garanti en dernière position (mires SMPTE, tone audio configurable, overlay horloge, logo) — aucune source externe requise

Configurez-le une fois pour protéger vos diffusions.

Distribuez vos flux broadcast depuis le cloud

Plateforme cloud managée avec serveurs dédiés, failover N+1, transcodage matériel et diffusion mondiale. Gratuit pendant 30 jours.

Essai gratuit Voir les tarifs

30 jours gratuits · Sans carte bancaire · Accès direct à l'équipe