Passer au contenu principal

Comment planifier les événements générant un volume élevé de données sociales

Les grands événements nationaux et mondiaux s’accompagnent souvent de pics spectaculaires d’activité des utilisateurs sur les plateformes de médias sociaux. Parfois, ces événements sont connus à l’avance, comme le Super Bowl, les élections politiques et les célébrations du Nouvel An dans le monde entier. D’autres fois, les pics de volume sont dus à des événements inattendus tels que des catastrophes naturelles, des événements politiques imprévus, des moments de culture populaire ou des pandémies sanitaires comme la COVID-19. Ces flambées d’activité des utilisateurs peuvent parfois être de courte durée (mesurées en secondes), ou se maintenir plusieurs minutes. Quelle qu’en soit l’origine, il est important de prendre en compte l’impact qu’elles peuvent avoir sur les applications qui consomment des données en provenance de X. Voici quelques bonnes pratiques qui aideront votre équipe à se préparer aux événements générant un volume élevé de données sociales.

Passez en revue vos règles actuelles de flux filtré

  • Certains mots-clés peuvent connaître une forte hausse pendant des événements à fort volume, comme les mentions de marque lorsqu’une marque parraine un grand événement sportif.
  • Veillez à éviter toute règle inutile ou trop générique qui pourrait générer des volumes d’activité superflus.
  • Envisagez de communiquer avec vos clients en amont des événements dont vous savez qu’ils seront à fort volume, afin de les aider à planifier en conséquence.  

Effectuez des tests de résistance sur votre application

Prévoyez que les pics de volume puissent atteindre de 5 à 10 fois les niveaux moyens de consommation quotidienne. Selon votre jeu de règles, cette augmentation peut être bien plus importante.

Comprendre les limites de diffusion pour les connexions

Les débits et les limites de diffusion sont définis par les niveaux d’accès. Il en résulte un volume statique de résultats renvoyés pour les flux.
  • Academic : 250 Publications/seconde
  • Enterprise : le nombre de Publications/seconde est défini par le niveau d’accès

Optimiser pour rester connecté

Avec les flux, rester connecté est essentiel pour éviter de manquer des données. Votre application cliente doit être capable de détecter une déconnexion et intégrer une logique pour réessayer immédiatement de se reconnecter, en utilisant un backoff exponentiel si la tentative de reconnexion échoue.  

Ajoutez une mise en mémoire tampon intégrée de votre côté

Concevoir une application multithread est une stratégie clé pour gérer des flux à haut volume. De façon générale, une bonne pratique pour gérer des flux de données consiste à disposer d’un thread/processus distinct qui établit la connexion de streaming, puis écrit les activités JSON reçues dans une structure en mémoire ou un lecteur de flux tamponné. Ce thread de traitement de flux « léger » est chargé de gérer les données entrantes, qui peuvent être mises en mémoire tampon, en augmentant ou en diminuant selon les besoins. Ensuite, un autre thread consomme cette table de hachage et effectue le « gros du travail » d’analyse du JSON, de préparation des écritures en base de données, ou de toute autre opération dont votre application a besoin.  

Événements mondiaux = fuseaux horaires mondiaux

Les événements peuvent avoir lieu en dehors des heures de bureau ou le week-end ; assurez-vous donc que votre équipe est prête à gérer des pics d’activité en dehors de vos horaires de travail habituels.