Uncategorized

Salon BigData 2021

21 août 2025

Quelques nouveautés au salon du Big Data et de l’IA 2021

Cassandra

Datastax a récemment annoncé la sortie de la version 4.0.0 de Cassandra comprenant diverses améliorations dont les majeures étant

:
Incremental repair

C’est une méthode de réparation qui permet de ne réparer que les données non réparées, cela permet ainsi d’accélérer le temps de réparation et donc de le faire plus souvent. La réparation consiste à créer les réplicas qui ne sont pas encore existant. En effet, lorsqu’on insère des données dans Cassandra, le client attend seulement l’acquittement de la majorité absolue des nœuds et non de l’intégralité
Réplication

Les tables Cassandra sont stockées sous forme de fichiers, l’idée est de tagger les fichiers déjà traité par la réplication. Elle avait déjà été intégré dans la version 2.0.0 mais elle présentait alors des problèmes d’incohérences entre les nœuds au niveau du tag des fichiers. Elle a été repensée et corrigée.

Read/repair local

En mode multi-DC, lors d’un read/repair sur la version 3, le repair était appliqué à tous les data Center même si la requête était lancée en local sur le DC, ce qui allongeait grandement Le temps de réponse. Sur cette dernière version, le repair est lancé sur le Data Center local.

DataStax a dernièrement sorti K8ssandra en version 1.3, l’idée est de fournir une base Cassandra sur kubernetes avec des API complémentaire telles que

Reaper

c’est un outil de gestion des repair développé par et repris et maintenu par Datastax, il permet de gérer et d’orchestrer les repair sur un ou plusieurs datacenters

Stargate

il s’agit d’une API REST permettant aux applications d’interagir avec Cassandra en utilisant différents formats dont notamment cql. En termes de performances, elles sont comparables à K8ssandra,
Datastax recommande de même une taille maximale de 4To par nœud dont 2To de données utiles.

Couchbase

Couchbase est une base de données de type Documents issue de memcached qui présente plusieurs avantages.

La base ou une partie est chargé en mémoire RAM : les traitements sont donc plus rapides · Elle dispose d’un journal de log (Write Ahead Log) pour le recovery · On crée le snapshot avec le delta, c’est donc nettement plus rapide. Seul le premier Snapshot prend du temps · La persistance et de la réplication sur disque sont gérés automatiquement ·

On a un principe de données chaude / froide, il y’a donc une réflexion à mener sur la stratégie de répartition des données pour pouvoir accéder plus rapidement aux données les plus sollicitées et le charger en RAM

Cerbere propose des services d’accompagnement de l’ensemble de ces nouvelles technos.

Par exemple: ansible, teraform, kafka, elastic-search, hive, spark, scala, java, kubernetes…

!! Nous vous attendons !!