Infrastructure big data : CASD-Teralab

L’infrastructure TeraLab pour répondre aux besoins les plus exigeants.

La configuration matérielle de la plateforme inclut des calculateurs physiques, des périphériques de stockage et des réseaux dont l’architecture est adaptée aux exigences de puissance de calcul et de stockage Big Data. Sa mise en œuvre facilite le déploiement et répond à la montée en charge progressive des projets hébergés.
Cette configuration, physiquement installée en France, est conçue pour offrir une très haute disponibilité et apporter toute la confidentialité et l’intégrité attendues par les utilisateurs et propriétaires des données.

Un compartiment ultra-sécurisé (technologie CASD) constitué de serveurs très hautes performances hébergés au sein d’une bulle isolée du réseau externe, accessible uniquement via le boitier SD-Box du CASD. Les serveurs au sein de ce compartiment sont connectés entre eux via une liaison réseau suffisamment dimensionnée pour les besoins de stockage et de traitements distribués. La configuration matérielle en termes de vCPU, RAM et stockage est parfaitement adaptable aux besoins des projets big data accueillis.

L’infrastructure est dimensionnée pour accueillir plusieurs centaines de téraoctets de données « brutes » (hors compression et réplication) et traiter, en batch ou en temps réel, directement en mémoire plusieurs tera-octets.

La configuration matérielle est adaptable aux besoins des projets.

Les ressources logicielles incluent principalement le middleware dédié Big Data permettant d’accéder  de façon appropriée aux données.

Il s’agit des systèmes de bases de données NoSql (i.e. au-delà du SQL : relationnelle, colonne, clé-valeur, graphe, document…), des modèles/moteurs de parallélisation (Mapreduce, Spark), des systèmes de virtualisation, ainsi que des outils de management et monitoring. Les ressources intègrent en outre les outils collaboratifs et interfaces utilisateurs à l’état de l’art.

Ces solutions logicielles viseront à supporter des traitements batchs mais aussi temps réel pour appréhender les flux de données,  et également autoriser des sessions interactives sur les données.

Les ressources généralement mises en place par les projets s’appuyent sur Hadoop (dont les distributions Cloudera et HortonWorks), Hive, Impala, Sqoop, MongoDB, Neo4j, ElasticSearch, Parstream, ou Redis.

Le déploiement de cette infrastructure logicielle est également incrémental pour répondre aux attentes des projets « proof of concept » et aux opportunités offertes par les nouvelles offres apparaissant à un rythme très soutenu.