Standard et sur-mesure

Véritable point de rencontre entre les producteurs des données d’une part, et la communauté de la recherche d’autre part, le CASD a développé une véritable expertise en matière de sécurisation, de traitements scientifiques exigeants en puissance de calcul et plus généralement de mise à disposition de données sensibles. La création il y a plus de 15 ans d’une solution technologique dédiée, brevetée, permet aujourd’hui au CASD d’envisager de multiples potentialités d’utilisation.

Ainsi, le CASD propose 4 offres principales distinctes autour de sa technologie de diffusion sécurisée des données.

Bulle sécurisée pour les données de santé

Le CASD fournit un service sécurisé de mise à disposition des données du système national des données de santé (SNDS) prenant en compte les exigences du Règlement Général de Protection des Données (RGPD) et du Référentiel de Sécurité des Données de Santé (RSDS).

Pour tout usage, le CASD peut mettre à disposition une bulle sécurisée dédiée (voir tarifs) disposant d’un environnement logiciel personnalisé, convenu avec les utilisateurs, pour leurs permettre d’effectuer leurs traitements dans les meilleures conditions possibles tout en garantissant la protection et la traçabilité des données. Ce dispositif permet aux utilisateurs de s’affranchir de la contrainte de mise en place d’un environnement en propre et de limiter les démarches administratives en déléguant une partie des responsabilités à un tiers de confiance.

Pour tout renseignement, n’hésitez pas à consulter les documents mis à disposition sur notre site ou à prendre contact avec nous.

Sécurisation de l’accès externe à vos données

Une puissance de calcul élevée et évolutive

Le CASD a une expérience de plus de 15 ans dans la fourniture de service de calcul pour la recherche scientifique. Le milieu de la recherche scientifique est un milieu très concurrentiel, chaque jour compte pour les chercheurs. Certains, par exemple, peuvent lancer des calculs qui durent plusieurs semaines à chaque itération. Un gain de performance de 20% peut ainsi leur faire gagner plusieurs semaines. Le CASD dispose d’un cluster de calcul dédié aux traitements complexes des chercheurs sur de gros volumes de données.

L’expérience du CASD a été entièrement mise à profit pour la conception des serveurs de calculs hébergés au sein du CASD. C’est ainsi que chaque composant de l’infrastructure des serveurs de calcul est déterminé avec le plus grand soin pour une adéquation optimale avec le système et les logiciels scientifiques de traitement de données :

  • Les disques durs (intégration de SSD) et leurs configurations,
  • Les cartes de liaison pour les attachements directs de baies,
  • Les liaisons réseaux (10Gb/s),
  • La mémoire vive (RAM),
  • Les processeurs avec une évolution vers l’ajout de GPU (Graphics Processing Unit),
  • Les cartes mères et les cartes d’accélération

Le système d’exploitation est optimisé pour le traitement de gros volumes de données avec une configuration permettant de favoriser les temps d’accès disque et les volumes de données transférés des disques aux processeurs.

Depuis quelques années, les progrès de la virtualisation ont permis l’intégration de cette technologie au sein des serveurs de calcul du CASD, renforçant ainsi, lorsque c’est nécessaire, les possibilités d’extension et d’allocation de puissance personnalisée.

L’architecture de la plateforme est évolutive, et permet d’adapter la puissance de calcul aux besoins du projet.

DataLab sécurisé pour Proof of Concept

Le CASD propose aux entreprises et organismes publics disposant de gros volumes de données à valoriser, un environnement clés-en-mains sécurisé pour DataScientists, qui s’appuie sur l’infrastructure et les outils de Datascience modernes déployés au sein de l’espace confiné proposé par le CASD et sa technologie.

Ce DataLab peut-être mis en place notamment dans le cadre de projets expérimentaux de valorisation des données, menés en interne ou par des intervenants externes, pouvant aboutir à un ou plusieurs proofs of concepts, et permettre à une organisation d’expérimenter avant de généraliser une architecture, un outil ou encore un modèle.

Le DataScientist peut, au moyen d’une SD-Box et de sa carte d’accès biométrique accéder au DataLab afin d’y effectuer ses travaux sur les données massives pour lesquelles il a été nommément habilité. Ce DataLab s’appuie notamment sur :

  • Un environnement Windows performant
  • Un cluster Hadoop d’au moins 4 nœuds physiques, extensible facilement et rapidement
  • Une suite d’outils de datascience à jour : Spark, TensorFlow, R, Rstudio, Dataiku DataScience Studio, qGIS, Python, SAS, Stata, SPSS…
  • La mise en œuvre éventuelle de :
    • Serveur de Deep Learning (à base de processeurs graphiques)
    • Serveur OpenStreetMap dédié
    • Serveur SQL
    • Serveur TeraMemory

Tiers de confiance pour les appariements de données

Un tiers de confiance est un organisme indépendant n’ayant pas d’intérêt direct dans l’utilisation des données sources ou résultantes tout en garantissant la confidentialité des données directement identifiantes.

Le Centre d’Accès Sécurisé aux Données (CASD) a été lauréat de l’appel à projet équipement d’excellence (Equipex). Le projet soumis présentait six grands thèmes de développement dont un sur les méthodologies d’appariement et le rôle de tiers de confiance que pourrait assurer le CASD. Le jury international, qui a évalué le projet, a particulièrement insisté dans son rapport sur cet aspect en le désignant comme le point le plus crucial du projet.

Pour réaliser des appariements de données provenant de sources gérées par différents producteurs tout en garantissant le respect de leur confidentialité, il est nécessaire de recourir à un organisme tiers appelé tiers de confiance en charge de réaliser les opérations nécessaires en conservant les éléments identifiants des individus.

Schéma type pour un appariement sur des données identifiantes hashées

Le CASD a pour objectif de donner toutes les garanties en matière de sécurité et de confidentialité exigées par les producteurs des données et par la CNIL dans le cadre de la réalisation d’appariements.

Le CASD a pour principale mission la mise à disposition des données confidentielles de manière hautement sécurisée. Les autres missions du CASD concernent la documentation des données, le support aux chercheurs, la formation et les appariements de données.

Pour mettre à disposition les données de manière hautement sécurisée, le CASD a mis au point une infrastructure informatique dont la particularité est d’être totalement isolée et fermée (étanche) assurant ainsi le confinement des données. Cette infrastructure est aujourd’hui située dans les locaux du GENES et héberge les données ainsi que les moyens de traitement associés. Le système a été conçu pour que les données ne puissent pas être extraites de cet environnement centralisé. Pour accéder à distance aux moyens de traitements des données, les utilisateurs doivent se connecter à partir d’un établissement identifié par son adresse réseau, utiliser un boitier sécurisé spécialement conçu à cet effet par le GENES (la SD-Box) et s’authentifier à l’aide d’une carte à puce (authentification forte par certificat).

Le CASD et les pré-requis définissant un tiers de confiance

Le CASD est aujourd’hui composé de 27 personnes réparties dans 3 entités :

  • Un service datascience et infrastructure IT chargé de l’exploitation, de la recherche et du développement en matière de datascience et de sécurité informatique.
  • Un service statistique spécialisé dans la collecte et de la mise en forme des données, la documentation et le respect de la confidentialité des données notamment sur les questions de secret statistique.
  • Un service de gestion de projets (PMS) chargé de tous les sujets d’organisation.

Toutes les opérations de traitements liées aux appariements sont réalisées dans un environnement dédié et isolé au sein de l’infrastructure informatique hautement sécurisée du CASD. L’accès ne peut se faire, même pour le personnel du CASD, qu’à partir d’un terminal SD-Box avec authentification forte.

Par ailleurs, le CASD ou ses agents n’ont pas d’intérêt direct dans l’utilisation des données sources ou résultantes. Il n’y a pas, parmi le personnel du CASD, de chargé d’étude ou de chercheurs par exemple. De plus, le CASD offre toutes les garanties de confidentialité pour les données directement identifiantes.

Tous les pré-requis définis par la CNIL pour qualifier un tiers de confiance sont réunis : indépendance, pas d’intérêt direct pour les données, missions et moyens etc.

Pour toute demande d’information relative aux opérations de tiers de confiance, pour les appariements, nous vous invitons à nous contacter par e-mail à l’adresse suivante : service@casd.eu

Autres prestations

Enfin, le CASD propose également d’autres prestations complémentaires (comme la création d’une Dataroom sécurisée), sur la base de l’expertise de ses collaborateurs.

De nombreux acteurs privés – banque, assurance, énergie, transports, etc. (voir nos références) – ont fait confiance au CASD afin de réaliser leurs projets.

N’hésitez pas à nous contacter :

  • par téléphone au 01 70 26 69 32
  • ou par e-mail à l’adresse suivante service@casd.eu