A quoi sert une plateforme de Data Science ?

Le Big Data, le monde numérique en parle depuis maintenant bien longtemps. Pour les acteurs du milieu, c’est aujourd’hui une technologie très bien maîtrisée. Mais les plateformes de « Data Science » viennent lui donner une autre dimension.

Qu’est ce qui ce cache derrière le terme Data Science ?

La « Data Science », ou « Science des données » en français, consiste à extraire des connaissances depuis un ensemble de messages. David Moore, en 1991, avait appelé la Statistique, la « Science des données », mais bien que cette appellation fut juste et reprise par plusieurs autres statisticiens depuis, aujourd’hui, ce n’est plus uniquement de la statistique.

Dorénavant il s’agit de l’utilisation combinée de plusieurs outils : mathématiques, statistiques et informatiques, et ce dans le but d’extraire de nouvelles connaissances de ces ensembles de données. Il s’agira d’utiliser des modèles spécifiques afin d’extraire de certaines données les informations souhaitées. Derrière ce terme ce cache donc un ensemble de choses. David Moore n’avait donc pas tord ; mais il ne savait pas que l’étude des données irait bien au-delà des statistiques quelques années plus tard.

Aujourd’hui, la majorité des entreprises étudient très précisément leurs données ; elles sont devenues une ressource importante et précieuse. La « Science des données » consiste donc à transformer des données brutes en données utiles. On est bien loin de changer le plomb en or, même si, pour les entreprises, c’est tout aussi intéressant.

  Comment transférer des fichiers volumineux ?

Que sont les plateformes de Data Science ?

Cette science, plusieurs acteurs du « Big Data » en ont fait un élément clé de leurs offres. Beaucoup ont donc développé de véritables plateformes collaborative de Data Science. Elles regroupent en un même environnement tout le nécessaire pour traiter des données. Que ce soit l’exploration des sources de données, la conception des modèles ou la visualisation des résultats, tout se fait via le même environnement. Ces plateformes ajoutent de nombreuses fonctionnalités au traitement des données : des solutions pour faciliter le développement et le déploiement des modèles, des solutions pour gérer les autorisations d’accès aux données… Ces plateformes mettent l’accent sur la collaboration.

Des plateformes ouvertes et compatibles

Elles sont généralement déployées dans des clouds afin de tirer parti de leur immense puissance de calcul. Public ou privé, peu importe. Mais elles sont aussi compatibles avec l’existant. Si vous possédez déjà un « Data Lake » et des modèles, la plupart des plateformes vous permettrons de les utiliser directement. Vous n’aurez donc pas à tout refaire pour passer de l’une à l’autre. Certaines plateformes permettent même de mélanger les deux en proposant une compatibilité très importante. Il serait aussi possible de se passer de ces plateformes ; tout comme il est possible de rouler avec une roue en pierre.

L’étape fatidique, le passage en production

La mise en service d’un nouveau projet reste toujours un moment délicat. De très nombreux éléments peuvent mal se passer durant cette étape, certains pouvant avoir des conséquences réellement dramatiques. Du simple dysfonctionnement qui n’impacterait que le système en question, à la perte de données importantes, c’est une des étapes où une bonne partie des échecs ont lieu.

  Attention : le ZEvent revient ! Voici les streamers français qui vont vous faire craquer

C’est là aussi que ces plateformes sont très fortes. Certaines, comme celle de Saagie, vont proposer un système permettant la mise en production simplifiée, soit un système permettant de concevoir des paquets faciles à déployer sur une copie de l’environnement utilisé pour la production. La méthode du paquet a fait ses preuves depuis maintenant de nombreuses années : elle est déjà utilisée dans l’installation rapide d’applications sur les systèmes Linux par exemple.

Le principe est simple, on regroupe tous les éléments indispensables au workflow dans une archive, puis on donne cette archive au nouvel environnement qui lui remettra chaque élément à la bonne place. Avec un système comme celui-là, plus de risque de morceau manquant ou abîmé dans le transport.

Comme pour tout, quand il s’agit d’informatique, il existe de très nombreuses manières de faire. Il est donc possible de tout faire à la main, comme un Cr-Magnon de l’informatique, mais ce n’est pas vraiment le plus performant. Ces plateformes vont vous permettre de regrouper facilement le travail de toutes les personnes impliquées. La maîtrise de l’information en sera ainsi grandement améliorée et vos projets passeront bien plus rapidement et facilement de la conception à la production.