Par Fabrice Guez, co-fondateur d’Adxperience
Les avis d'experts et points de vue sont publiés sous la responsabilité de leurs auteurs et n’engagent en rien la rédaction.
Comme chaque vendredi, la banque d'affaire spécialisée dans l'industrie numérique eCap Partner fait le point sur les levées de fonds des derniers jours. My Coach Football mène cette semaine l'équipe de France de la tech !
Selon Valery Farcy, enseignant, responsable du dispositif entrepreneurial à l’ESIEA, le Big data et les data sciences ont le vent en poupe auprès des futurs ingénieurs. Les grandes écoles communiquent volontiers autour de cette appellation. Mais de quoi parle-t-on exactement en matière de formation au Big data et qu’attendent réellement aujourd’hui les entreprises de leurs ingénieurs en ce domaine?
Comme de nombreux mots issus des technologies récentes, "Big data" est devenu un buzzword aux multiples facettes dont il est parfois difficile de percevoir ce qu’il recouvre. Parmi les jeunes passionnés d’informatique qui souhaitent entreprendre des études supérieures, nombreux sont séduits par l’intitulé d’enseignements comportant les sésames Big data et data sciences. Presque toutes les écoles cèdent à l’engouement général en mettant en avant cet aspect de leur enseignement. Chez les professionnels, le Big data est présenté comme une disruption profonde, lourde de conséquences ainsi qu’un véritable Eldorado pour les futurs ingénieurs. C’est à la fois vrai et faux, aussi quelques points méritent-ils d’être passés en revue.
1 - LE BIG DATA : DES DISCIPLINES ET ENSEIGNEMENTS VARIÉS
Le Big data (qui se réfère à l’exploitation d’une quantité massive de données variées) est un terme assez englobant pour recouvrir de son aura de nombreux secteurs de l’analyse de l’information en vue de l’établissement de modèles prédictifs, établis à partir de données collectées. Souvent associé à la science de la donnée (data science), il rassemble ainsi des domaines aussi différents que les mathématiques, les statistiques, l’infrastructure, l’apprentissage automatique (machine learning) et l’intelligence artificielle.
Il n’y a donc pas une discipline du Big data, mais un ensemble de compétences diverses qui s’exercent autour de cette révolution de la donnée, dorénavant accessible en masse, souvent gratuitement, et extrêmement diversifiée (2,5 quintillions de bytes de données/jour ; plusieurs centaines de milliards d’e-mails quotidiens, la plupart étant d’ailleurs des SPAMS !) C’est aujourd’hui toute une économie qui s’est mise en place autour de l'exploitation et de la compréhension de la masse phénoménale de données produites en vue d’en extraire de la connaissance. (La France espère ainsi créer 137 000 emplois grâce au Big data d’ici 2020)[1]
2 - LE BIG DATA NE CONCERNE PAS UNIQUEMENT LES DATA SCIENTISTS
Il existe autant de définitions du Data scientist que de domaines associés à l’exercice de son activité (algorithmique, business, computer science, etc.) et aucun Data scientist n’a aujourd’hui 10 ans d’expérience ; les Data scientists travaillent souvent en équipe, leurs profils sont complémentaires et les doubles, voire triples compétences sont appréciées. Tout aussi appréciée est leur capacité à travailler en équipe en mode agile, dans des environnements en permanente évolution au sein desquels l’approche classique d’élaboration d’une planification détaillée et exhaustive est remplacée par une culture de l’expérimentation, d’itérations successives et de prototypages.
Les besoins des entreprises en ingénieurs capables d’élaborer les outils d’analyse des Big data vont augmenter, certes, mais le phénomène Big data ne se résume pas à ces opérations d’analyse, ni au métier de Data scientist pour lequel il est vrai, il existe aujourd’hui une pénurie de profils. En effet, qui dit multiplication du nombre de données, dit conséquences sur leur stockage, leur transmission et leur sécurisation. Les fonctions concernées de près ou de loin par le sujet sont donc nombreuses. Il s’agit tout aussi bien des profils d'architecte réseau, d’administrateur réseau, d'ingénieur système, d'expert en sécurité informatique, de spécialistes Cloud, etc. Un ingénieur Big data peut aussi être celui qui dimensionnera des plates formes pour faire tourner les modèles de calcul, réalisera un travail d’exploration des données ou pilotera des projets Big data en s’appuyant sur les ressources nécessaires en vue d’apporter de la valeur aux métiers.
Aussi, plutôt que de parler de nouveaux métiers du Big data, il est plus pertinent aujourd’hui de parler de nouvelles compétences qui sont progressivement intégrées dans des branches sectorielles comme de nouvelles spécialisations. En la matière, il s’agit autant de savoir valoriser ses compétences que de développer son appétence dans ce domaine en cours de structuration.
On répète à l’envi que le métier de Data scientist, (né chez les géants du Web en 2008) a été élu en 2015 « métier le plus sexy de l’année ». Ce fait tient aussi à ce qu’il y a un aspect White hat lié au Big data ; la collecte et l’analyse des données rencontrent souvent la culture Hacker : on y retrouve ce même mélange de curiosité intellectuelle, doublée d’habileté et de défis techniques et intellectuels. Il ne faut pas pour autant en déduire que d’une profusion de données à disposition, on pourrait tout faire ni que tout est devenu possible. Les données brutes sont très souvent incomplètes, manquantes ou simplifiées, comportent des erreurs et sont incohérentes. Il y a donc, à la base, un très gros travail de prétraitement, de compréhension et de nettoyage des données : que faire des valeurs aberrantes ? Quelles données sont véritablement exploitables ? Les résultats de la fouille des données (data mining) dépendent donc autant de leur quantité que de leur qualité post prétraitement. Lors du prétraitement, il s’agit de deviner / inférer ces données « toxiques / bruitées » pour ensuite, pouvoir les analyser ; ce travail de nettoyage n’est pas le plus sexy qui soit, mais il correspond aussi à la réalité des processus !
4 - LE BIG DATA EST À LA PORTÉE DE TOUTES LES CATÉGORIES D’ENTREPRISES
Enfin, il faut souligner que le coût de traitement des données massives, autrefois prohibitif, est en chute libre. Analyser dans le but d’en tirer de la valeur, une quantité énorme de données n’est plus réservé aux grands groupes. C’est aujourd’hui à la portée d’entreprises plus modestes et des start-up. Les entités corporate observent ces dernières avec la plus grande attention afin d’identifier les perles rares qui leur permettront de mieux comprendre leurs métiers et d’en tirer des sources d’innovation ou d’avantages concurrentiels. Avec des conséquences pour les métiers de l’ingénieur : les entreprises attendent d’eux qu’ils s’extraient de leurs compétences purement techniques et qu’ils se muent en agents d’innovation, à même de piloter des projets de réalisation d’applications nouvelles tout en apportant leur expertise « aux équipes métiers ». Lutte contre la fraude, Analyse des comportements d’achats, Maintenance prédictive d'équipement industriels (GE, Rolls Royce, ..), Recommandation d’achats, Surveillance, Industrie du Search (et de la recommandation) les applications couvrent de nombreux secteurs. Pour cette raison il est intéressant pour un futur ingénieur de disposer d’un socle d’enseignements diversifié qui lui permettra ensuite, de se positionner et se spécialiser dans un secteur d'application, (que ce soit le marketing, la santé, les systèmes d’information géographique, etc.).
5 - LES COMPÉTENCES DU BIG DATA SONT EN PASSE D’ÊTRE INDISPENSABLES
On peut peut-être comparer le phénomène Big data à celui de l’arrivée massive de l’informatique dans les entreprises dans les années 80-90. Si au début, seuls quelques ingénieurs spécialisés utilisaient des ordinateurs au quotidien, aujourd’hui, les compétences informatiques et bureautiques sont une base pour un emploi dans le tertiaire.