Qu'est que la data science?



Mis à jour le Aug. 12, 2022, 7:33 a.m.

La data science est un domaine relativement nouveau qui combine les statistiques, l'informatique et la data visualisation pour extraire des informations des données. En gros, on fait tourner des algos d'IA sur beaucoup de données pour apprendre quelque chose d'utile.

Les data scientists utilisent leurs compétences pour résoudre des problèmes dans une tonne de domines différents, allant de la finance à la santé.

Quels cas en pratique?

Prédiction du churn, des ventes, des stocks, détection de fraude, d'anomalies, amélioration des antivirus informatiques, d'un comportement anormal sur un compte en banque, prévoir des pannes de matériels pour les usines grâce à l'IOT notamment (communément appelé industrie 4.0), analyse automatique d'avis client (textuel), la detection de spam, et bien d'autres applications (reconnaissance faciale, vocale, etc). On peut réaliser ce genre d'algorithme grâce à l'apprentissage supervisé et apprentissage non supervisé.

 

L'apprentissage supervisé correspond aux algorithmes de machine learning qui utilisent un label pour chaque donnée. Par exemple, si j'apprends à un algorithme à distinguer un chat d'un chien, je lui donne la réponse lorqu'il me donne une prédiction. Il va ainsi voir s'il a eu juste ou faux et adapter son apprentissage en fonction, jusqu'à ce qu'il ait bien appris à distinguer l'un et l'autre. C'est une tâche de classification.


A contratio, l'apprentissage non supervisé a lieu lorsqu'un algorithme ne reçoit que des données d'entrée (les images de chiens et chats), sans les valeurs de sortie correspondantes(les labels). En effet, de nombreuses données dans les entreprises ne disposent pas de labels, on doit donc recourir à des algorithmes non-supervisés. Il n'y a pas de valeurs de sortie correctes, contrairement à l'apprentissage supervisé. Au contraire, pour en savoir plus sur les données et présenter des résultats pertinents, les algorithmes sont capables de travailler de manière indépendante. Mais alors que fait un algorithme lors d'un
apprentissage non supervisé? C'est simple, vu qu'il ne dispose pas de labels pour les données, plutot que de deviner ce que c'est, il va regrouper tous les points du jeu de données par similarités. Un chat est plus proche d'un autre chat que d'un Rottweiler. La limite de ce genre de modèle est qu'il aura du mal à distinguer deux races de chats distinctes par exemple. La limite n'est pas toujours bien défini et l'algorithme n'a que les features pour pouvoir distinguer les deux races etc. Cette technique de regroupement des données par similarités est appelé clustering.

Les modèles d'apprentissage supervisé présentent certains avantages par rapport à l'approche non supervisée, mais ils ont également des défauts. Par exemple, puisque les humains ont fourni les labels, les algorithmes sont plus susceptibles de faire des choix auxquels les humains peuvent répondre, mais aussi d'avoir les même biais que ces derniers.

Comment créer une équipe de data science?

Il n'existe pas vraiment de réponse unique à cette question. Cependant, il y a quelques éléments clés à garder à l'esprit lors de la constitution d'une équipe de data science pour votre entreprise.

Tout d'abord, il est important d'avoir une idée claire du problème que vous voulez que la data science résolve. Une fois que vous avez une bonne compréhension du problème, vous pouvez rechercher des personnes ayant les compétences nécessaires pour le résoudre. En outre, il est important de créer une équipe diversifiée au niveau des compétences, notamment des data scientists avec des backgrounds différents et donc des approches différentes, des data engineers, et des data architects. Tout ce beau monde doit travailler en harmonie pour resoudre les problèmes que pose la data en général.

Enfin, n'oubliez pas de donner à vos data scientists les ressources dont ils ont besoin pour réussir, notamment l'accès aux données et des ressources informatiques puissantes. Rien de pire pour un data scientist que de se retrouver limité par un laptop 15.7 et une connexion à google colab mais dans un environnement où les connexions entrantes et sortantes sont interdites xD. Garder ces facteurs à l'esprit (pas celui qui couche avec votre femme) et vous pourrez constituer une équipe de data science qui aidera votre entreprise à prospérer.

 

    Qu'est que la data science?