Cycle de vie de l'intelligence artificielle : Une brève introduction
Comme vous le savez tous, les projets d'IA sont constitués de trois parties principales. La première est constituée des données d'entraînement, qui doivent être stockées, gérées, nettoyées, etc. Ensuite, les données sont utilisées pour former des modèles de Deep Learning, pour lesquels nous allons réaliser des expériences de manière itérative afin d'optimiser les métriques de performance. Enfin, lorsque les résultats seront suffisamment bons, nous déploierons le modèle en production pour que l'application métier puisse l'utiliser, que ce soit en périphérie ou dans le cloud.
Mais, ce n'est pas fini...
Les modèles de Deep Learning sont créés en apprenant à partir de données du monde réel. Cependant, comme le monde change, les données changent pendant la durée de vie du modèle. C'est pourquoi les modèles doivent être réentraînés.
Comme vous l'avez sans doute compris, les performances du modèle d'IA reposent sur les données. C'est pourquoi tout le monde parle d'une "IA centrée sur les données" en 2021.
Dans cet article, nous allons vous faire découvrir l'histoire de l'IA centrée sur les données et son orientation dans les prochains mois/années ! 🚀
IA centrée sur le modèle - Ces jours sont révolus
L'accent mis sur le modèle dont nous avons parlé juste avant a conduit à cet état que l'IA suit actuellement depuis de nombreuses années.
Pour reprendre les mots du célèbre Andrew Ng, les systèmes d'IA sont composés de code et de données, le code étant le modèle programmé à l'aide de cadres de travail en Python, C++, R, etc. Le défi pour tous les laboratoires de recherche du monde entier était de créer, pour un ensemble de données de référence donné, tel que l'ensemble de données COCO, une architecture de modèle qui serait plus performante et deviendrait l'état de l'art.
C'est ce qu'on appelle une approche centrée sur le modèle : on garde les données fixes et on itère sur le modèle et ses paramètres pour améliorer les performances.
Bien sûr, il était étonnant pour nous, ingénieurs ML, d'avoir facilement accès à de nouveaux et meilleurs modèles sur Github et de pouvoir créer le meilleur modèle pour notre projet. Pour beaucoup d'ingénieurs en apprentissage automatique, cela nous a donné le sentiment qu'après avoir étudié si durement la théorie de l'apprentissage automatique, nous appliquions enfin ce paquet scientifique et essayions de créer quelque chose de puissant.
La particularité de cette période est qu'à l'époque, la collecte de données était une tâche ponctuelle, effectuée au début du projet, avec peut-être l'objectif de faire croître l'ensemble de données avec le temps mais sans grande réflexion sur sa qualité interne.
Les déploiements du modèle créé étaient généralement à petite échelle ; un seul serveur ou dispositif pouvait gérer toute la charge et la surveillance n'existait pas.
Mais le plus gros obstacle était que tout était fait manuellement : Le nettoyage des données (plutôt normal), l'entraînement des modèles, la validation, le déploiement, le stockage, le partage, et plus encore.
Il était évident qu'il y avait un problème qui devait être résolu. Cependant, à cette époque, les solutions, telles que les grandes plateformes ML, étaient soit inexistantes, soit trop compliquées à appliquer pour la majorité des organisations.
De l'IA centrée sur les modèles à l'IA centrée sur les données
Les temps ont changé, et certaines personnes influentes dans le domaine, comme le Dr Andrew Ng, ont commencé à proposer de nouveaux paradigmes pour traiter l'optimisation des modèles, cette fois en se concentrant sur les données.
Cette approche est désormais appelée "centrée sur les données". Vous avez peut-être vu ces mots sur de nombreux sites web de startups, et ils peuvent avoir différentes significations et applications, mais je vais commencer par présenter le concept.
Une approche centrée sur les données consiste à modifier ou à améliorer systématiquement vos ensembles de données afin d'améliorer les performances du modèle. Cela signifie que, contrairement à l'approche centrée sur le modèle, cette fois-ci, le modèle est fixe et vous ne faites qu'améliorer les données. L'amélioration de l'ensemble de données peut avoir différentes significations. Il peut s'agir de veiller à la cohérence des étiquettes, d'échantillonner finement les données d'apprentissage et de choisir judicieusement les lots, mais pas toujours d'augmenter la taille de l'ensemble de données.
À titre d'exemple de la façon dont les modèles formés sur des ensembles de données de référence peuvent être améliorés, une étude a montré qu'en moyenne, 3,4 % des données de ces ensembles de données étaient mal étiquetées (ce qui peut prendre de nombreuses formes différentes). Imaginez l'augmentation des performances possibles en réduisant ce chiffre à 0 !
Mais le fait de se concentrer autant sur les données, qui doivent circuler en permanence depuis que nous avons déployé des modèles capables de collecter les données sur lesquelles ils effectuent des prédictions, signifie que vous avez automatisé tous les processus du cycle de vie du modèle, de la formation au déploiement en passant par la validation.
Cette discipline s'appelle MLOps (pour Machine Learning Operations). Si vous souhaitez en savoir plus sur MLOps et ses concepts les plus importants, vous pouvez consulter le premier article de notre série ici.