Des ensembles de données manufacturières pour une IA améliorée dans l'industrie
L'intelligence artificielle (IA) a radicalement changé le monde industriel, mettant les fabricants en position d'augmenter la productivité et d'optimiser les opérations et les processus. Face à la complexité croissante des processus de production et au volume toujours plus important de données générées par les capteurs et les machines, les industriels se tournent vers le machine learning (ML), un outil puissant qui leur permet d'acquérir des informations, d'optimiser les opérations et de stimuler l'innovation.
Les datasets de fabrication et les modèles de machine learning sont les éléments fondamentaux au cœur des solutions d'IA dans l'industrie. Ils sont essentiels à la réussite des initiatives d'IA. Il existe des lacunes entre les datasets de production et le développement des modèles ML utilisés dans les applications d'IA en production.
Cet article aborde les défis auxquels le secteur industriel est confronté avec les datasets de production lors de la mise en œuvre de projets d'IA et met en évidence une poignée de datasets dédiés à ce secteur, de haute qualité et accessibles au public, qui peuvent servir de base au développement de solutions d'IA pour la industrie.
Manufacturing Datasets: Démystifier l'utilisation de l'IA dans l'industrie manufacturière
Pour résoudre les inefficacités manufacturières, les solutions d'IA analysent de grandes quantités de données et identifient des schémas pour améliorer la qualité et l'efficacité des opérations et des processus. Malheureusement, les données manufacturières ne sont pas facilement accessibles. Les fabricants doivent généralement construire leurs datasets à partir de zéro, ce qui implique généralement un processus fastidieux, long et manuel de collecte de lectures de capteurs à partir de machines en fonctionnement, suivies d'un prétraitement. Différentes lignes de production et industries nécessitent différents datasets pour développer leurs solutions, ce qui est courant avec les solutions d'IA. Cependant, dans la plupart des cas, les fabricants protègent étroitement leurs données, ce qui limite la disponibilité de datasets de production accessibles au public. Certains hésitent également à partager leurs données en raison de préoccupations concernant la confidentialité et la sécurité, ainsi que la crainte de donner un avantage à leurs concurrents. Ces inconvénients majeurs des datasets pour l'industrie limitent la capacité à développer rapidement des modèles ML pour les solutions d'IA pour l'industrie. D'autres challenges liés aux datasets lors de la mise en œuvre d'une solution d'IA dans l'écosystème manufacturier incluent :
- Accès à des données de qualité : Les entreprises ont du mal à stocker des données de production ou à trouver des données correspondant à leur cas d'usage en IA, et lorsque ces données sont disponibles, elles sont souvent privées ou coûteuses à acquérir.
- Pénurie de talents en IA : Il n'y a pas suffisamment de talents en IA investis dans l'industrie. L'industrie manufacturière a besoin d'experts qui comprennent non seulement l'IA mais qui peuvent aussi traduire leurs connaissances sectorielles pour construire des modèles de machine learning puissants, et ces experts sont difficiles à trouver.
- Déploiements en production : L'industrie a besoin de modèles IA pouvant être déployés en production. C'est le principal problème qui entrave la diffusion de l'IA dans les usines. De nombreux modèles sont développés mais ne peuvent pas être déployés en production ou faire des prédictions en temps réel en raison par exemple de contraintes sur les dispositifs en périphérie (edge devices).
- Manque d'améliorations continues : C'est un autre problème rencontré dans l'acceptation de l'IA dans l'industrie manufacturière. Un modèle de machine learning apprend des données avec lesquelles il est alimenté, et une fois déployé, il cesse d'apprendre et performe généralement mal sur de nouvelles données (c'est-à-dire des données différentes de celles utilisées lors de l'entraînement). Ces modèles d'IA ne peuvent pas apprendre automatiquement à partir de nouvelles données; ils doivent être ré-entraînés. Cela entraîne des coûts de maintenance supplémentaires pour maintenir l'efficacité du modèle en production dans le temps. Cette lacune est progressivement éliminée avec MLOps grâce à l'intégration d'une démarche de CI/CD/CT.
- Manque de standardisation : L'absence de standardisation dans les datasets manufacturiers pose un défi majeur pour le développement de l'IA dans l'environnement industriel. Ce problème découle de l'utilisation diversifiée des formats, des unités et des définitions à travers les datasets, ce qui crée un état de désordre des données. Par conséquent, le manque de standardisation a plusieurs effets néfastes, tels que des conflits d'intégration des données, des modèles IA trompeurs et des détours chronophages pour les data scientists.
Malgré ces difficultés liées aux ensembles de données de fabrication, les avantages potentiels de l'utilisation de l'apprentissage automatique dans la fabrication sont considérables. En comprenant et en résolvant les problèmes associés aux ensembles de données de fabrication, les développeurs peuvent élaborer des solutions robustes et fiables qui améliorent l'efficacité, la qualité et la sécurité des processus de production :
- Utiliser des techniques robustes de nettoyage et de prétraitement des données.
- Promouvoir une collaboration étroite entre les scientifiques des données et les experts du domaine afin d'améliorer les connaissances et les idées spécifiques au domaine.
- Promouvoir la démocratisation des données en démantelant les silos de données et en mettant en œuvre des pratiques cohérentes de gouvernance des données.
- Lancer des initiatives visant à générer des données synthétiques réalistes afin d'enrichir les ensembles de données existants et de combler les lacunes.
- Mettre en œuvre des techniques d'apprentissage actif et permettre au modèle d'IA d'identifier de manière autonome les domaines nécessitant des données supplémentaires.
- Utiliser des techniques d'apprentissage par transfert en tirant parti de modèles pré-entraînés dans des domaines similaires pour accélérer le développement de l'IA, en se concentrant sur la construction d'un sous-ensemble de modèles d'IA pour l'industrie au lieu d'un modèle unique et générique dit "golden model".
Néanmoins, l'IA a de nombreux domaines d'application dans l'industrie manufacturière, notamment la détection des anomalies, la surveillance à distance des installations, l'automatisation de la production, l'optimisation de la chaîne d'approvisionnement, la prévision de la demande, la gestion de l'énergie, etc.
Les bonnes données doivent être utilisées pour construire des modèles robustes qui automatisent les processus industriels fastidieux. Les données de fabrication peuvent être toutes les données ou informations recueillies au cours de la fabrication d'un bien ou d'un matériau. Il peut s'agir de données relatives à la production, à la qualité, aux machines ou à la consommation d'énergie.
Les datasets couramment utilisés en manufacturing
Les données de production peuvent contenir différents types de données et se présenter sous plusieurs formats. Les formats tabulaires et les images sont deux des formats les plus courants pour les ensembles de données de manufacturing. Si vous cherchez à élaborer des solutions d'IA évolutives pouvant être appliquées aux industries manufacturières, voici quelques datasets de qualité, accessibles au public, que vous pouvez utiliser. Ces datasets sont utiles pour des processus de fabrication ou des activités usuels.
Dataset d'Anomalies Visuelles (VisA)
VisA contient 12 classes de tableaux et d'instruments électriques. Il y a 10 821 images, dont 1 200 sont anormales et 10 821 ne le sont pas. Les anomalies et les défauts sont indésirables dans les matériaux, en particulier les circuits imprimés et les équipements électroniques, car ils rendent les appareils inutilisables.
Ce datasets de détection d'anomalies sur une chaîne de production peut être utilisé pour détecter automatiquement les équipements fabriqués qui sont défectueux et ceux qui ne le sont pas. Cela évite aux industries de devoir tester manuellement chaque produit qu'elles fabriquent. L'ensemble de données contient des sous-ensembles de PCB, de noix de cajou, de chewing-gums, de macaronis, de capsules, etc. Il s'agit d'un dataset vaste et variés qui peut être utilisé pour différents cas d'usages.
MVTEC Dataset d'Anomalies (MVTecAD)
MVTecAD contient 5 000 images hautes résolution qui peuvent être utilisées pour évaluer la détection d'anomalies dans l'inspection industrielle. Ces images sont divisées en 15 catégories d'objets et de textures, chaque catégorie comprenant un ensemble d'images d'entraînement sans défaut et un ensemble de données de test contenant des images de défaut mélangées à des images de défauts.
Avec ce type de dataset de test, il sera possible de tester la précision du modèle pour identifier les images d'anomalies au sein d'une collection d'images. Deux mesures peuvent être utilisées pour évaluer ce modèle de détection d'anomalies entraîné sur MVTecAD : l'AUROC de détection et la segmentation. La méthode de détection produit un float par image test d'entrée, tandis que la méthode de segmentation produit la probabilité d'anomalie pour chaque pixel.
Dataset d'Équipements de Protection Individuelle (PPE)
PPE contient des images d'équipements de protection individuelle utilisés par les ouvriers d'usine. Pour garantir la sécurité des personnes et des équipements dans l'industrie, les travailleurs doivent porter certains EPI, tels que des lunettes, des combinaisons, etc. Les superviseurs industriels ne sont pas toujours disponibles pour inspecter les travailleurs. Il est néanmoins possible d'entraîner un modèle de vision par ordinateur pour détecter si les travailleurs portent ou non leur EPI.Cet ensemble de données contient 11 978 images, qui sont subdivisées en 12 classes uniques. Ces classes sont les suivantes :
- goggles (lunettes de protection)
- no_goggles (pas de lunettes de protection)
- helmet (casque)
- no_helmet (pas de casque)
- mask (masque)
- no_mask (pas de masque)
- suit (combinaison)
- no-suit (pas de combinaison)
- shoes (chaussures)
- no_shoes (pas de chaussures)
- glove (gants)
- no_glove (pas de gants)
Images de Produits de Fonderie pour le Contrôle Qualité
Les données relatives aux images de produits coulés contiennent des images de produits avant leur coulage. Cette collecte de données vise à permettre aux data scientists et ingénieurs en machine learning de construire des modèles capables de détecter les anomalies dans les images de produits avant qu'ils ne soient coulés. Les anomalies dans les produits ne sont pas souhaitables, car ils peuvent rendre le produit défectueux ou moins attrayant pour l'utilisateur.
Un défaut de coulée est une irrégularité indésirable dans un processus de coulée de métal. Il existe de nombreux types de défauts de fonderie, tels que les trous de soufflage, les trous d'épingle, les bavures, les défauts de retrait, les défauts du matériau de moulage, les défauts du métal de coulée, les défauts métallurgiques, etc. Le dataset contient 7348 images en échelle de gris d'une dimension de 300 x 300. Ces images sont divisées en sous-catégories "Défauts" et "Ok".
Dataset d'Images Synthétiques de Corrosion
Le dataset synthétique sur la corrosion contient des images de tuyaux corrodés. Les tuyaux corrodés sont indésirables dans les industries manufacturières car ils ont un impact négatif sur l'environnement, causent des problèmes de contrôle de la qualité et entraînent des pertes de production. Ce dataset peut être utilisé pour former un modèle de vision artificielle d'inspection capable de détecter la corrosion d'un tuyau et de le signaler de manière appropriée. L'ensemble de données contient 76 images de tuyaux et de métaux corrodés qui peuvent être utilisées pour l'entraînement et la validation d'un modèle.
LeakDB (Leakage Diagnosis Benchmark) - fuites dans les réseaux de distribution d'eau
LeakDB est un dataset réaliste sur les fuites dans les réseaux de distribution d'eau. Le dataset comprend un grand nombre de scénarios de fuites créés artificiellement mais réalistes sur différents réseaux de distribution d'eau et dans des conditions variables. Un algorithme de notation en code MATLAB est fourni pour évaluer les résultats de différents algorithmes.
Les fuites sont indésirables dans les industries, car elles font perdre aux entreprises des ressources précieuses et créent des risques sur les installations.Ce dataset peut être utilisé pour entraîner un modèle de vision par ordinateur capable de détecter automatiquement les fuites dans les canalisations industrielles et de les signaler si nécessaire. Il est disponible ici.
Dataset de classification des images de bouteilles d'eau
Le dataset de classification d'images de bouteilles d'eau contient des images de bouteilles partiellement ou entièrement remplies d'eau. Cet ensemble de données peut être utilisé pour entraîner un modèle de machine learning d'inspection visuelle capable précisément le niveau de remplissage de bouteilles dans une usine de production. Les images sont classées en trois catégories : niveau d'eau plein, demi-niveau d'eau et débordement. Cet ensemble de données peut être utilisé pour entraîner un modèle de machine learning utile pour automatiser le contrôler et de piloter les niveaux de liquide dans des conteneurs.
Une autre application intéressante de cet ensemble de données pourrait être la classification et la séparation des bouteilles d'eau en fonction de leur niveau d'eau, ce qui permettrait de rationaliser le processus de fabrication dans les industries.
Conclusion
Malgré les défis auxquels elle est confrontée, l'industrie manufacturière adopte de plus en plus une culture de partage des données ouvertes et s'engage dans le développement collaboratif de l'IA. Les avantages potentiels de la collaboration, l'émergence de plateformes de partage de données sécurisées et la pression croissante en faveur de l'adoption de l'IA ne sont que quelques-uns des facteurs qui motivent cette tendance culturelle émergente.
Divers efforts de collaboration au sein de l'industrie illustrent cette tendance. L'Industrial Internet Consortium (IIC) promeut au niveau mondial l'utilisation des données et de l'IA dans l'industrie manufacturière en élaborant des normes et des meilleures pratiques. Le Manufacturing Leadership Council (MLC), composé de dirigeants industriels, s'engage activement dans des initiatives axées sur le partage des données et la collaboration pour faire progresser l'adoption de l'IA. Des acteurs majeurs comme Siemens et SAP contribuent également au paysage collaboratif.
La trajectoire générale laisse entrevoir un avenir prometteur pour l'IA dans l'industrie manufacturière. Avec une ouverture accrue et un paysage de données unifié, l'IA devrait favoriser l'émergence de solutions d'IA plus innovantes et plus puissantes.