Principes de base d'Edge Impulse - partie cinq

Le 20 septembre 2023 dans Général, Informatique, Tout par Mike Parks

Principes de base d’Edge Impulse - partie 5 : Analyse de modèles d’apprentissage automatique à l’aide des outils Edge Impulse

Nous voici de retour pour notre série sur la création de modèles d’apprentissage automatique (machine learning, ML) pour les systèmes embarqués à l’aide d’Edge Impulse. Dans les quatre premiers articles de cette série, nous avons parlé du processus de création d’une structure d'entraînement adaptée à différents types de données (images, sons, capteurs tels que les accéléromètres, etc.). Nous avons montré comment collecter des données d'entraînement brutes auprès de capteurs et comment créer la structure d'entraînement. Faire passer les données brutes par la structure constitue notre première tentative pour obtenir un modèle de réseau neuronal personnalisé, lequel peut désormais être utilisé dans des conditions réelles avec des données en temps réel. C’est ce qu’on appelle généralement l’inférence.

Mais pour diverses raisons, notre modèle initial peut présenter des problèmes qui affectent négativement ses performances. Les tests, la validation et le réglage sont des étapes essentielles du développement d’un modèle d’apprentissage automatique robuste et efficace. Cela fait partie des bonnes pratiques de l’ingénierie. Sans surprise, Edge Impulse fournit tous les outils nécessaires à cela. Dans les articles de blogs suivants, nous explorerons le processus et les outils permettant d’analyser les performances des modèles ML et de les ajuster de façon à optimiser leurs performances.

Tout d’abord, examinons certains des problèmes courants qui peuvent survenir lors de l'entraînement d’un modèle de ML. En un mot, les problèmes surviennent parce que les modèles sont entraînés à partir d’un volume limité de données. Or, il serait extrêmement coûteux, voire totalement impossible, d’alimenter notre environnement de formation avec tous les scénarios d’entrée possibles. Ainsi, il est presque certain qu’un modèle « mis sur le terrain » recevra lors de l’inférence des données d’entrées susceptibles de le perturber (rappelez-vous que les données de sortie sont probabilistes). Les problèmes qui peuvent alors se poser sont de deux types :

Le surapprentissage : le surapprentissage (ou « overfitting ») se produit lorsqu’un modèle fonctionne extrêmement bien avec les données d'entraînement, mais qu’il ne parvient pas à se généraliser avec des données d’entrée qui ne lui sont pas encore connues (voir figure 1). Le modèle « mémorise » essentiellement les exemples d'entraînement, y compris le bruit ou les motifs non pertinents, au lieu d’apprendre les modèles sous-jacents qui lui permettraient de faire des prédictions précises sur la base de nouvelles données. Les symptômes typiques du surapprentissage sont, entre autres :
- une grande précision lors de l'entraînement, mais une faible précision en phase de validation ou de test ;
- performances médiocres avec de nouvelles données ou des données qui lui sont inconnues ;
- il se peut que le modèle soit trop complexe et qu’il capture de ce fait le bruit ou les valeurs aberrantes ;
- le surapprentissage peut survenir lorsque le modèle comporte trop de paramètres ou lorsque les données d’entraînement sont limitées.

Figure 1 : le surapprentissage survient lorsqu’un modèle fonctionne extrêmement bien avec les données d’entraînement, mais qu’il ne parvient pas à se généraliser à de nouvelles données qui lui sont inconnues (Source : Green Shoe Garage)

Sous-apprentissage : le sous-apprentissage (ou « underfitting ») se produit lorsqu’un modèle est trop simpliste pour capturer les modèles sous-jacents dans les données d'entraînement (voir figure 2). Le modèle ne parvient pas à apprendre des données et il peine à faire des prédictions précises, tant sur la base de l’ensemble des données d'entraînement que sur la base de nouvelles données. Les symptômes typiques du sous-apprentissage sont, entre autres :
- une faible précision aussi bien lors de l'entraînement qu’en phase de validation ou de test ;
- performances médiocres tant avec les données d'entraînement qu’avec de nouvelles données ou des données qui lui sont inconnues ;
- il se peut que le modèle ne soit pas assez complexe ou qu’il ne réussisse pas à saisir les fonctions pertinentes.

Figure 2 : le sous-apprentissage survient lorsqu’un modèle est trop simpliste pour capturer les modèles sous-jacents dans les données d'entraînement (Source : Green Shoe Garage)

Collectivement, ces éléments constituent la base d’un concept appelé compromis biais-variance. Cela signifie que le surapprentissage et le sous-apprentissage sont tous les deux liés au compromis biais-variance dans l’apprentissage automatique. Un modèle à biais élevé (sous-apprentissage) simplifie excessivement le problème, tandis qu’un modèle à forte variance (surapprentissage) le complexifie à l’excès. Il convient dès lors de trouver un équilibre à travers un modèle qui tire convenablement des généralités sans être ni trop simpliste ni trop complexe.

Edge Impulse fournit plusieurs outils pour vous aider à examiner les performances de votre modèle de ML tout au long du cycle de développement. Par exemple, les performances du modèle sont évaluées de plusieurs manières lors du développement d’un classifieur. La première de ces méthodes d’évaluation consiste à attribuer au modèle un score d’exactitude et un score de perte. La précision est définie par le pourcentage des données de test qui sont correctement classées. Par exemple, si votre ensemble de données d'entraînement comporte 50 photos de chats et 50 photos de chiens et que le modèle classe correctement 97 des 100 images, la précision est alors de 97 %. La perte est une mesure connexe, quoique légèrement plus nébuleuse. La perte est liée à la fiabilité des prédictions. Imaginons par exemple que deux modèles affichent tous deux 95 % de prédictions correctes : celui qui aura la plus faible perte (c’est-à-dire celui dont les suppositions sont les plus fiables) est considéré comme le meilleur modèle. Plus la perte est faible, plus le modèle est fiable par rapport aux données d'entrée fournies. La précision et la perte peuvent donc varier en fonction des différents ensembles de données de test qui sont fournis au modèle. Il en résulte qu’un ensemble de données d'entraînement volumineux favorise une meilleure analyse de l’exactitude et de la perte.

La seconde méthode d’évaluation des performances d’un modèle consiste à utiliser une matrice de confusion. Celle-ci exprime la probabilité qu’un nouveau signal d’entrée soit classé dans l’une ou l’autre des catégories possibles établies lors de l'entraînement (voir figure 3). Idéalement, tous les signaux sont correctement classés dans 100 % des cas et le sont incorrectement dans 0 % des cas. Seulement, une classification parfaite peut s’avérer difficile à obtenir si les multiples classifications possibles ne montrent entre elles que des différences minces ou nuancées. Ceci est donc évalué à l’aide de la matrice de confusion qui fournit une valeur appelée « score F1 ». Le score F1 est un indicateur de performance couramment utilisé dans les tâches d’apprentissage automatique et de classification. Il mesure l’exactitude d’un modèle en tenant compte de la précision et du rappel. La précision est la proportion de véritables prédictions positives (échantillons positifs correctement identifiés) par rapport à toutes les prédictions positives faites par le modèle. Le rappel est la proportion de véritables prédictions positives par rapport à tous les échantillons réellement positifs. Le score F1 idéal est 1,00.

Figure 3 : Edge Impulse dispose de plusieurs techniques d’analyse, notamment d’une matrice de confusion, pour mesurer les performances du modèle (Source : Green Shoe Garage)

Nous allons conclure ici pour le moment. Dans le prochain article de blog, nous finirons d’explorer les outils fournis par Edge Impulse pour évaluer la qualité de votre modèle d’apprentissage automatique autogénéré. Nous étudierons également les moyens d’atténuer les effets du surapprentissage et du sous-apprentissage.

« Retour

Michael Parks, P.E. is the co-founder of Green Michael Parks, P.E. est propriétaire de Green Shoe Garage, un studio de conception de solutions électroniques personnalisés et agence de conseil en technologies, situé dans le Maryland méridional. Il réalise le podcast S.T.E.A.M. Power pour sensibiliser le grand public aux questions techniques et scientifiques. Titulaire d'une maîtrise d'ingénierie des systèmes de l'université Johns Hopkins, Michael est également ingénieur professionnel agréé de l'État du Maryland.

Publications liées

Principes de base d'Edge Impulse : deuxième partie

Bienvenue dans le deuxième blog de notre série sur les principes de base d'Edge Impulse. Dans le premier blog, nous avons présenté les différents mécanismes offerts par Edge Impulse. Cette fois, nous examinerons concrètement le flux de travail global d'Edge Impulse : de la collecte des données et de la formation au déploiement du micrologiciel sur les dispositifs de périphérie ciblés.
Principes de base d'Edge Impulse - partie 4 : Blocs d’apprentissage

Dans notre dernier article de blog sur Edge Impulse, nous avons commencé à approfondir le sujet du flux de travail Create Impulse en examinant les différents types de blocs de traitement ainsi que leur usage respectif. Dans le présent article, nous nous intéresserons aux blocs d’apprentissage ainsi qu’au bloc de sortie, qui vient conclure le flux de travail Create Impulse. Dans Edge Impulse, on entend par blocs d’apprentissage les algorithmes d’apprentissage automatique qui servent à entraîner des modèles sur des données prétraitées.
Principes de base d'Edge Impulse - troisième partie : Blocs de traitement

Bienvenue à notre série continue sur la façon dont les développeurs peuvent tirer parti des services d'Edge Impulse pour apporter la technologie d'apprentissage automatique aux systèmes intégrés. Pour rappel, Edge Impulse est une plateforme qui permet de construire, de déployer et de gérer des modèles d'apprentissage automatique pour les dispositifs périphériques. Dans ce troisième chapitre, nous allons explorer en détail l'une des étapes les plus cruciales du flux de travail Edge Impulse : la conception d'impulsion.
Principes de base d'Edge Impulse, partie 6

Principes de base d’Edge Impulse 6 : améliorer les performances des modèles d’apprentissage automatique
Principes de base d'Edge Impulse : première partie

Le flux de travail pour développer des solutions qui utilisent des modèles d'apprentissage automatique (machine learning, ML) peut être complexe. Edge Impulse est un outil basé sur le cloud qui réduit considérablement la complexité du flux de travail pour les développeurs de systèmes embarqués afin d'ajouter la technologie d'apprentissage automatique (ML) à leurs produits.
Principes de base d'Edge Impulse, partie 7

Outil de classification en direct pour des essais en situation réelle.

Tags : apprentissage automatique, edge impulse, ml, outils edge impulse, sous-apprentissage, surapprentissage

Mouser Blog | France

Le blog officiel de Mouser Electronics

Principes de base d’Edge Impulse - partie 5 : Analyse de modèles d’apprentissage automatique à l’aide des outils Edge Impulse

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur

Mouser Blog | France

Le blog officiel de Mouser Electronics

Principes de base d’Edge Impulse - partie 5 : Analyse de modèles d’apprentissage automatique à l’aide des outils Edge Impulse

Publications liées

Principes de base d'Edge Impulse : deuxième partie

Principes de base d'Edge Impulse - partie 4 : Blocs d’apprentissage

Principes de base d'Edge Impulse - troisième partie : Blocs de traitement

Principes de base d'Edge Impulse, partie 6

Principes de base d'Edge Impulse : première partie

Principes de base d'Edge Impulse, partie 7

Recherche de blog

Catégories du blog

Auteurs invités

Tous les auteurs

Articles archivés

Tags des articles

Bureau du Service Client

Société

Ressources

Assistance

Retrouvez-nous sur