Identifier une personne à l'aide de méthodes de reconnaissance de formes. Examen des méthodes de reconnaissance de formes existantes

Chapitre 3 : Examen analytique des méthodes de reconnaissance de formes et de prise de décision

Théorie de la reconnaissance de formes et automatisation du contrôle

Principales tâches de la reconnaissance adaptative des formes

La reconnaissance est processus d'information, implémenté par un convertisseur d'informations (intelligent canal d'information, système de reconnaissance) comportant une entrée et une sortie. L'entrée du système est une information sur les caractéristiques des objets présentés. La sortie du système affiche des informations sur les classes (images généralisées) auxquelles appartiennent les objets reconnus.

Lors de la création et de l'exploitation d'un système automatisé de reconnaissance de formes, un certain nombre de problèmes sont résolus. Considérons brièvement et simplement ces tâches. Notez que différents auteurs ont les mêmes formulations de ces tâches, et l'ensemble lui-même ne coïncide pas, puisqu'il dépend dans une certaine mesure du spécifique modèle mathématique, sur lequel repose tel ou tel système de reconnaissance. De plus, certains problèmes dans certains modèles de reconnaissance n’ont pas de solution et, par conséquent, ne sont pas posés.

La tâche de formaliser le domaine

Essentiellement, cette tâche est une tâche de codage. Une liste de classes généralisées est compilée, auxquelles peuvent appartenir des implémentations spécifiques d'objets, ainsi qu'une liste de caractéristiques que ces objets, en principe, peuvent posséder.

La tâche de former un échantillon de formation

L'ensemble d'apprentissage est une base de données contenant des descriptions d'implémentations spécifiques d'objets dans le langage des fonctionnalités, complétées par des informations sur l'appartenance de ces objets à certaines classes de reconnaissance.

Tâche de formation au système de reconnaissance

L'échantillon d'apprentissage est utilisé pour former des images généralisées de classes de reconnaissance basées sur la généralisation d'informations sur les caractéristiques des objets de l'échantillon d'apprentissage appartenant à cette classe et à d'autres classes.

Le problème de la réduction de la dimension de l'espace des fonctionnalités

Après avoir entraîné le système de reconnaissance (obtention de statistiques sur la répartition des fréquences des caractéristiques par classe), il devient possible de déterminer pour chaque caractéristique sa valeur pour résoudre le problème de reconnaissance. Après cela, les fonctionnalités les moins précieuses peuvent être supprimées du système de fonctionnalités. Ensuite, le système de reconnaissance doit être à nouveau entraîné, car à la suite de la suppression de certaines fonctionnalités, les statistiques de répartition des fonctionnalités restantes par classe changent. Ce processus peut être répété, c'est-à-dire être itératif.

Tâche de reconnaissance

Les objets de l'échantillon reconnu sont reconnus, qui peuvent notamment être constitués d'un seul objet. L'échantillon reconnu est formé de la même manière que celui de formation, mais ne contient pas d'informations sur l'appartenance des objets aux classes, puisque c'est précisément ce qui est déterminé lors du processus de reconnaissance. Le résultat de la reconnaissance de chaque objet est une distribution ou une liste de toutes les classes de reconnaissance par ordre décroissant du degré de similitude de l'objet reconnu avec elles.

Problème de contrôle qualité de la reconnaissance

Après reconnaissance, son adéquation peut être établie. Pour les objets de l'échantillon d'apprentissage, cela peut être fait immédiatement, car pour eux, on sait simplement à quelles classes ils appartiennent. Pour d'autres objets, ces informations peuvent être obtenues ultérieurement. En tout cas, le réel probabilité moyenne erreurs pour toutes les classes de reconnaissance, ainsi que la probabilité d'erreur lors de l'attribution d'un objet reconnu à une classe spécifique.

Les résultats de la reconnaissance doivent être interprétés en tenant compte des informations disponibles sur la qualité de la reconnaissance.

Problème d'adaptation

Si, à la suite de la procédure de contrôle de qualité, il s'avère qu'elle n'est pas satisfaisante, les descriptions des objets mal reconnus peuvent être copiées de l'échantillon reconnu vers celui de formation, complétées par des informations de classification adéquates et utilisées pour la reformation. règles décisives, c'est à dire. pris en compte. De plus, si ces objets n'appartiennent pas aux classes de reconnaissance existantes, ce qui pourrait être à l'origine de leur reconnaissance incorrecte, alors cette liste peut être élargie. En conséquence, le système de reconnaissance s'adapte et commence à classer adéquatement ces objets.

Problème de reconnaissance inverse

La tâche de reconnaissance est que pour un objet donné, sur la base de ses caractéristiques connues, le système établit son appartenance à une classe auparavant inconnue. Dans le problème de reconnaissance inverse, au contraire, pour de cette classe Lors de la reconnaissance, le système établit quelles caractéristiques sont les plus caractéristiques des objets d'une classe donnée et lesquelles ne le sont pas (ou quels objets de l'échantillon d'apprentissage appartiennent à une classe donnée).

Problèmes de cluster et d'analyse constructive

Les clusters sont des groupes d'objets, de classes ou de fonctionnalités qui, au sein de chaque cluster, sont aussi similaires que possible, et entre différents clusters, ils sont aussi différents que possible.

Une construction (dans le contexte abordé dans cette section) est un système de clusters opposés. Ainsi, dans un certain sens, les construits sont le résultat d’une analyse groupée de clusters.

Dans l'analyse typologique, le degré de similitude et de différence entre les objets (classes, caractéristiques) est mesuré quantitativement et ces informations sont utilisées pour la classification. Le résultat de l'analyse cluster est la classification des objets en clusters. Cette classification peut être représentée sous forme de réseaux sémantiques.

Tâche d'analyse cognitive

En analyse cognitive, les informations sur les similitudes et les différences entre les classes ou les caractéristiques intéressent le chercheur en elles-mêmes, et non pour les utiliser à des fins de classification, comme dans l'analyse groupée et constructive.

Si le même trait est caractéristique de deux classes de reconnaissance, cela contribue à la similitude de ces deux classes. Si pour l'une des classes cette fonctionnalité n'est pas caractéristique, cela contribue à la différence.

Si deux caractéristiques sont en corrélation, alors dans un certain sens, elles peuvent être considérées comme une seule caractéristique, et si elles sont anticorrélées, alors comme différentes. Compte tenu de cette circonstance, la présence divers signes dans différentes classes contribue également dans une certaine mesure à leurs similitudes et à leurs différences.

Les résultats de l'analyse cognitive peuvent être présentés sous forme de diagrammes cognitifs.

Méthodes de reconnaissance de formes et leurs caractéristiques

Principes de classification des méthodes de reconnaissance de formes

La reconnaissance de formes fait référence au problème de la construction et de l'application d'opérations formelles sur des représentations numériques ou symboliques d'objets dans le monde réel ou idéal, dont les résultats reflètent les relations d'équivalence entre ces objets. Les relations d'équivalence expriment l'appartenance des objets évalués à des classes quelconques, considérées comme des unités sémantiques indépendantes.

Lors de la construction d'algorithmes de reconnaissance, des classes d'équivalence peuvent être spécifiées par un chercheur qui utilise ses propres idées significatives ou utilise des informations supplémentaires externes sur les similitudes et les différences d'objets dans le contexte du problème à résoudre. Ensuite, ils parlent de « reconnaissance auprès d’un professeur ». Sinon, c'est à dire Lorsqu’un système automatisé résout un problème de classification sans utiliser d’informations de formation externes, on parle de classification automatique ou de « reconnaissance non supervisée ». La plupart des algorithmes de reconnaissance de formes nécessitent l’utilisation d’une puissance de calcul très importante, qui ne peut être fournie que par une technologie informatique performante.

Divers auteurs (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, F.E. Temnikov, J. Tu, R. Gonzalez, P. Winston, K. Fu, Ya.Z Tsypkin, etc.) donnent une typologie différente des méthodes de reconnaissance de formes. Certains auteurs distinguent les méthodes paramétriques, non paramétriques et heuristiques, d'autres identifient des groupes de méthodes basés sur des écoles et des tendances historiquement établies dans ce domaine. Par exemple, dans l'ouvrage, qui donne un aperçu académique des méthodes de reconnaissance, la typologie suivante des méthodes de reconnaissance de formes est utilisée :

  • méthodes basées sur le principe de séparation ;
  • Méthodes statistiques;
  • méthodes basées sur " fonctions potentielles»;
  • méthodes de calcul des notes (vote);
  • méthodes basées sur le calcul propositionnel, notamment sur les appareils d'algèbre logique.

Cette classification est basée sur la différence entre les méthodes formelles de reconnaissance de formes et donc sur la prise en compte de l'approche heuristique de la reconnaissance, qui a reçu un accueil complet et complet. développement adéquat dans les systèmes experts. L'approche heuristique s'appuie sur des connaissances difficiles à formaliser et sur l'intuition du chercheur. Dans ce cas, le chercheur détermine lui-même quelles informations et comment le système doit utiliser pour obtenir l'effet de reconnaissance requis.

Une typologie similaire de méthodes de reconnaissance, avec des degrés de détail variables, se retrouve dans de nombreux travaux sur la reconnaissance. Dans le même temps, les typologies connues ne prennent pas en compte une caractéristique très significative, qui reflète la spécificité de la manière de représenter les connaissances sur un domaine à l'aide de tout algorithme formel de reconnaissance de formes.

D.A. Pospelov (1990) identifie deux manières principales de présenter les connaissances :

  • intensionnel, sous la forme d'un schéma de connexions entre attributs (caractéristiques).
  • extensionnel, à l'aide de faits spécifiques (objets, exemples).

La représentation intentionnelle capture les modèles et les connexions qui expliquent la structure des données. Par rapport aux problèmes de diagnostic, une telle fixation consiste à définir des opérations sur les attributs (caractéristiques) des objets conduisant aux résultats requis. résultat du diagnostic. Les représentations intensionnelles sont mises en œuvre par le biais d'opérations sur les valeurs d'attribut et n'impliquent pas d'opérations sur des faits d'information spécifiques (objets).

À leur tour, les représentations extensionnelles de la connaissance sont associées à la description et à la fixation d'objets spécifiques du domaine et sont mises en œuvre dans des opérations dont les éléments sont des objets comme systèmes complets.

Une analogie peut être établie entre les représentations intensionnelles et extensionnelles de la connaissance et les mécanismes qui sous-tendent l’activité des hémisphères gauche et droit du cerveau humain. Si l'hémisphère droit est caractérisé par une représentation prototype holistique du monde environnant, alors hémisphère gauche fonctionne avec des modèles qui reflètent les liens entre les attributs de ce monde.

Les deux manières fondamentales de représenter les connaissances décrites ci-dessus nous permettent de proposer la classification suivante des méthodes de reconnaissance de formes :

  • méthodes intensionnelles basées sur des opérations avec des fonctionnalités.
  • méthodes d'extension basées sur des opérations avec des objets.

Il faut surtout souligner que l’existence de ces deux (et seulement deux) groupes de méthodes de reconnaissance : celles opérant avec des signes et celles opérant avec des objets, est profondément naturelle. De ce point de vue, aucune de ces méthodes, prise séparément des autres, ne permet de former une réflexion adéquate sur le domaine. Selon les auteurs, il existe une relation de complémentarité entre ces méthodes au sens de N. Bohr, donc des systèmes de reconnaissance prometteurs devraient permettre la mise en œuvre de ces deux méthodes, et pas n'importe laquelle d'entre elles.

Ainsi, la classification des méthodes de reconnaissance proposée par D. A. Pospelov repose sur les lois fondamentales qui sous-tendent manière humaine connaissances en général, ce qui la place dans une position tout à fait particulière (privilégiée) par rapport à d'autres classifications, qui dans ce contexte semblent plus légères et artificielles.

Méthodes intentionnelles

Une caractéristique distinctive des méthodes intentionnelles est qu'elles utilisent diverses caractéristiques des caractéristiques et de leurs connexions comme éléments d'opérations lors de la construction et de l'application d'algorithmes de reconnaissance de formes. De tels éléments pourraient être valeurs individuelles ou des intervalles de valeurs de caractéristiques, de valeurs moyennes et de variances, de matrices de relations de caractéristiques, etc., sur lesquels des actions sont effectuées, exprimées en termes analytiques ou forme constructive. Dans le même temps, les objets de ces méthodes ne sont pas considérés comme des unités d'information intégrales, mais agissent comme des indicateurs pour évaluer l'interaction et le comportement de leurs attributs.

Le groupe de méthodes intentionnelles de reconnaissance de formes est vaste et sa division en sous-classes est dans une certaine mesure conditionnelle.

Méthodes basées sur des estimations des densités de distribution des valeurs des caractéristiques

Ces méthodes de reconnaissance de formes sont empruntées à théorie classique solutions statistiques, dans lesquelles les objets d'étude sont considérés comme des mises en œuvre d'une approche multidimensionnelle Variable aléatoire, distribué dans l'espace des fonctionnalités selon une certaine loi. Ils sont basés sur un schéma de prise de décision bayésien qui fait appel aux probabilités a priori d'objets appartenant à une classe reconnaissable particulière et aux densités de distribution conditionnelles des valeurs de vecteurs de caractéristiques. Ces méthodes se résument à déterminer le rapport de vraisemblance dans diverses zones de l’espace des fonctionnalités multidimensionnelles.

Un groupe de méthodes basées sur l'estimation des densités de distribution des valeurs des caractéristiques est directement liée aux méthodes d'analyse discriminante. L'approche bayésienne de la prise de décision est l'une des méthodes dites paramétriques les plus développées dans les statistiques modernes, pour lesquelles l'expression analytique de la loi de distribution est considérée comme connue (en dans ce cas loi normale) et doit seulement être estimé une petite quantité de paramètres (vecteurs de valeurs moyennes et matrices de covariance).

Les principales difficultés liées à l'utilisation de ces méthodes sont la nécessité de mémoriser l'intégralité de l'échantillon de formation pour calculer les estimations des densités de distribution de probabilité locale et la grande sensibilité au caractère non représentatif de l'échantillon de formation.

Méthodes basées sur des hypothèses sur la classe des fonctions de décision

Dans ce groupe de méthodes, la forme générale de la fonction de décision est considérée comme connue et la fonctionnelle de sa qualité est précisée. Sur la base de cette fonctionnelle, la meilleure approximation de la fonction de décision est trouvée à l'aide de la séquence d'apprentissage. Les vues les plus courantes sont fonctions décisives sous forme de polynômes linéaires et non linéaires généralisés. La fonctionnalité qualité de la règle de décision est généralement associée à une erreur de classification.

Le principal avantage des méthodes basées sur des hypothèses sur la classe des fonctions de décision est la clarté de la formulation mathématique du problème de reconnaissance en tant que problème de recherche d'un extremum. La variété des méthodes de ce groupe s’explique par le large éventail de fonctionnalités de qualité des règles de décision et d’algorithmes de recherche extremum utilisés. Une généralisation des algorithmes considérés, qui incluent notamment l'algorithme de Newton, les algorithmes de type perceptron, etc., est la méthode d'approximation stochastique.

Les capacités des algorithmes de recherche gradient extremum, en particulier dans le groupe des règles de décision linéaires, ont été assez bien étudiées. La convergence de ces algorithmes n'a été prouvée que dans le cas où les classes d'objets reconnues sont affichées dans l'espace des caractéristiques par des structures géométriques compactes.

Assez haute qualité La règle de décision peut être obtenue à l'aide d'algorithmes qui n'ont pas de règles strictes. preuve mathématique convergence de la solution vers l’extremum mondial. De tels algorithmes incluent grand groupe procédures de programmation heuristique représentant la direction de la modélisation évolutive. La modélisation évolutive est une méthode bionique empruntée à la nature. Elle s'appuie sur l'utilisation de mécanismes d'évolution connus afin de remplacer le processus de modélisation signifiante d'un objet complexe par une modélisation phénoménologique de son évolution. Un représentant bien connu de la modélisation évolutive dans la reconnaissance de formes est la méthode de comptabilité de groupe des arguments (MGUA). La base du GMDH est le principe d'auto-organisation, et les algorithmes du GMDH reproduisent le schéma de sélection de masse.

Cependant, la réalisation d'objectifs pratiques dans ce cas ne s'accompagne pas de l'extraction de nouvelles connaissances sur la nature des objets reconnus. La possibilité d'extraire ces connaissances, en particulier celles sur les mécanismes d'interaction des attributs (caractéristiques), est ici fondamentalement limitée par la structure donnée de cette interaction, fixée dans la forme choisie des fonctions de décision.

Méthodes booléennes

Les méthodes logiques de reconnaissance de formes sont basées sur l'appareil d'algèbre logique et permettent d'opérer avec des informations contenues non seulement dans des caractéristiques individuelles, mais également dans des combinaisons de valeurs de caractéristiques. Dans ces méthodes, les valeurs de tout attribut sont considérées comme des événements élémentaires.

Dans le très vue générale les méthodes logiques peuvent être caractérisées comme un type de recherche à travers un échantillon d'apprentissage de modèles logiques et la formation d'un système de règles de décision logique (par exemple, sous la forme de conjonctions d'événements élémentaires), dont chacune a son propre poids. Le groupe des méthodes logiques est diversifié et comprend des méthodes de complexité variable et la profondeur de l'analyse. Pour les caractéristiques dichotomiques (booléennes), les classificateurs dits arborescents, la méthode de test sans issue, l'algorithme « Bark », etc. sont populaires.

L'algorithme « Kora », comme d'autres méthodes logiques de reconnaissance de formes, nécessite beaucoup de calculs, puisqu'une recherche complète est requise lors de la sélection des conjonctions. Par conséquent, lors de l'utilisation de méthodes logiques, des exigences élevées sont imposées organisation efficace processus de calcul, et ces méthodes fonctionnent bien avec des dimensions relativement petites de l’espace des fonctionnalités et uniquement sur des ordinateurs puissants.

Méthodes linguistiques (structurelles)

Les méthodes linguistiques de reconnaissance de formes reposent sur l'utilisation de grammaires spéciales qui génèrent des langages pouvant être utilisés pour décrire l'ensemble des propriétés des objets reconnus.

Pour différentes classes d'objets, les éléments (atomiques) non dérivés (sous-images, attributs) et les relations possibles entre eux sont identifiés. La grammaire fait référence aux règles de construction d'objets à partir de ces éléments non dérivés.

Ainsi, chaque objet est un ensemble d'éléments non dérivés, « connectés » les uns aux autres d'une manière ou d'une autre ou, en d'autres termes, par une « phrase » d'un « langage ». Je voudrais surtout souligner la valeur idéologique très significative de cette pensée.

En analysant syntaxiquement (analyse grammaticalement) une « phrase », on détermine sa « correction » syntaxique ou, de manière équivalente, si une grammaire fixe décrivant une classe peut générer la description existante d'un objet.

Cependant, la tâche de reconstruire (définir) des grammaires à partir d'un certain ensemble d'énoncés (phrases - descriptions d'objets) qui génèrent une langue donnée est difficile à formaliser.

Méthodes d'extension

Dans les méthodes de ce groupe, contrairement au sens intensionnel, chaque objet étudié se voit attribuer, dans une plus ou moins grande mesure, un sens indépendant valeur diagnostique. À la base, ces méthodes sont proches de l'approche clinique, qui considère les personnes non pas comme une chaîne d'objets classés par un indicateur ou un autre, mais comme des systèmes intégraux, dont chacun est individuel et a une valeur diagnostique particulière. Une telle attitude prudente envers les objets de recherche ne permet pas d'exclure ou de perdre des informations sur chacun objet séparé, que se passe-t-il lors de l'utilisation de méthodes de direction intensionnelle qui utilisent des objets uniquement pour détecter et enregistrer des modèles de comportement de leurs attributs.

Les principales opérations de reconnaissance de formes utilisant les méthodes discutées sont les opérations de détermination des similitudes et des différences d'objets. Les objets du groupe de méthodes spécifié jouent le rôle de précédents de diagnostic. Cependant, selon les conditions tâche spécifique le rôle d'un précédent individuel peut varier considérablement : du rôle principal et déterminant à une participation très indirecte au processus de reconnaissance. À leur tour, les conditions du problème peuvent nécessiter la participation d'un nombre différent de précédents de diagnostic pour une solution réussie : d'un dans chaque classe reconnue à la taille totale de l'échantillon, ainsi que différentes façons calculer des mesures de similitude et de différence entre des objets. Ces exigences expliquent la division ultérieure des méthodes d'extension en sous-classes.

Méthode de comparaison avec un prototype

Il s’agit de la méthode de reconnaissance extensionnelle la plus simple. Il est utilisé, par exemple, dans le cas où les classes reconnues sont affichées dans l'espace des fonctionnalités par des regroupements géométriques compacts. Dans ce cas, le centre du groupement géométrique de la classe (ou l'objet le plus proche du centre) est généralement sélectionné comme point prototype.

Pour classer un objet inconnu, on trouve le prototype le plus proche et l'objet appartient à la même classe que ce prototype. Évidemment, aucune image de classe généralisée n’est générée dans cette méthode.

Différents types de distances peuvent être utilisés comme mesure de proximité. Souvent, pour les caractéristiques dichotomiques, la distance de Hamming est utilisée, qui dans ce cas est égale au carré de la distance euclidienne. Dans ce cas, la règle de décision pour classer les objets est équivalente à une fonction de décision linéaire.

Ce fait doit être particulièrement noté. Il démontre clairement le lien entre le prototype et la représentation attributaire des informations sur la structure des données. En utilisant la représentation ci-dessus, vous pouvez, par exemple, n'importe quel échelle de mesure, lequel est fonction linéaireà partir des significations de caractéristiques dichotomiques, considérées comme un prototype diagnostique hypothétique. À son tour, si l'analyse de la structure spatiale des classes reconnues permet de tirer une conclusion sur leur compacité géométrique, il suffit alors de remplacer chacune de ces classes par un prototype, ce qui équivaut en fait à un modèle de diagnostic linéaire.

Dans la pratique, bien entendu, la situation est souvent différente de l’exemple idéalisé décrit. Devant un chercheur souhaitant appliquer une méthode de reconnaissance basée sur la comparaison avec des prototypes cours de diagnostic, se lever problèmes difficiles.

Il s'agit d'abord du choix de la mesure de proximité (métrique), qui peut modifier significativement la configuration spatiale de la répartition des objets. Deuxièmement, un problème indépendant est l'analyse des structures multidimensionnelles des données expérimentales. Ces deux problèmes sont particulièrement aigus pour le chercheur dans des conditions de haute dimensionnalité de l'espace des caractéristiques, caractéristiques des problèmes réels.

méthode des k voisins les plus proches

La méthode des k-voisins les plus proches pour résoudre les problèmes d’analyse discriminante a été proposée pour la première fois en 1952. C'est le suivant.

Lors de la classification d'un objet inconnu, on trouve numéro donné(k) géométriquement le plus proche de lui dans l'espace des caractéristiques d'autres objets (voisins les plus proches) avec une appartenance déjà connue à des classes reconnaissables. La décision d'attribuer un objet inconnu à une classe de diagnostic particulière est prise en analysant les informations sur cette affiliation connue de ses voisins les plus proches, par exemple à l'aide d'un simple décompte des voix.

Initialement, la méthode des k-voisins les plus proches était considérée comme une méthode non paramétrique pour estimer le rapport de vraisemblance. Pour cette méthode, des estimations théoriques de son efficacité ont été obtenues en comparaison avec le classificateur bayésien optimal. Il a été prouvé que les probabilités d'erreur asymptotiques pour la méthode des k-voisins les plus proches ne dépassent pas de plus de deux fois les erreurs de la règle de Bayes.

Lorsqu’il utilise la méthode des k-voisins les plus proches pour la reconnaissance de formes, le chercheur doit décider problème complexe choisir une métrique pour déterminer la proximité des objets diagnostiqués. Ce problème dans des conditions de haute dimensionnalité de l'espace des fonctionnalités est extrêmement aggravé en raison de la complexité suffisante de cette méthode, qui devient importante même pour les ordinateurs hautes performances. Par conséquent, ici, tout comme dans la méthode de comparaison avec un prototype, il est nécessaire de résoudre le problème créatif de l'analyse de la structure multidimensionnelle des données expérimentales afin de minimiser le nombre d'objets représentant les classes de diagnostic.

La nécessité de réduire le nombre d’objets dans l’échantillon d’apprentissage (précédents de diagnostic) est un inconvénient de cette méthode, car elle réduit la représentativité de l’échantillon d’apprentissage.

Algorithmes de calcul des notes (« vote »)

Le principe de fonctionnement des algorithmes de calcul d'évaluation (ABO) est de calculer des priorités (scores de similarité) caractérisant la « proximité » des objets reconnus et de référence selon un système d'ensembles de caractéristiques, qui est un système de sous-ensembles d'un ensemble donné de caractéristiques. .

Contrairement à toutes les méthodes évoquées précédemment, les algorithmes de calcul des estimations fonctionnent avec les descriptions d'objets d'une manière fondamentalement nouvelle. Pour ces algorithmes, les objets existent simultanément dans des sous-espaces très différents de l’espace des fonctionnalités. La classe ABO pousse l'idée d'utiliser des fonctionnalités jusqu'à sa conclusion logique : comme on ne sait pas toujours quelles combinaisons de fonctionnalités sont les plus informatives, alors dans ABO le degré de similarité des objets est calculé en comparant toutes les combinaisons possibles ou spécifiques de caractéristiques incluses dans les descriptions des objets.

Les auteurs appellent les combinaisons de caractéristiques utilisées (sous-espaces) des ensembles de support ou des ensembles de descriptions partielles d'objets. La notion de proximité généralisée entre l'objet reconnu et les objets de l'échantillon d'apprentissage est introduite (avec classement bien connu), appelés objets de référence. Cette proximité est représentée par une combinaison de la proximité de l'objet reconnu avec les objets de référence, calculée sur des ensembles de descriptions partielles. Ainsi, ABO est une extension de la méthode des k-voisins les plus proches, dans laquelle la proximité des objets est considérée dans un seul espace donné panneaux.

Une autre extension de l'ABO est que dans ces algorithmes, la tâche de détermination des similitudes et des différences d'objets est formulée comme paramétrique et l'étape de configuration de l'ABO sur la base de l'échantillon d'apprentissage est mise en évidence, au cours de laquelle valeurs optimales paramètres saisis. Le critère de qualité est l'erreur de reconnaissance, et littéralement tout est paramétré :

  • règles de calcul de la proximité des objets en fonction des caractéristiques individuelles ;
  • règles de calcul de la proximité des objets dans les sous-espaces de caractéristiques ;
  • le degré d'importance d'un objet de référence particulier en tant que précédent de diagnostic ;
  • l'importance de la contribution de chaque ensemble de fonctionnalités de référence à note finale similarité de l'objet reconnu avec n'importe quelle classe de diagnostic.

Les paramètres ABO sont spécifiés sous forme de valeurs seuils et (ou) sous forme de poids des composants spécifiés.

Les capacités théoriques d'AVO ne sont au moins pas inférieures à celles de tout autre algorithme de reconnaissance de formes, puisqu'avec l'aide d'AVO, toutes les opérations imaginables avec les objets étudiés peuvent être mises en œuvre.

Mais, comme c'est généralement le cas, l'expansion des capacités potentielles se heurte à de grandes difficultés dans leur mise en œuvre pratique, notamment au stade de la construction (réglage) d'algorithmes de ce type.

Certaines difficultés ont été notées précédemment lors de la discussion de la méthode des k-voisins les plus proches, qui pourrait être interprétée comme une version tronquée d’ABO. On peut également l'envisager dans forme paramétrique et réduisez le problème à trouver une métrique pondérée du type sélectionné. Dans le même temps, des problèmes complexes se posent ici pour des problèmes de grande dimension. questions théoriques et les problèmes associés à l'organisation d'un processus informatique efficace.

Pour AVO, si vous essayez d'utiliser au maximum les capacités de ces algorithmes, ces difficultés augmentent plusieurs fois.

Les problèmes notés expliquent le fait qu'en pratique, l'utilisation d'ABO pour résoudre des problèmes de grande dimension s'accompagne de l'introduction de certaines restrictions et hypothèses heuristiques. En particulier, il existe un exemple bien connu d'utilisation de l'ABO en psychodiagnostic, dans lequel un type d'ABO a été testé, qui est en fait équivalent à la méthode des k-voisins les plus proches.

Collectifs de règles de décision

Pour compléter notre examen des méthodes de reconnaissance de formes, examinons une autre approche. Il s’agit de ce que l’on appelle les collectifs de règles de décision (DRG).

Puisque différents algorithmes de reconnaissance se manifestent différemment sur un même échantillon d’objets, la question se pose naturellement de la synthèse règle décisive, qui utilise de manière adaptative les atouts de ces algorithmes. La règle de décision synthétique utilise un schéma de reconnaissance à deux niveaux. Au premier niveau fonctionnent des algorithmes de reconnaissance privée dont les résultats sont regroupés au deuxième niveau dans le bloc de synthèse. Les méthodes les plus courantes d'une telle unification reposent sur l'identification des domaines de compétence d'un algorithme particulier. La manière la plus simple de trouver des domaines de compétence est de partitionner a priori l'espace des attributs en fonction de considérations professionnelles d'une science particulière (par exemple, stratifier l'échantillon selon un certain attribut). Ensuite, pour chacune des zones sélectionnées, son propre algorithme de reconnaissance est construit. Une autre méthode est basée sur l'utilisation d'une analyse formelle pour déterminer des zones locales de l'espace de caractéristiques en tant que voisinages d'objets reconnus pour lesquels le succès d'un algorithme de reconnaissance particulier a été prouvé.

La plupart approche générale pour construire un bloc de synthèse, considère les indicateurs résultants d'algorithmes particuliers comme des caractéristiques initiales pour la construction d'une nouvelle règle de décision généralisée. Dans ce cas, toutes les méthodes ci-dessus de directions intensionnelles et extensionnelles dans la reconnaissance de formes peuvent être utilisées. Efficaces pour résoudre le problème de la création d'un ensemble de règles de décision sont les algorithmes logiques de type « Kora » et les algorithmes de calcul d'estimations (ABO), qui constituent la base de l'approche dite algébrique, qui fournit des recherches et description constructive algorithmes de reconnaissance, dans le cadre desquels tous types existants algorithmes

Analyse comparative des méthodes de reconnaissance de formes

Comparons les méthodes de reconnaissance de formes décrites ci-dessus et évaluons leur degré d'adéquation aux exigences formulées dans la section 3.3.3 pour les modèles SOU pour les systèmes de contrôle automatisés adaptatifs systèmes complexes.

Pour résoudre des problèmes réels du groupe des méthodes de direction intentionnelle, elles ont une valeur pratique méthodes paramétriques et des méthodes basées sur des propositions sur la forme des fonctions de décision. Les méthodes paramétriques constituent la base de la méthodologie traditionnelle de construction d'indicateurs. Application de ces méthodes dans de vrais problèmes est associée à l'imposition de fortes restrictions sur la structure des données, qui conduisent à des modèles de diagnostic linéaires avec des estimations très approximatives de leurs paramètres. Lorsqu’il utilise des méthodes basées sur des hypothèses sur la forme des fonctions de décision, le chercheur est également contraint de se tourner vers des modèles linéaires. Cela est dû à la grande dimension de l’espace des caractéristiques, caractéristique des problèmes réels, qui, avec l’augmentation du degré de la fonction de décision polynomiale, donne croissance énorme le nombre de ses membres avec une augmentation concomitante problématique de la qualité de la reconnaissance. Ainsi, en projetant le domaine d'application potentielle des méthodes de reconnaissance intentionnelle sur des problèmes réels, nous obtenons une image qui correspond à la méthodologie traditionnelle bien développée des modèles de diagnostic linéaire.

Les propriétés des modèles de diagnostic linéaires, dans lesquels l'indicateur de diagnostic est représenté par une somme pondérée des caractéristiques initiales, ont été bien étudiées. Les résultats de ces modèles (avec une normalisation appropriée) sont interprétés comme des distances entre les objets étudiés et un hyperplan dans l'espace des caractéristiques ou, de manière équivalente, comme des projections d'objets sur une ligne droite dans cet espace. Par conséquent, les modèles linéaires ne conviennent que pour des configurations géométriques simples de zones de l’espace de caractéristiques dans lesquelles sont mappés des objets de différentes classes de diagnostic. Avec plus distributions complexes Ces modèles ne peuvent fondamentalement pas refléter de nombreuses caractéristiques de la structure des données expérimentales. Dans le même temps, ces fonctionnalités peuvent fournir des informations de diagnostic précieuses.

Parallèlement, l'apparition dans tout problème réel de structures multidimensionnelles simples (en particulier multidimensionnelles) distributions normales) doit être considérée comme l'exception plutôt que la règle. Les classes de diagnostic sont souvent formées sur la base de critères externes complexes, ce qui entraîne automatiquement une hétérogénéité géométrique de ces classes dans l'espace des fonctionnalités. Cela est particulièrement vrai pour les critères « vitaux », les plus fréquemment rencontrés dans la pratique. Dans de telles conditions, l’utilisation de modèles linéaires ne capture que les modèles d’informations expérimentales les plus « grossiers ».

L'utilisation de méthodes d'extension n'est associée à aucune hypothèse sur la structure de l'information expérimentale, sauf qu'au sein des classes reconnues, il devrait y avoir un ou plusieurs groupes d'objets quelque peu similaires, et que les objets de classes différentes devraient être quelque peu différents les uns des autres. Évidemment, pour toute taille finie de l'échantillon d'apprentissage (et il ne peut en être aucun autre), cette exigence est toujours remplie simplement parce qu'il existe des différences aléatoires entre les objets. Comme mesures de similarité, diverses mesures de proximité (distance) des objets dans l'espace des caractéristiques sont utilisées. C'est pourquoi utilisation efficace les méthodes extensionnelles de reconnaissance de formes dépendent de la qualité de la détermination des mesures de proximité spécifiées, ainsi que des objets de l'échantillon d'apprentissage (objets avec une classification connue) qui servent de précédents de diagnostic. Une solution réussie à ces problèmes donne des résultats approchant les limites théoriquement atteignables de l'efficacité de la reconnaissance.

Les avantages des méthodes extensionnelles de reconnaissance de formes sont tout d'abord compensés par la grande complexité technique de leur mise en œuvre pratique. Pour les espaces de caractéristiques de grande dimension, la tâche apparemment simple consistant à trouver des paires de points les plus proches se transforme en Problème sérieux. De plus, de nombreux auteurs notent comme problème la nécessité de mémoriser un nombre suffisamment important d'objets représentant des classes reconnues.

Ceci en soi n'est pas un problème, mais cela est perçu comme un problème (par exemple, dans la méthode des k-voisins les plus proches) car lors de la reconnaissance de chaque objet, une recherche complète de tous les objets de l'ensemble d'apprentissage se produit.

Par conséquent, il est conseillé d'appliquer un modèle de système de reconnaissance dans lequel le problème d'une énumération complète des objets dans l'échantillon d'apprentissage lors de la reconnaissance est supprimé, puisqu'elle n'est effectuée qu'une seule fois lors de la génération d'images généralisées de classes de reconnaissance. Lors de la reconnaissance elle-même, l'objet identifié n'est comparé qu'à des images généralisées de classes de reconnaissance dont le nombre est fixe et totalement indépendant de la taille de l'échantillon d'apprentissage. Cette approche vous permet d'augmenter la taille de l'échantillon d'apprentissage jusqu'à ce que la haute qualité requise des images généralisées soit atteinte, sans aucune crainte que cela puisse conduire à une augmentation inacceptable du temps de reconnaissance (puisque le temps de reconnaissance dans ce modèle ne dépend pas de la taille de l’échantillon d’apprentissage).

Les problèmes théoriques liés à l'utilisation de méthodes de reconnaissance extensionnelle sont associés aux problèmes de recherche de groupes informatifs de caractéristiques, de recherche de métriques optimales pour mesurer les similitudes et les différences d'objets et d'analyse de la structure des informations expérimentales. Dans le même temps, la solution réussie de ces problèmes permet non seulement de construire des algorithmes de reconnaissance efficaces, mais également de passer d'une connaissance extensionnelle des faits empiriques à une connaissance intentionnelle des modèles de leur structure.

Le passage de la connaissance extensionnelle à la connaissance intensionnelle se produit au stade où un algorithme de reconnaissance formelle a déjà été construit et son efficacité a été démontrée. Ensuite, les mécanismes par lesquels l'efficacité résultante est obtenue sont étudiés. Une telle étude, associée à l'analyse de la structure géométrique des données, peut par exemple conduire à la conclusion qu'il suffit de remplacer les objets représentant une classe diagnostique particulière par un représentant typique (prototype). Cela équivaut, comme indiqué ci-dessus, à spécifier une échelle de diagnostic linéaire traditionnelle. Il est également possible qu'il suffise de remplacer chaque classe de diagnostic par plusieurs objets, conceptualisés comme des représentants typiques de certaines sous-classes, ce qui équivaut à construire un éventail d'échelles linéaires. Il existe d'autres options qui seront discutées ci-dessous.

Ainsi, un examen des méthodes de reconnaissance montre qu’un certain nombre de méthodes différentes de reconnaissance de formes ont maintenant été théoriquement développées. La littérature en propose une classification détaillée. Cependant, pour la plupart de ces méthodes, il n'y a pas d'implémentation logicielle, ce qui est tout à fait naturel, on pourrait même dire « prédéterminé » par les caractéristiques des méthodes de reconnaissance elles-mêmes. Cela peut être jugé par le fait que de tels systèmes sont rarement mentionnés dans la littérature spécialisée et d'autres sources d'information.

Par conséquent, la question de l'applicabilité pratique de certaines méthodes théoriques de reconnaissance pour résoudre des problèmes pratiques avec des dimensions de données réelles (c'est-à-dire assez importantes) et sur de vrais ordinateurs modernes reste insuffisamment développée.

La circonstance mentionnée ci-dessus peut être comprise si l'on rappelle que la complexité du modèle mathématique augmente de façon exponentielle la complexité de la mise en œuvre logicielle du système et réduit dans la même mesure les chances que ce système fonctionne dans la pratique. Cela signifie qu'en réalité, seuls des systèmes logiciels basés sur des modèles mathématiques assez simples et « transparents » peuvent être mis en œuvre sur le marché. Par conséquent, un développeur intéressé par la réplication de son produit logiciel n'aborde pas la question du choix d'un modèle mathématique avec une approche purement mathématique. point scientifique vision, mais en tant que pragmatique, en tenant compte des possibilités de mise en œuvre logicielle. Il estime que le modèle doit être aussi simple que possible, ce qui signifie qu'il doit être mis en œuvre à moindre coût et avec une meilleure qualité, et qu'il doit également fonctionner (être pratiquement efficace).

A cet égard, la tâche de mettre en œuvre dans les systèmes de reconnaissance un mécanisme de généralisation des descriptions d'objets appartenant à une même classe semble particulièrement pertinente, c'est-à-dire mécanisme de formation d'images généralisées compactes. Evidemment, un tel mécanisme de généralisation permettra de « compresser » un échantillon d'apprentissage de n'importe quelle dimension vers une base d'images généralisées connues à l'avance par dimension. Cela permettra également de poser et de résoudre un certain nombre de problèmes qui ne peuvent même pas être formulés dans des méthodes de reconnaissance telles que la méthode de comparaison avec un prototype, la méthode des k-plus proches voisins et ABO.

Voici les tâches :

  • déterminer la contribution informationnelle de caractéristiques au portrait informationnel d'une image généralisée ;
  • analyse constructive en cluster d'images généralisées ;
  • détermination de la charge sémantique d'une fonctionnalité ;
  • analyse sémantique constructive des clusters des fonctionnalités ;
  • comparaison significative d'images généralisées de classes entre elles et de caractéristiques entre elles (diagrammes cognitifs, y compris les diagrammes de Merlin).

La méthode qui a permis d'aboutir à la solution de ces problèmes distingue également le système prometteur qui en découle des autres systèmes, tout comme les compilateurs diffèrent des interprètes, puisque grâce à la formation d'images généralisées dans ce système prometteur, l'indépendance du temps de reconnaissance de la taille de l’échantillon de formation est atteinte. On sait que c'est l'existence de cette dépendance qui conduit à des coûts de temps informatique pratiquement inacceptables pour la reconnaissance dans des méthodes telles que la méthode des k-voisins les plus proches, ABO et KRP à de telles dimensions de l'échantillon d'apprentissage quand on peut parler de statistiques suffisantes. .

Pour conclure un bref aperçu des méthodes de reconnaissance, présentons l'essence de ce qui précède dans un tableau récapitulatif (tableau 3.1), contenant une brève description des différentes méthodes de reconnaissance de formes selon les paramètres suivants :

  • classification des méthodes de reconnaissance;
  • domaines d'application des méthodes de reconnaissance ;
  • classification des limites des méthodes de reconnaissance.
Classification des méthodes de reconnaissance Champ d'application Limites (inconvénients)
Méthodes de reconnaissance intensives Méthodes basées sur des estimations des densités de distribution des valeurs de caractéristiques (ou des similitudes et des différences d'objets) Les problèmes avec une distribution connue, généralement normale, nécessitent une large collection de statistiques La nécessité d'énumérer l'intégralité de l'échantillon d'apprentissage lors de la reconnaissance, une sensibilité élevée à la non-représentativité de l'échantillon d'apprentissage et des artefacts
Méthodes basées sur des hypothèses sur la classe des fonctions de décision Les classes doivent être bien séparables, le système de traits doit être orthonormé Le type de fonction de décision doit être connu à l’avance. Incapacité à prendre en compte les nouvelles connaissances sur les corrélations entre les traits
Méthodes booléennes Lors de la sélection de règles de décision logique (conjonctions), une recherche complète est requise. Complexité informatique élevée
Méthodes linguistiques (structurelles) Problèmes de petite dimension de l'espace des fonctionnalités La tâche de reconstruire (définir) la grammaire à partir d'un certain ensemble d'énoncés (descriptions d'objets) est difficile à formaliser. Non résolu problèmes théoriques
Méthodes de reconnaissance extensionnelle Méthode de comparaison avec un prototype Problèmes de petite dimension de l'espace des fonctionnalités Forte dépendance des résultats de classification à la mesure de distance (métrique). Métrique optimale inconnue
méthode des k voisins les plus proches Forte dépendance des résultats de classification à la mesure de distance (métrique). La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Effort de calcul
Algorithmes de calcul des notes (vote) d'AVO Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités Dépendance des résultats de classification sur la mesure de distance (métrique). La nécessité d'une énumération complète de l'échantillon de formation lors de la reconnaissance. Haute complexité technique de la méthode
Collectifs de règles de décision (DRC) Problèmes de petite dimension en termes de nombre de classes et de fonctionnalités Très grande complexité technique de la méthode, nombre de problèmes théoriques non résolus, tant dans la détermination des domaines de compétence des méthodes privées que dans les méthodes privées elles-mêmes

Tableau 3.1 — Tableau récapitulatif de classification des méthodes de reconnaissance, comparaison de leurs domaines d'application et limites

Le rôle et la place de la reconnaissance de formes dans l'automatisation du contrôle des systèmes complexes

Un système de contrôle automatisé se compose de deux parties principales : un objet de contrôle et un système de contrôle.

Le système de contrôle remplit les fonctions suivantes :

  • identification de l'état de l'objet de contrôle ;
  • développement d'actions de contrôle basées sur des objectifs de gestion, en tenant compte de l'état de l'objet de contrôle et de l'environnement ;
  • fournir une influence de contrôle sur l'objet de contrôle.

La reconnaissance de formes n'est rien d'autre que l'identification de l'état d'un objet.

Par conséquent, la possibilité d'utiliser un système de reconnaissance de formes au stade de l'identification de l'état d'un objet de contrôle semble tout à fait évidente et naturelle. Toutefois, cela n’est peut-être pas nécessaire. Par conséquent, la question se pose dans quels cas il est conseillé d'utiliser un système de reconnaissance dans un système de contrôle automatisé, et dans lesquels ce n'est pas le cas.

Selon la littérature, de nombreux systèmes de contrôle automatisés précédemment développés et modernes dans les sous-systèmes d'identification de l'état de l'objet de contrôle et de développement d'actions de contrôle utilisent des modèles mathématiques déterministes de « calcul direct », qui déterminent sans ambiguïté et tout simplement quoi faire avec le contrôle. objet s’il a certains paramètres externes.

Dans le même temps, la question de savoir comment ces paramètres sont liés à certains états de l'objet de contrôle n'est ni soulevée ni résolue. Cette position correspond au point de vue selon lequel « par défaut » leur relation biunivoque est acceptée. Par conséquent, les termes « paramètres de l'objet de contrôle » et « état de l'objet de contrôle » sont considérés comme des synonymes, et le concept « d'état de l'objet de contrôle » n'est pas du tout explicitement introduit. Cependant, il est évident que dans le cas général la relation entre les paramètres observables de l'objet de contrôle et son état est dynamique et caractère probabiliste.

Ainsi, les systèmes de contrôle automatisés traditionnels sont essentiellement des systèmes de contrôle paramétriques, c'est-à-dire des systèmes qui gèrent non pas les états de l'objet de contrôle, mais uniquement ses paramètres observables. La décision sur l'action de contrôle est prise dans de tels systèmes comme si elle était « aveuglément », c'est-à-dire sans former une image holistique de l'objet de contrôle et de l'environnement dans leur état actuel, ainsi que sans prédire l'évolution de l'environnement et la réaction de l'objet de contrôle à certaines influences de contrôle sur lui, agissant simultanément avec l'influence prédite de l'environnement .

Du point de vue développé dans ce travail, le terme « prise de décision » au sens moderne est difficilement applicable aux systèmes de contrôle automatisés traditionnels. Le fait est que la « prise de décision » présuppose au minimum une vision holistique d'un objet dans l'environnement, non seulement dans son état actuel, mais aussi dans sa dynamique, et en interaction à la fois entre eux et avec le système de contrôle, implique examen de diverses options alternatives pour le développement de l'ensemble de ce système, ainsi que réduction de la diversité (réduction) de ces alternatives en fonction de certains critères cibles. Évidemment, rien de tout cela ne se retrouve dans les systèmes de contrôle automatisés traditionnels, ou existe, mais sous une forme simplifiée.

Certainement, méthode traditionnelle est adéquat et son utilisation est tout à fait correcte et justifiée dans les cas où l'objet de contrôle est réellement stable et rigide système déterministe, et l'influence de l'environnement sur celui-ci peut être négligée.

Cependant, dans d’autres cas, cette méthode s’avère inefficace.

Si l'objet de contrôle est dynamique, alors les modèles qui sous-tendent les algorithmes de contrôle deviennent rapidement inadéquats, car les relations entre les paramètres d'entrée et de sortie, ainsi que l'ensemble des paramètres essentiels lui-même, changent. Essentiellement, cela signifie que les systèmes de contrôle automatisés traditionnels sont capables de contrôler l'état de l'objet de contrôle uniquement à proximité du point d'équilibre grâce à de faibles actions de contrôle sur celui-ci, c'est-à-dire par la méthode des petites perturbations. Loin de l'état d'équilibre, du point de vue traditionnel, le comportement de l'objet de contrôle apparaît imprévisible et incontrôlable.

S'il n'y a pas de connexion univoque entre les paramètres d'entrée et de sortie de l'objet de contrôle (c'est-à-dire entre les paramètres d'entrée et l'état de l'objet), en d'autres termes, si cette connexion a un caractère probabiliste prononcé, alors les modèles déterministes dans lesquels elle est supposés que le résultat de la mesure d’un certain paramètre est simplement un nombre ne sont pas applicables au départ. De plus, le type de cette connexion peut simplement être inconnu, et il faut alors partir de l'hypothèse la plus générale : qu'elle soit probabiliste ou non définie du tout.

Un système de contrôle automatisé construit sur des principes traditionnels ne peut fonctionner que sur la base de paramètres dont les modèles de connexions sont déjà connus, étudiés et reflétés dans un modèle mathématique. Dans cette étude, la tâche est de développer de telles méthodes de conception automatisée. des systèmes de contrôle qui permettront de créer des systèmes capables d'identifier les paramètres les plus significatifs, et de déterminer la nature des connexions entre eux et les états de l'objet de contrôle.

Dans ce cas, il est nécessaire d'utiliser des situation réelle méthodes de mesure :

  • classification ou reconnaissance d'images (apprentissage basé sur un ensemble d'apprentissage, adaptabilité des algorithmes de reconnaissance, adaptabilité des ensembles de classes et de paramètres étudiés, sélection des paramètres les plus significatifs et réduction de la dimension de description tout en conservant une redondance donnée, etc.) ;
  • mesures statistiques, lorsque le résultat de la mesure d'un certain paramètre n'est pas un nombre distinct, mais une distribution de probabilité : un changement dans une variable statistique ne signifie pas un changement de sa valeur en elle-même, mais un changement dans les caractéristiques de la distribution de probabilité de ses valeurs.

En conséquence, les systèmes de contrôle automatisés basés sur l'approche déterministe traditionnelle ne fonctionnent pratiquement pas avec des objets de contrôle dynamiques multi-paramètres complexes faiblement déterministes, comme, par exemple, les systèmes macro et micro-socio-économiques dans une économie dynamique du « période de transition », élite hiérarchique et groupes ethniques, société et électorat, physiologie et psyché humaines, nature et écosystèmes artificiels et plein d'autres.

Il est très significatif qu'au milieu des années 80, l'école d'I. Prigogine ait développé une approche selon laquelle le développement de tout système (y compris les humains) alterne des périodes pendant lesquelles le système se comporte soit comme « majoritairement déterministe », soit comme « majoritairement aléatoire ». Naturellement, système réel la direction doit gérer régulièrement l'objet de contrôle non seulement dans les sections « déterministes » de son histoire, mais aussi aux moments où son comportement ultérieur devient très incertain. Cela signifie à lui seul qu’il est nécessaire de développer des approches pour contrôler les systèmes dont le comportement contient une part importante d’aléatoire (ou ce qui est actuellement décrit mathématiquement comme « aléatoire »).

Par conséquent, les systèmes de contrôle automatisés prometteurs qui assurent le contrôle de systèmes multiparamétriques dynamiques complexes faiblement déterministes incluront apparemment, comme liens fonctionnels essentiels, des sous-systèmes d'identification et de prédiction des états de l'environnement et de l'objet de contrôle, basés sur des méthodes d'intelligence artificielle (principalement des modèles reconnaissance), méthodes d'aide à la décision et théorie de l'information.

Considérons brièvement la question de l'utilisation des systèmes de reconnaissance d'images pour prendre des décisions concernant les actions de contrôle (cette question sera abordée plus en détail plus tard, car elle est essentielle pour ce travail). Si nous prenons les états cibles et autres de l'objet de contrôle comme classes de reconnaissance, et les facteurs qui l'influencent comme caractéristiques, alors une mesure de la relation entre les facteurs et les états peut être formée dans le modèle de reconnaissance de formes. Cela permet, pour un état donné d'un objet de contrôle, d'obtenir des informations sur les facteurs qui favorisent ou entravent son passage vers cet état, et, sur cette base, d'élaborer une décision sur l'action de contrôle.

Les facteurs peuvent être divisés dans les groupes suivants :

  • caractériser l'arrière-plan de l'objet de contrôle ;
  • caractériser l'état actuel de l'objet de contrôle ;
  • facteurs environnementaux;
  • facteurs technologiques (contrôlables).

Ainsi, les systèmes de reconnaissance de formes peuvent être utilisés dans le cadre de systèmes de contrôle automatisés : dans des sous-systèmes permettant d'identifier l'état d'un objet de contrôle et de développer des actions de contrôle.

Ceci est approprié lorsque l’objet de contrôle est un système complexe.

Prendre une décision sur l'action de contrôle dans le système de contrôle automatisé

La solution au problème de la synthèse de systèmes de contrôle automatisés adaptatifs par des systèmes complexes est envisagée dans ce travail, en tenant compte des analogies nombreuses et profondes entre les méthodes de reconnaissance de formes et de prise de décision.

D'une part, le problème de la reconnaissance de formes consiste à décider si l'objet reconnu appartient à une certaine classe de reconnaissance.

D’autre part, les auteurs proposent de considérer le problème de la prise de décision comme problème inverse tâche de décodage ou de reconnaissance de formes inverses (voir section 2.2.2).

Le point commun des idées fondamentales qui sous-tendent les méthodes de reconnaissance de formes et de prise de décision devient particulièrement évident lorsqu’on les considère du point de vue de la théorie de l’information.

Variété de problèmes de prise de décision

La prise de décision comme réalisation d’un objectif

Définition : la prise de décision (« choix ») est une action sur un ensemble d'alternatives, à la suite de laquelle l'ensemble initial d'alternatives est restreint, c'est-à-dire sa réduction se produit.

Le choix est l'action qui donne un but à toutes les activités. C'est par des actes de choix que se réalise la subordination de toutes les activités à un objectif spécifique ou à un ensemble d'objectifs interdépendants.

Ainsi, pour que l’acte de choix devienne possible, il faut :

  • génération ou découverte d'un ensemble d'alternatives sur lesquelles un choix doit être fait ;
  • détermination des objectifs pour lesquels le choix est fait ;
  • développement et application d'une méthode de comparaison des alternatives entre elles, c'est-à-dire déterminer la cote de préférence pour chaque alternative en fonction certain critère, vous permettant d'évaluer indirectement comment chaque alternative correspond à l'objectif.

Les travaux modernes dans le domaine de l'aide à la décision ont révélé une situation caractéristique, à savoir qu'une formalisation complète de la recherche de la meilleure (dans un certain sens) solution n'est possible que pour des problèmes bien étudiés et relativement simples, alors qu'en pratique, des problèmes faiblement structurés sont plus souvent rencontrés, pour lesquels aucun algorithme formalisé n'a été développé (sauf recherche exhaustive et essais et erreurs). Cependant, les professionnels expérimentés, compétents et compétents font souvent des choix qui s’avèrent plutôt judicieux. C'est pourquoi tendance moderne la pratique de prise de décision dans des situations naturelles consiste à combiner la capacité d’une personne à résoudre des problèmes informels avec des opportunités méthodes formelles et modélisation informatique : systèmes interactifs d'aide à la décision, systèmes experts, systèmes de contrôle automatisés adaptatifs homme-machine, réseaux neuronaux et systèmes cognitifs.

La prise de décision comme suppression de l’incertitude (approche informationnelle)

Le processus d'obtention d'informations peut être considéré comme une réduction de l'incertitude résultant de la réception d'un signal, et la quantité d'informations peut être considérée comme une mesure quantitative du degré de suppression de l'incertitude.

Mais suite au choix d’un certain sous-ensemble d’alternatives dans l’ensemble, c’est-à-dire à la suite de la prise de décision, la même chose se produit (réduction de l'incertitude). Cela signifie que chaque choix, chaque décision génère une certaine quantité d’informations et peut donc être décrit en termes de théorie de l’information.

Classification des problèmes de prise de décision

La multiplicité des tâches de prise de décision est due au fait que chaque composante de la situation dans laquelle les décisions sont prises peut être mise en œuvre selon des options qualitativement différentes.

Listons quelques-unes de ces options :

  • l'ensemble des alternatives, d'une part, peut être fini, dénombrable ou continu, et d'autre part, fermé (c'est-à-dire complètement connu) ou ouvert (incluant des éléments inconnus) ;
  • l'évaluation des alternatives peut être effectuée selon un ou plusieurs critères, qui, à leur tour, peuvent être de nature quantitative ou qualitative ;
  • le mode de sélection peut être unique (unique) ou multiple, répétitif, incluant un retour sur les résultats du choix, c'est-à-dire permettre d’entraîner les algorithmes de prise de décision en tenant compte des conséquences des élections précédentes ;
  • les conséquences du choix de chaque alternative peuvent être connues avec précision à l'avance (choix sous certitude), avoir un caractère probabiliste lorsque les probabilités des résultats possibles après le choix sont connues (choix sous risque) ou avoir résultat ambigu avec des probabilités inconnues (choix dans des conditions d'incertitude) ;
  • la responsabilité du choix peut être absente, individuelle ou collective ;
  • le degré de cohérence des objectifs dans le choix du groupe peut varier d'une coïncidence complète des intérêts des parties (choix coopératif) à leur contraire (choix de situation de conflit). Des options intermédiaires sont également possibles : compromis, coalition, conflit croissant ou s'estompant.

Diverses combinaisons de ces options conduisent à de nombreux problèmes de prise de décision qui ont été étudiés à des degrés divers.

Langages pour décrire les méthodes de prise de décision

Un seul et même phénomène peut être discuté dans diverses langues divers degrés de généralité et d’adéquation. À ce jour, trois langages principaux ont émergé pour décrire le choix.

Le langage à critères est le plus simple, le plus développé et le plus populaire.

Langue des critères

Le nom de ce langage est associé à l'hypothèse de base selon laquelle chaque alternative individuelle peut être évaluée par un (un) nombre spécifique, après quoi la comparaison des alternatives est réduite à une comparaison des nombres correspondants.

Soit, par exemple, (X) un ensemble d'alternatives, et x une alternative spécifique appartenant à cet ensemble : x∈X. On pense alors que pour tout x, une fonction q(x) peut être spécifiée, appelée critère (critère de qualité, fonction objectif, fonction de préférence, fonction d'utilité, etc.), qui a la propriété que si l'alternative x 1 est préférable à x 2 (noté : x 1 > x 2), puis q(x 1) > q(x 2).

Dans ce cas, le choix revient à trouver une alternative ayant la valeur la plus élevée de la fonction critère.

Cependant, en pratique, utiliser un seul critère pour comparer le degré de préférence des alternatives s'avère être une simplification injustifiée, car plus examen détaillé les alternatives conduisent à la nécessité de les évaluer non pas selon un seul, mais selon de nombreux critères, qui peuvent être de nature différente et qualitativement différents les uns des autres.

Par exemple, lors du choix du type d'avion le plus acceptable pour les passagers et l'organisme exploitant sur certains types de liaisons, des comparaisons sont faites simultanément selon de nombreux groupes de critères : techniques, technologiques, économiques, sociaux, ergonomiques, etc.

Les problèmes multicritères n’ont pas de solution générale unique. Par conséquent, de nombreuses façons sont proposées pour résoudre un problème multicritère vue privée, autorisant un seul décision commune. Naturellement, ces solutions sont généralement différentes selon les méthodes. Par conséquent, la chose la plus importante pour résoudre un problème multicritère est peut-être la justification de ce type de formulation.

Diverses options sont utilisées pour simplifier le problème de sélection multicritère. Citons-en quelques-uns.

  1. Maximisation conditionnelle (on ne trouve pas l'extremum global du critère intégral, mais extrême local critère principal).
  2. Recherchez une alternative avec les propriétés spécifiées.
  3. Trouver l'ensemble de Pareto.
  4. Réduire un problème multicritère à un problème monocritère en introduisant un critère intégral.

Considérons plus en détail la formulation formelle de la méthode permettant de réduire un problème multicritère à un problème monocritère.

Introduisons le critère intégral q 0 (x) comme fonction scalaire de l'argument vectoriel :

q 0 (x) = q 0 ((q 1 (x), q 2 (x), ..., q n (x)).

Le critère intégral permet d'ordonner les alternatives selon la valeur de q 0, mettant ainsi en évidence les meilleures (au sens de ce critère). La forme de la fonction q 0 est déterminée par la manière dont nous imaginons spécifiquement la contribution de chaque critère au critère intégral. Les fonctions additives et multiplicatives sont généralement utilisées :

q 0 = ∑a je ⋅q je /s je

1 - q 0 = ∏(1 - b je ⋅q je /s je)

Coefficients que je fournis :

  1. Absence de dimension ou dimension unique du nombre a i ⋅q i /s i (divers critères particuliers peuvent avoir des tailles différentes, et il est alors impossible d'effectuer des opérations arithmétiques sur eux et de les réduire à un critère intégral).
  2. Normalisation, c'est-à-dire assurant la condition : b i ⋅q i /s i<1.

Les coefficients a i et b i reflètent la contribution relative des critères partiels q i au critère intégral.

Ainsi, dans une formulation multicritère, le problème de la prise de décision sur le choix de l'une des alternatives se résume à maximiser le critère intégral :

x * = arg max(q 0 (q 1 (x), q 2 (x), ..., q n (x)))

Le principal problème de la formulation multicritère du problème de prise de décision est qu'il est nécessaire de trouver une telle forme analytique des coefficients a i et b i qui fournirait les propriétés suivantes du modèle :

  • un degré élevé d'adéquation au domaine et au point de vue des experts ;
  • difficultés de calcul minimes pour maximiser le critère intégral, c'est-à-dire son calcul pour différentes alternatives ;
  • stabilité des résultats de maximisation du critère intégral à partir de petites perturbations des données initiales.
  • La stabilité de la solution signifie qu'un petit changement dans les données initiales devrait conduire à un petit changement dans la valeur du critère intégral et, par conséquent, à un petit changement dans la décision prise. Ainsi, si les données initiales sont pratiquement les mêmes, alors la décision doit être prise soit de la même manière, soit très proche.

Langage à choix binaire séquentiel

Le langage des relations binaires est une généralisation d'un langage multicritère et repose sur la prise en compte du fait que lorsque l'on évalue une alternative, cette évaluation est toujours relative, c'est-à-dire explicitement ou plus souvent implicitement, d'autres alternatives issues de l'ensemble étudié ou de la population générale sont utilisées comme base ou cadre de référence pour la comparaison. La pensée humaine est basée sur la recherche et l'analyse des contraires (constructions), il nous est donc toujours plus facile de choisir l'une des deux options opposées qu'une option parmi un ensemble vaste et nullement ordonné.

Ainsi, les hypothèses de base de ce langage sont les suivantes :

  • une alternative distincte n'est pas évaluée, c'est-à-dire la fonction critère n'est pas introduite ;
  • pour chaque paire d'alternatives, on peut établir en quelque sorte que l'une d'elles est préférable à l'autre, ou qu'elles sont équivalentes ou incomparables ;
  • la relation de préférence dans n'importe quelle paire d'alternatives ne dépend pas des alternatives restantes présentées au choix.

Il existe différentes manières de spécifier des relations binaires : directe, matricielle, à l'aide de graphes de préférences, de la méthode des sections, etc.

Les relations entre les alternatives d'une même paire s'expriment à travers les concepts d'équivalence, d'ordre et de dominance.

Langage de fonction de sélection généralisée

Le langage des fonctions de choix est basé sur la théorie des ensembles et vous permet d'opérer avec des mappages d'ensembles vers leurs sous-ensembles correspondant à différents choix sans avoir à énumérer les éléments. Ce langage est très général et a le potentiel de décrire n’importe quel choix. Cependant, l'appareil mathématique des fonctions de sélection généralisées n'est actuellement développé et testé que sur des problèmes déjà résolus à l'aide d'approches critériées ou binaires.

Sélection de groupe

Qu'il y ait un groupe de personnes qui ont le droit de participer à la prise de décision collective. Supposons que ce groupe envisage un certain ensemble d'alternatives et que chaque membre du groupe fasse son propre choix. La tâche est de développer une solution qui, d’une certaine manière, coordonne les choix individuels et exprime d’une certaine manière « l’opinion générale » du groupe, c’est-à-dire accepté comme choix de groupe.

Naturellement, différents principes de coordination des décisions individuelles correspondront à différentes décisions de groupe.

Les règles de coordination des décisions individuelles lors du choix du groupe sont appelées règles de vote. La plus courante est la « règle de la majorité », dans laquelle l’alternative ayant obtenu le plus de voix est acceptée comme décision de groupe.

Il faut comprendre qu'une telle décision reflète uniquement la prédominance de différents points de vue au sein du groupe, et non l'option véritablement optimale, pour laquelle personne ne peut voter du tout. "La vérité ne se détermine pas par le vote."

En outre, il existe ce que l’on appelle les « paradoxes du vote », dont le plus célèbre est le paradoxe d’Arrow.

Ces paradoxes peuvent conduire, et conduisent parfois, à des caractéristiques très désagréables de la procédure de vote : par exemple, il y a des cas où le groupe ne peut pas prendre une seule décision (il n'y a pas de quorum ou chacun vote pour sa propre option, etc. .), et parfois (avec le vote en plusieurs étapes), la minorité peut imposer sa volonté à la majorité.

Choix dans des conditions d’incertitude

La certitude est un cas particulier d'incertitude, à savoir : c'est une incertitude proche de zéro.

Dans la théorie moderne du choix, on pense qu’il existe trois principaux types d’incertitude dans les problèmes de prise de décision :

  1. Incertitude informationnelle (statistique) des données initiales pour la prise de décision.
  2. Incertitude des conséquences de la prise de décision (choix).
  3. Vague dans la description des composantes du processus décisionnel.

Regardons-les dans l'ordre.

Incertitude de l'information (statistique) dans les données sources

Les données obtenues sur le domaine ne peuvent pas être considérées comme absolument exactes. De plus, évidemment, ces données ne nous intéressent pas en elles-mêmes, mais uniquement en tant que signaux pouvant véhiculer certaines informations sur ce qui nous intéresse réellement. Il est donc plus réaliste de considérer que nous avons affaire à des données non seulement bruitées et inexactes, mais aussi indirectes, voire incomplètes. De plus, ces données ne concernent pas l'ensemble de la population étudiée, mais seulement un certain sous-ensemble de celle-ci, sur lequel nous avons effectivement pu collecter des données, mais en même temps nous voulons tirer des conclusions sur l'ensemble de la population, et nous aussi veulent connaître le degré de fiabilité de ces conclusions.

Dans ces conditions, la théorie des décisions statistiques est utilisée.

Il existe deux principales sources d’incertitude dans cette théorie. Premièrement, on ne sait pas quelle distribution suivent les données originales. Deuxièmement, on ne sait pas quelle est la distribution de l'ensemble (population générale) sur lequel nous voulons tirer des conclusions à partir de son sous-ensemble qui constitue les données initiales.

Les procédures statistiques sont des procédures de prise de décision qui suppriment ces deux types d’incertitude.

Il convient de noter qu'il existe un certain nombre de raisons qui conduisent à une mauvaise application des méthodes statistiques :

  • Les conclusions statistiques, comme toutes les autres, ont toujours une certaine fiabilité ou validité. Mais contrairement à de nombreux autres cas, la fiabilité des conclusions statistiques est connue et déterminée au cours de l’étude statistique ;
  • la qualité de la solution obtenue grâce à l'application d'une procédure statistique dépend de la qualité des données sources ;
  • les données qui n'ont pas de caractère statistique ne doivent pas faire l'objet d'un traitement statistique ;
  • il convient d'utiliser des procédures statistiques adaptées au niveau d'information a priori sur la population étudiée (par exemple, les méthodes ANOVA ne doivent pas être appliquées à des données non gaussiennes). Si la distribution des données initiales est inconnue, il faut alors soit l'établir, soit utiliser plusieurs méthodes différentes et comparer les résultats. S'ils sont très différents, cela indique l'inapplicabilité de certaines des procédures utilisées.

Incertitude des conséquences

Lorsque les conséquences du choix de l'une ou l'autre alternative sont déterminées sans ambiguïté par l'alternative elle-même, alors nous ne pouvons pas faire la distinction entre l'alternative et ses conséquences, tenant pour acquis qu'en choisissant une alternative, nous choisissons en réalité ses conséquences.

Cependant, dans la pratique réelle, on est souvent confronté à une situation plus complexe, lorsque le choix de l'une ou l'autre alternative détermine de manière ambiguë les conséquences du choix effectué.

Dans le cas d’un ensemble discret d’alternatives et des résultats de leur choix, à condition que l’ensemble des résultats possibles lui-même soit commun à toutes les alternatives, nous pouvons supposer que les différentes alternatives diffèrent les unes des autres dans la distribution de probabilité des résultats. Dans le cas général, ces distributions de probabilité peuvent dépendre des résultats du choix des alternatives et des résultats réels qui en ont résulté. Dans le cas le plus simple, les résultats sont également probables. Les résultats eux-mêmes ont généralement la signification de gains ou de pertes et sont exprimés quantitativement.

Si les résultats sont égaux pour toutes les alternatives, alors il n’y a pas de choix. S'ils sont différents, vous pouvez alors comparer les alternatives en introduisant certaines estimations quantitatives pour elles. La variété des problèmes de la théorie des jeux est associée à différents choix de caractéristiques numériques des pertes et des gains résultant du choix d'alternatives, à différents degrés de conflit entre les parties choisissant des alternatives, etc.

Considérez ce type d'incertitude comme une vague incertitude

Toute tâche de choix est une tâche de réduction ciblée d'un ensemble d'alternatives. Tant la description formelle des alternatives (leur liste elle-même, la liste de leurs caractéristiques ou paramètres) que la description des règles de comparaison (critères, relations) sont toujours données en fonction de l'une ou l'autre échelle de mesure (même lorsque celle-ci qui fait cela n'est pas au courant).

On sait que toutes les échelles sont floues, mais à des degrés divers. Le terme « flou » fait référence à la propriété des échelles, qui consiste dans le fait qu'il est toujours possible de présenter deux alternatives distinctes, à savoir : différent à la même échelle et indiscernable, c'est-à-dire identique, dans l'autre - plus flou. Moins il y a de gradations dans une certaine échelle, plus elle est floue.

Ainsi, nous pouvons voir clairement les alternatives et en même temps les classer vaguement, c'est-à-dire ont une incertitude quant à la classe à laquelle ils appartiennent.

Déjà dans leurs premiers travaux sur la prise de décision dans des situations vagues, Bellman et Zadeh ont avancé l'idée que les objectifs et les contraintes devraient être représentés comme des ensembles flous sur l'ensemble des alternatives.

À propos de certaines limites de l'approche d'optimisation

Dans tous les problèmes de sélection et méthodes de prise de décision évoqués ci-dessus, le problème était de trouver les meilleurs dans l’ensemble initial dans des conditions données, c’est-à-dire : des alternatives qui sont optimales dans un certain sens.

L'idée d'optimalité est l'idée centrale de la cybernétique et s'est solidement ancrée dans la pratique de la conception et de l'exploitation de systèmes techniques. En même temps, cette idée requiert une attitude prudente lorsque l’on tente de la transférer au domaine de la gestion de systèmes complexes, vastes et faiblement déterminés, comme par exemple les systèmes socio-économiques.

Il y a de très bonnes raisons pour cette conclusion. Examinons-en quelques-uns :

  1. La solution optimale s'avère souvent instable, c'est-à-dire des changements mineurs dans les conditions du problème, les entrées ou les contraintes peuvent conduire à la sélection d'alternatives significativement différentes.
  2. Les modèles d'optimisation ne sont développés que pour des classes étroites de problèmes assez simples, qui ne reflètent pas toujours de manière adéquate et systématique les objets de contrôle réels. Le plus souvent, les méthodes d'optimisation ne permettent d'optimiser que des sous-systèmes assez simples et bien décrits formellement de certains systèmes vastes et complexes, c'est-à-dire permettre uniquement une optimisation locale. Cependant, si chaque sous-système d'un grand système fonctionne de manière optimale, cela ne signifie pas du tout que le système dans son ensemble fonctionnera de manière optimale. Par conséquent, l’optimisation d’un sous-système ne conduit pas nécessairement au comportement qui lui est demandé lors de l’optimisation du système dans son ensemble. De plus, l’optimisation locale peut parfois avoir des conséquences négatives sur le système dans son ensemble. Par conséquent, lors de l'optimisation des sous-systèmes et du système dans son ensemble, il est nécessaire de déterminer un arbre d'objectifs et de sous-objectifs ainsi que leur priorité.
  3. Souvent, maximiser un critère d'optimisation selon un modèle mathématique est considéré comme l'objectif de l'optimisation, mais en réalité, l'objectif est d'optimiser l'objet de contrôle. Les critères d'optimisation et les modèles mathématiques ne sont toujours liés à l'objectif qu'indirectement, c'est-à-dire plus ou moins adéquatement, mais toujours approximativement.

Ainsi, l'idée d'optimalité, qui est extrêmement féconde pour les systèmes pouvant être correctement formalisés mathématiquement, doit être transférée avec prudence aux systèmes complexes. Bien entendu, les modèles mathématiques qui peuvent parfois être proposés pour de tels systèmes peuvent être optimisés. Cependant, il faut toujours tenir compte de la forte simplification de ces modèles, qui ne peut plus être négligée dans le cas de systèmes complexes, ainsi que du fait que le degré d'adéquation de ces modèles dans le cas de systèmes complexes est pratiquement inconnu. . Par conséquent, on ne sait pas quelle est la signification purement pratique de cette optimisation. Le caractère hautement pratique de l’optimisation des systèmes techniques ne doit pas donner lieu à l’illusion qu’elle sera tout aussi efficace lors de l’optimisation de systèmes complexes. La modélisation mathématique significative de systèmes complexes est très difficile, approximative et imprécise. Plus le système est complexe, plus vous devez être prudent quant à l'idée de l'optimiser.

Par conséquent, lors du développement de méthodes de contrôle de systèmes complexes, de grande taille et faiblement déterministes, les auteurs considèrent l'essentiel non seulement l'optimalité de l'approche choisie d'un point de vue mathématique formel, mais également son adéquation à l'objectif et à la nature même du objet de contrôle.

Méthodes de sélection des experts

Lors de l'étude de systèmes complexes, des problèmes surviennent souvent qui, pour diverses raisons, ne peuvent être strictement formulés et résolus à l'aide de l'appareil mathématique actuellement développé. Dans ces cas, ils recourent aux services d’experts (analystes système), dont l’expérience et l’intuition contribuent à réduire la complexité du problème.

Cependant, il faut tenir compte du fait que les experts eux-mêmes constituent des systèmes très complexes et que leurs activités dépendent également de nombreuses conditions externes et internes. Ainsi, dans les modalités d'organisation des expertises, une grande attention est accordée à la création de conditions externes et psychologiques favorables au travail des experts.

Le travail de l’expert est influencé par les facteurs suivants :

  • responsabilité de l'utilisation des résultats des examens ;
  • savoir que d'autres experts sont également impliqués ;
  • disponibilité des contacts d'information entre experts ;
  • relations interpersonnelles des experts (s'il existe un contact d'information entre eux) ;
  • l’intérêt personnel de l’expert pour les résultats de l’évaluation ;
  • qualités personnelles des experts (vanité, conformisme, volonté, etc.)

L’interaction entre experts peut à la fois stimuler et supprimer leurs activités. Ainsi, dans différents cas, diverses méthodes d'examen sont utilisées, différant par la nature de l'interaction des experts entre eux : enquêtes et questionnaires anonymes et ouverts, réunions, discussions, jeux d'entreprise, brainstorming, etc.

Il existe différentes méthodes de traitement mathématique des avis d'experts. Les experts sont invités à évaluer diverses alternatives en utilisant un ou un système d'indicateurs. De plus, il leur est demandé d'évaluer le degré d'importance de chaque indicateur (son « poids » ou sa « contribution »). Les experts eux-mêmes se voient également attribuer un niveau de compétence correspondant à la contribution de chacun d'eux à l'avis du groupe qui en résulte.

Une méthodologie développée pour travailler avec des experts est la méthode Delphi. L'idée principale de cette méthode est que la critique et l'argumentation ont un effet bénéfique sur l'expert si sa fierté n'est pas affectée et si des conditions sont prévues qui excluent la confrontation personnelle.

Il faut surtout souligner qu'il existe une différence fondamentale dans la nature de l'utilisation des méthodes expertes dans les systèmes experts et dans l'aide à la décision. Si dans le premier cas, les experts sont tenus de formaliser les méthodes de prise de décision, alors dans le second, uniquement la décision elle-même en tant que telle.

Étant donné que les experts sont impliqués dans la mise en œuvre précisément de ces fonctions qui ne sont actuellement pas du tout assurées par les systèmes automatisés, ou sont exécutées par eux moins bien que par les humains, une direction prometteuse pour le développement de systèmes automatisés est l'automatisation maximale de ces fonctions.

Systèmes automatisés d’aide à la décision

L'homme a toujours eu recours à des assistants pour prendre des décisions : il s'agissait simplement de fournisseurs d'informations sur l'objet de la gestion et de consultants (conseillers) qui proposaient des options de décision et analysaient leurs conséquences. Celui qui prend des décisions les a toujours prises dans un certain environnement informationnel : pour un chef militaire c'est l'état-major, pour le recteur c'est le conseil académique, pour le ministre c'est le collège.

De nos jours, l'infrastructure d'information pour la prise de décision est impensable sans systèmes automatisés d'évaluation interactive des décisions et surtout sans systèmes d'aide à la décision (DDS - Decision Support Systems), c'est-à-dire systèmes automatisés spécialement conçus pour préparer les informations dont une personne a besoin pour prendre une décision. Le développement de systèmes d'aide à la décision s'effectue notamment dans le cadre d'un projet international réalisé sous les auspices de l'Institut international d'analyse des systèmes appliqués de Laxenburg (Autriche).

Faire des choix dans des situations réelles nécessite un certain nombre d’opérations, dont certaines sont réalisées plus efficacement par des humains et d’autres par des machines. La combinaison efficace de leurs avantages tout en compensant leurs défauts s’incarne dans les systèmes automatisés d’aide à la décision.

Une personne prend des décisions mieux qu'une machine dans des conditions d'incertitude, mais pour prendre la bonne décision, elle a également besoin d'informations adéquates (complètes et fiables) caractérisant le domaine. Cependant, il est connu que les humains ne gèrent pas bien de grandes quantités d’informations « brutes » non traitées. Par conséquent, le rôle d'une machine dans l'aide à la décision peut être d'effectuer une préparation préliminaire des informations sur l'objet de contrôle et des facteurs incontrôlables (environnement), d'aider à visualiser les conséquences de la prise de certaines décisions, et également de présenter toutes ces informations sous une forme visuelle. et pratique pour le formulaire de prise de décision.

Ainsi, les systèmes automatisés d’aide à la décision compensent les faiblesses d’une personne, la libérant du traitement routinier des informations préliminaires et lui offrent un environnement d’information confortable dans lequel elle peut mieux démontrer ses forces. Ces systèmes ne visent pas à automatiser les fonctions du décideur (et, par conséquent, à lui éloigner ces fonctions, et donc la responsabilité des décisions prises, ce qui est souvent généralement inacceptable), mais à l'aider à trouver un bon solution.

Examen des méthodes de reconnaissance de formes existantes

L.P. Popova , ET À PROPOS. Datiev

La capacité de « reconnaître » est considérée comme la principale propriété des êtres humains, ainsi que des autres organismes vivants. La reconnaissance de formes est une branche de la cybernétique qui développe des principes et des méthodes de classification, ainsi que l'identification d'objets, de phénomènes, de processus, de signaux, de situations - tous ces objets qui peuvent être décrits par un ensemble fini de signes ou de propriétés qui caractérisent l'objet. .

Une image est une description d'un objet. Les images ont une propriété caractéristique, qui se manifeste dans le fait que la familiarisation avec un nombre fini de phénomènes d'un même ensemble permet de reconnaître un nombre arbitrairement grand de ses représentants.

Dans la théorie de la reconnaissance de formes, deux directions principales peuvent être distinguées :

    l'étude des capacités de reconnaissance que possèdent les êtres humains et d'autres organismes vivants ;

    développement de théories et de méthodes pour construire des dispositifs conçus pour résoudre des problèmes individuels de reconnaissance de formes dans certains domaines d'application.

En outre, l'article décrit les problèmes, principes et méthodes de mise en œuvre de systèmes de reconnaissance d'images associés au développement de la deuxième direction. La deuxième partie de l'article traite des méthodes de reconnaissance de formes par les réseaux neuronaux, qui peuvent être attribuées à la première direction de la théorie de la reconnaissance de formes.

Problèmes de construction de systèmes de reconnaissance d'images

Défis survenant pendant la construction systèmes automatiques La reconnaissance de formes peut généralement être classée en plusieurs domaines principaux. Le premier d'entre eux est lié à la présentation des données initiales obtenues comme résultats de mesure de l'objet à reconnaître. problème de sensibilité. Chaque valeur mesurée est une « caractéristique d'une image ou d'un objet ». Supposons, par exemple, que les images sont des symboles alphanumériques. Dans ce cas, une rétine de mesure, similaire à celle illustrée sur la figure 1 (a), peut être obtenue avec succès. utilisé dans le capteur. Si la rétine est constituée de n éléments, les résultats de mesure peuvent être représentés sous forme de vecteur de mesure ou de vecteur d'image. ,

où chaque élément xi, prend par exemple la valeur 1 si l'image d'un symbole traverse la i-ème cellule rétinienne, et la valeur 0 sinon.

Regardons la fig. 2(b). Dans ce cas, les images sont des fonctions continues (comme des signaux sonores) de la variable t. Si la mesure des valeurs de fonction est effectuée en des points discrets t1,t2, ..., tn, alors le vecteur image peut être formé en prenant x1= ​​f(t1),x2=f(t2),... , xn = f(tn).

Figure 1. Mesure de la rétine

Le deuxième problème de la reconnaissance de formes est associé à l'isolement des caractéristiques ou des propriétés des données sources obtenues et à la réduction de la dimension des vecteurs de formes. Ce problème est souvent défini comme un problème prétraitement et sélection des fonctionnalités.

Les caractéristiques d’une classe d’images sont des propriétés caractéristiques communes à toutes les images d’une classe donnée. Les caractéristiques qui caractérisent les différences entre les classes individuelles peuvent être interprétées comme des caractéristiques interclasses. Les caractéristiques intraclasses, communes à toutes les classes considérées, ne véhiculent pas d'informations utiles du point de vue de la reconnaissance et peuvent ne pas être prises en compte. La sélection des fonctionnalités est considérée comme l'une des tâches importantes associées à la construction de systèmes de reconnaissance. Si les résultats des mesures permettent d'obtenir un ensemble complet de traits distinctifs pour toutes les classes, la reconnaissance et la classification proprement dites des images ne poseront pas de difficultés particulières. La reconnaissance automatique sera alors réduite à un simple processus de mise en correspondance ou à des procédures telles que la numérisation de tables. Cependant, dans la plupart des problèmes pratiques de reconnaissance, déterminer l’ensemble des caractéristiques distinctives s’avère extrêmement difficile, voire impossible. Il est généralement possible d’extraire certaines caractéristiques discriminantes des données originales et de les utiliser pour simplifier le processus de reconnaissance automatique des formes. En particulier, la dimension des vecteurs de mesure peut être réduite à l'aide de transformations minimisant la perte d'informations.

Le troisième problème associé à la construction de systèmes de reconnaissance de formes est de trouver les procédures de décision optimales nécessaires à l'identification et à la classification. Une fois que les données collectées sur les images à reconnaître sont représentées par des points ou des vecteurs de mesure dans l'espace image, nous laissons la machine déterminer à quelle classe d'images correspondent ces données. Supposons que la machine soit conçue pour distinguer M classes, notées w1, w2, ... ..., wm. Dans ce cas, l’espace image peut être considéré comme constitué de M régions dont chacune contient des points correspondant à des images d’une classe. Dans ce cas, la tâche de reconnaissance peut être considérée comme la construction des limites des zones de décision séparant M classes sur la base des vecteurs de mesure enregistrés. Supposons que ces limites soient définies, par exemple, par les fonctions de décision d1(x), d2(x),..., dm(x). Ces fonctions, également appelées fonctions discriminantes, sont des fonctions scalaires et à valeur unique de l'image de x. Si di (x) > dj (x), alors l'image x appartient à la classe w1. Autrement dit, si i-ième décisif la fonction di(x) a la plus grande valeur, alors une illustration significative d'un tel schéma de classification automatique basé sur la mise en œuvre du processus de prise de décision est présentée sur la Fig. 2 (dans le schéma « GR » est le générateur de fonctions de décision).

Figure 2. Schéma de classification automatique.

Les fonctions décisives peuvent être obtenues de plusieurs manières. Dans les cas où il existe des informations a priori complètes sur les images reconnues, les fonctions de décision peuvent être déterminées exactement sur la base de ces informations. Si seules des informations qualitatives sont disponibles concernant les images, des hypothèses raisonnables peuvent être formulées sur la forme des fonctions décisives. Dans ce dernier cas, les limites des zones de solution peuvent s'écarter considérablement des vraies et il est donc nécessaire de créer un système capable d'obtenir un résultat satisfaisant grâce à une série d'ajustements successifs.

Les objets (images) à reconnaître et à classer à l'aide d'un système de reconnaissance automatique de formes doivent avoir un ensemble de caractéristiques mesurables. Lorsque pour tout un groupe d’images les résultats des mesures correspondantes s’avèrent similaires, ces objets sont considérés comme appartenant à la même classe. Le but du système de reconnaissance de formes est, sur la base de informations collectées déterminer une classe d'objets ayant des caractéristiques similaires à celles mesurées dans les objets reconnus. L'exactitude de la reconnaissance dépend de la quantité d'informations discriminantes contenues dans les caractéristiques mesurées et de l'efficacité de l'utilisation de ces informations.

      Méthodes de base pour la mise en œuvre de systèmes de reconnaissance de formes

La reconnaissance de formes fait référence au problème de la construction et de l'application d'opérations formelles sur des représentations numériques ou symboliques d'objets dans le monde réel ou idéal, dont les résultats reflètent les relations d'équivalence entre ces objets. Les relations d'équivalence expriment l'appartenance des objets évalués à des classes quelconques, considérées comme des unités sémantiques indépendantes.

Lors de la construction d'algorithmes de reconnaissance, des classes d'équivalence peuvent être spécifiées par un chercheur qui utilise ses propres idées significatives ou utilise des informations supplémentaires externes sur les similitudes et les différences d'objets dans le contexte du problème à résoudre. Ensuite, ils parlent de « reconnaissance auprès d’un professeur ». Sinon, c'est à dire Lorsqu’un système automatisé résout un problème de classification sans utiliser d’informations de formation externes, on parle de classification automatique ou de « reconnaissance non supervisée ». La plupart des algorithmes de reconnaissance de formes nécessitent l’utilisation d’une puissance de calcul très importante, qui ne peut être fournie que par une technologie informatique performante.

Divers auteurs (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V.I., J. Tu, R. Gonzalez, P. Winston, K. Fu, Ya.Z Tsypkin, etc.) donnent une typologie différente de méthodes de reconnaissance de formes. Certains auteurs distinguent les méthodes paramétriques, non paramétriques et heuristiques, d'autres identifient des groupes de méthodes basés sur des écoles et des tendances historiquement établies dans ce domaine.

Dans le même temps, les typologies connues ne prennent pas en compte une caractéristique très significative, qui reflète la spécificité de la manière de représenter les connaissances sur un domaine à l'aide de tout algorithme formel de reconnaissance de formes. D.A. Pospelov identifie deux manières principales de présenter les connaissances :

    Représentation intensionnelle - sous la forme d'un diagramme de connexions entre attributs (caractéristiques).

    Représentation extensionnelle - utilisant des faits spécifiques (objets, exemples).

Il convient de noter que l’existence précisément de ces deux groupes de méthodes de reconnaissance : celles opérant avec des signes et celles opérant avec des objets, est profondément naturelle. De ce point de vue, aucune de ces méthodes, prise séparément des autres, ne permet de former une réflexion adéquate sur le domaine. Entre ces méthodes il existe une relation de complémentarité au sens de N. Bohr, donc des systèmes de reconnaissance prometteurs devraient permettre la mise en œuvre de ces deux méthodes, et pas seulement de l'une d'entre elles.

Ainsi, la classification des méthodes de reconnaissance proposée par D.A. Pospelov est basée sur les modèles fondamentaux qui sous-tendent le mode de cognition humain en général, ce qui la place dans une position tout à fait particulière (privilégiée) par rapport à d'autres classifications qui, dans ce contexte, semblent plus légères et artificiel.

Méthodes intentionnelles

Une caractéristique distinctive des méthodes intentionnelles est qu'elles utilisent diverses caractéristiques des caractéristiques et de leurs connexions comme éléments d'opérations lors de la construction et de l'application d'algorithmes de reconnaissance de formes. Ces éléments peuvent être des valeurs individuelles ou des intervalles de valeurs de caractéristiques, des valeurs moyennes et des écarts, des matrices de relations de caractéristiques, etc., sur lesquelles des actions sont effectuées, exprimées sous forme analytique ou constructive. Dans le même temps, les objets de ces méthodes ne sont pas considérés comme des unités d'information intégrales, mais agissent comme des indicateurs pour évaluer l'interaction et le comportement de leurs attributs.

Le groupe de méthodes intentionnelles pour la reconnaissance de formes est vaste et sa division en sous-classes est dans une certaine mesure conditionnelle :

– méthodes basées sur des estimations des densités de distribution des valeurs des caractéristiques

– méthodes basées sur des hypothèses sur la classe des fonctions de décision

– méthodes logiques

– méthodes linguistiques (structurelles).

Méthodes basées sur des estimations des densités de distribution des valeurs des caractéristiques. Ces méthodes de reconnaissance de formes sont empruntées à la théorie classique des décisions statistiques, dans laquelle les objets d'étude sont considérés comme des réalisations d'une variable aléatoire multidimensionnelle distribuée dans l'espace des caractéristiques selon une certaine loi. Ils sont basés sur un schéma de prise de décision bayésien qui fait appel aux probabilités a priori d'objets appartenant à une classe reconnaissable particulière et aux densités de distribution conditionnelles des valeurs de vecteurs de caractéristiques. Ces méthodes se résument à déterminer le rapport de vraisemblance dans diverses zones de l’espace des fonctionnalités multidimensionnelles.

Un groupe de méthodes basées sur l'estimation des densités de distribution des valeurs des caractéristiques est directement liée aux méthodes d'analyse discriminante. L'approche bayésienne de la prise de décision est l'une des méthodes dites paramétriques les plus développées de la statistique moderne, pour laquelle l'expression analytique de la loi de distribution (dans ce cas, la loi normale) est considérée comme connue et seulement un petit nombre de paramètres ( vecteurs de valeurs moyennes et matrices de covariance) doivent être estimés.

Ce groupe comprend également la méthode de calcul du rapport de vraisemblance pour des caractéristiques indépendantes. Cette méthode, à l'exception de l'hypothèse d'indépendance des signes (qui en réalité n'est quasiment jamais satisfaite), ne présuppose pas la connaissance type fonctionnel droit de la distribution. Elle peut être classée comme méthode non paramétrique.

D'autres méthodes non paramétriques, utilisées lorsque la forme de la courbe de densité de distribution est inconnue et qu'aucune hypothèse sur sa nature ne peut être formulée, occupent une position particulière. Il s’agit notamment de la méthode bien connue des histogrammes multidimensionnels, le « k-voisins les plus proches, la méthode des distances euclidiennes, la méthode des fonctions potentielles, etc., dont une généralisation est la méthode dite des « estimations de Parzen ». Ces méthodes fonctionnent formellement avec des objets comme des structures intégrales, mais selon le type de tâche de reconnaissance, elles peuvent agir à la fois sous des formes intensionnelles et extensionnelles.

Les méthodes non paramétriques analysent le nombre relatif d'objets tombant dans des volumes multidimensionnels donnés et utilisent diverses fonctions distances entre les objets de l'échantillon d'apprentissage et les objets reconnus. Pour les caractéristiques quantitatives, lorsque leur nombre est bien inférieur à la taille de l'échantillon, les opérations avec des objets jouent un rôle intermédiaire dans l'estimation des densités de distribution locale. probabilités conditionnelles et les objets ne portent pas la charge sémantique d'unités d'information indépendantes. Dans le même temps, lorsque le nombre de caractéristiques est proportionné ou supérieur au nombre d'objets étudiés et que les caractéristiques sont de nature qualitative ou dichotomique, il ne peut alors être question d'estimations locales des densités de distribution de probabilité. Dans ce cas, les objets dans les méthodes non paramétriques spécifiées sont considérés comme des unités d'information indépendantes (intégrales faits empiriques) et ces méthodes acquièrent le sens d'évaluer les similitudes et les différences des objets étudiés.

Ainsi, les mêmes opérations technologiques des méthodes non paramétriques, selon les conditions du problème, donnent un sens soit aux estimations locales des densités de distribution de probabilité des valeurs des caractéristiques, soit aux estimations de la similarité et de la différence des objets.

Dans le contexte de la représentation intensionnelle des connaissances, le premier aspect des méthodes non paramétriques, en tant qu'estimation des densités de distribution de probabilité, est considéré ici. De nombreux auteurs notent qu’en pratique, les méthodes non paramétriques telles que les estimateurs de Parzen fonctionnent bien. Les principales difficultés liées à l'utilisation de ces méthodes sont la nécessité de mémoriser l'intégralité de l'échantillon de formation pour calculer les estimations des densités de distribution de probabilité locale et la grande sensibilité au caractère non représentatif de l'échantillon de formation.

Méthodes basées sur des hypothèses sur la classe des fonctions de décision. Dans ce groupe de méthodes, la forme générale de la fonction de décision est considérée comme connue et la fonctionnelle de sa qualité est précisée. Sur la base de cette fonctionnelle, la meilleure approximation de la fonction de décision est recherchée dans la séquence d'apprentissage. Les plus courantes sont les représentations des fonctions de décision sous la forme de polynômes linéaires et non linéaires généralisés. La fonctionnalité qualité de la règle de décision est généralement associée à une erreur de classification.

Le principal avantage des méthodes basées sur des hypothèses sur la classe des fonctions de décision est la clarté de la formulation mathématique du problème de reconnaissance en tant que problème de recherche d'un extremum. La solution à ce problème est souvent obtenue à l’aide de certains algorithmes de gradient. La variété des méthodes de ce groupe s’explique par le large éventail de fonctionnalités de qualité des règles de décision et d’algorithmes de recherche extremum utilisés. Une généralisation des algorithmes considérés, qui incluent notamment l'algorithme de Newton, les algorithmes de type perceptron, etc., est la méthode d'approximation stochastique. Contrairement aux méthodes de reconnaissance paramétrique, le succès de l'utilisation de ce groupe de méthodes ne dépend pas tant de l'écart entre les idées théoriques sur les lois de distribution des objets dans l'espace des caractéristiques et la réalité empirique. Toutes les opérations sont subordonnées à un objectif principal : trouver l'extremum de la qualité fonctionnelle de la règle de décision. Dans le même temps, les résultats des méthodes paramétriques et considérées peuvent être similaires. Comme indiqué ci-dessus, les méthodes paramétriques pour le cas de distributions normales d'objets dans différentes classes avec des matrices de covariance égale conduisent à des fonctions de décision linéaires. Notez également que les algorithmes de sélection de caractéristiques informatives dans les modèles de diagnostic linéaire peuvent être interprétés comme des versions spéciales d'algorithmes de gradient pour la recherche d'extrémums.

Les capacités des algorithmes de recherche gradient extremum, en particulier dans le groupe des règles de décision linéaires, ont été assez bien étudiées. La convergence de ces algorithmes n'a été prouvée que dans le cas où les classes d'objets reconnues sont affichées dans l'espace des caractéristiques par des structures géométriques compactes. Cependant, le désir d'obtenir une qualité suffisante de la règle de décision peut souvent être satisfait à l'aide d'algorithmes qui n'ont pas de preuve mathématique stricte de la convergence de la solution vers un extremum global.

De tels algorithmes incluent un grand groupe de procédures de programmation heuristiques qui représentent l'orientation de la modélisation évolutive. La modélisation évolutive est une méthode bionique empruntée à la nature. Elle s'appuie sur l'utilisation de mécanismes d'évolution connus afin de remplacer le processus de modélisation signifiante d'un objet complexe par une modélisation phénoménologique de son évolution.

Un représentant bien connu de la modélisation évolutive dans la reconnaissance de formes est la méthode de comptabilité de groupe des arguments (MGUA). La base du GMDH est le principe d'auto-organisation, et les algorithmes du GMDH reproduisent le schéma de sélection de masse. Dans les algorithmes GMDH, les membres d'un polynôme généralisé sont synthétisés et sélectionnés d'une manière spéciale, souvent appelée polynôme de Kolmogorov-Gabor. Cette synthèse et cette sélection s'effectuent avec une complexité croissante, et il est impossible de prédire à l'avance quelle forme finale aura le polynôme généralisé. Premièrement, de simples combinaisons par paires de caractéristiques initiales sont généralement considérées, à partir desquelles des équations de fonctions de décision sont compilées, généralement pas supérieures au second ordre. Chaque équation est analysée comme une fonction de décision indépendante, et les valeurs des paramètres des équations compilées sont trouvées d'une manière ou d'une autre à l'aide de l'échantillon d'apprentissage. Ensuite, à partir de l’ensemble résultant de fonctions de décision, certaines des meilleures sont sélectionnées. La qualité des fonctions de décision individuelles est vérifiée sur un échantillon de contrôle (validation), parfois appelé principe d'addition externe. Les fonctions de décision partielles sélectionnées sont en outre considérées comme des variables intermédiaires qui servent d'arguments initiaux pour une synthèse similaire de nouvelles fonctions de décision, etc. Le processus d'une telle synthèse hiérarchique se poursuit jusqu'à ce que l'extremum du critère de qualité de la fonction de décision soit atteint, ce qui en pratique se manifeste par la détérioration de cette qualité lorsqu'on tente d'augmenter encore l'ordre des termes polynomiaux par rapport aux caractéristiques d'origine.

Le principe d'auto-organisation qui sous-tend le GMDH est appelé auto-organisation heuristique, puisque l'ensemble du processus repose sur l'introduction d'ajouts externes, sélectionnés de manière heuristique. Le résultat d’une décision peut dépendre de manière significative de ces heuristiques. Le modèle de diagnostic résultant dépend de la manière dont les objets sont divisés en échantillons de formation et de test, de la manière dont le critère de qualité de reconnaissance est déterminé, du nombre de variables transmises à la ligne de sélection suivante, etc.

Les caractéristiques indiquées des algorithmes GMDH sont également caractéristiques d'autres approches de modélisation évolutive. Mais notons ici encore un aspect des méthodes considérées. C'est leur essence significative. En utilisant des méthodes basées sur des hypothèses sur la classe des fonctions de décision (évolutionnaires et gradients), il est possible de construire des modèles de diagnostic d'une grande complexité et d'obtenir des résultats pratiquement acceptables. Dans le même temps, la réalisation d'objectifs pratiques dans ce cas ne s'accompagne pas de l'extraction de nouvelles connaissances sur la nature des objets reconnus. La possibilité d'extraire ces connaissances, en particulier celles sur les mécanismes d'interaction des attributs (caractéristiques), est ici fondamentalement limitée par la structure donnée de cette interaction, fixée dans la forme choisie des fonctions de décision. Par conséquent, tout ce que l’on peut dire après avoir construit un modèle de diagnostic particulier est de lister les combinaisons de fonctionnalités et les fonctionnalités elles-mêmes incluses dans le modèle résultant. Mais le sens des combinaisons qui reflètent la nature et la structure des distributions des objets étudiés reste souvent méconnue dans le cadre de cette approche.

Méthodes booléennes. Les méthodes logiques de reconnaissance de formes sont basées sur l'appareil d'algèbre logique et permettent d'opérer avec des informations contenues non seulement dans des caractéristiques individuelles, mais également dans des combinaisons de valeurs de caractéristiques. Dans ces méthodes, les valeurs de tout attribut sont considérées comme des événements élémentaires.

Dans la forme la plus générale, les méthodes logiques peuvent être caractérisées comme un type de recherche à travers un échantillon d'apprentissage de modèles logiques et la formation d'un certain système de règles de décision logique (par exemple, sous la forme de conjonctions d'événements élémentaires), chacune des qui a son propre poids. Le groupe de méthodes logiques est diversifié et comprend des méthodes de complexité et de profondeur d'analyse variables. Pour les caractéristiques dichotomiques (booléennes), les classificateurs dits arborescents, la méthode de test sans issue, l'algorithme « Bark » et d'autres sont populaires. Des méthodes plus complexes sont basées sur la formalisation méthodes inductives D.S.Mill. La formalisation est réalisée en construisant une théorie quasi-axiomatique et est basée sur une logique multi-triée à plusieurs valeurs avec des quantificateurs sur des tuples de longueur variable.

L'algorithme « Kora », comme d'autres méthodes logiques de reconnaissance de formes, demande beaucoup de travail, car une recherche complète est nécessaire lors de la sélection des conjonctions. Par conséquent, lors de l'utilisation de méthodes logiques, des exigences élevées sont imposées à l'organisation efficace du processus de calcul, et ces méthodes fonctionnent bien avec des dimensions relativement petites de l'espace des fonctionnalités et uniquement sur des ordinateurs puissants.

Méthodes linguistiques (syntaxiques ou structurelles). Les méthodes linguistiques de reconnaissance de formes reposent sur l'utilisation de grammaires spéciales qui génèrent des langues, à l'aide desquelles un ensemble de propriétés d'objets reconnus peut être décrit. La grammaire fait référence aux règles de construction d'objets à partir de ces éléments non dérivés.

Si la description des images se fait à partir d'éléments non dérivés (sous-images) et de leurs relations, alors une approche linguistique ou syntaxique utilisant le principe de généralité des propriétés est utilisée pour construire des systèmes de reconnaissance automatique. Une image peut être décrite à l’aide d’une structure hiérarchique de sous-images, similaire à la structure syntaxique du langage. Cette circonstance permet d'appliquer la théorie des langages formels lors de la résolution de problèmes de reconnaissance d'images. Une grammaire d'images est supposée contenir des ensembles finis d'éléments appelés variables, éléments non dérivés et règles de substitution. La nature des règles de substitution détermine le type de grammaire. Parmi les grammaires les plus étudiées, on peut noter les grammaires régulières, sans contexte et à composantes directes. Points clés De cette approche sont la sélection des éléments non dérivés de l'image, la combinaison de ces éléments et les relations qui les relient dans des grammaires d'images et, enfin, la mise en œuvre des processus d'analyse et de reconnaissance dans le langage approprié. Cette approche est particulièrement utile lorsque l'on travaille avec des images qui ne peuvent pas être décrites par des mesures numériques ou qui sont si complexes que leurs caractéristiques locales ne peuvent pas être identifiées et qu'il faut se tourner vers les propriétés globales des objets.

Par exemple, E.A. Butakov, V.I. Ostrovsky, I.L. Fadeev propose la structure de système suivante pour le traitement d'images (Fig. 3), en utilisant approche linguistique, où chacun des blocs fonctionnels est un complexe logiciel (microprogramme) (module) qui implémente fonctions pertinentes.

Figure 3. Schéma fonctionnel du dispositif de reconnaissance

Les tentatives visant à appliquer les méthodes de la linguistique mathématique au problème de l'analyse d'images conduisent à la nécessité de résoudre un certain nombre de problèmes associés à la cartographie de la structure bidimensionnelle d'une image sur des chaînes unidimensionnelles d'un langage formel.

Méthodes d'extension

Dans les méthodes de ce groupe, contrairement au sens intensionnel, chaque objet étudié se voit, dans une plus ou moins grande mesure, doté d'une signification diagnostique indépendante. À la base, ces méthodes sont proches de l'approche clinique, qui considère les personnes non pas comme une chaîne d'objets classés par un indicateur ou un autre, mais comme des systèmes intégraux, dont chacun est individuel et a une valeur diagnostique particulière. Une telle attitude prudente envers les objets de recherche ne permet pas d'exclure ou de perdre des informations sur chaque objet individuel, ce qui se produit lors de l'utilisation de méthodes de direction intensionnelle qui utilisent les objets uniquement pour détecter et enregistrer des modèles de comportement de leurs attributs.

Les principales opérations de reconnaissance de formes utilisant les méthodes discutées sont les opérations de détermination des similitudes et des différences d'objets. Les objets du groupe de méthodes spécifié jouent le rôle de précédents de diagnostic. De plus, selon les conditions d'une tâche spécifique, le rôle d'un précédent individuel peut varier dans les limites les plus larges : du rôle principal et déterminant à la participation très indirecte au processus de reconnaissance. À leur tour, les conditions du problème peuvent nécessiter la participation d'un nombre différent de précédents de diagnostic pour une solution réussie : d'un dans chaque classe reconnue à la taille totale de l'échantillon, ainsi que différentes méthodes de calcul des mesures de similarité et de différence d'objets. . Ces exigences expliquent la division ultérieure des méthodes d'extension en sous-classes :

    méthode de comparaison avec le prototype ;

    méthode des k-voisins les plus proches ;

    collectifs de règles de décision.

Méthode de comparaison avec le prototype. Il s’agit de la méthode de reconnaissance extensionnelle la plus simple. Il est utilisé, par exemple, lorsque les classes reconnues sont affichées dans l'espace des fonctionnalités par groupements géométriques compacts. Dans ce cas, le centre du groupement géométrique de la classe (ou l'objet le plus proche du centre) est généralement sélectionné comme point prototype.

Pour classer un objet inconnu, on trouve le prototype le plus proche et l'objet appartient à la même classe que ce prototype. Évidemment, aucune image de classe généralisée n’est générée dans cette méthode.

Différents types de distances peuvent être utilisés comme mesure de proximité. Souvent, pour les caractéristiques dichotomiques, la distance de Hamming est utilisée, qui dans ce cas est égale au carré de la distance euclidienne. Dans ce cas, la règle de décision pour classer les objets est équivalente à une fonction de décision linéaire.

Ce fait doit être particulièrement noté. Il démontre clairement le lien entre le prototype et la représentation attributaire des informations sur la structure des données. En utilisant la représentation ci-dessus, on peut, par exemple, considérer n'importe quelle échelle de mesure traditionnelle, qui est une fonction linéaire des valeurs de caractéristiques dichotomiques, comme un prototype de diagnostic hypothétique. À son tour, si l'analyse de la structure spatiale des classes reconnues permet de tirer une conclusion sur leur compacité géométrique, il suffit alors de remplacer chacune de ces classes par un prototype, ce qui équivaut en fait à un modèle de diagnostic linéaire.

Dans la pratique, bien entendu, la situation est souvent différente de l’exemple idéalisé décrit. Un chercheur qui souhaite appliquer une méthode de reconnaissance basée sur la comparaison avec des classes de diagnostic prototypes est confronté à des problèmes difficiles. Il s'agit tout d'abord du choix de la mesure de proximité (métrique), qui peut modifier significativement la configuration spatiale de la répartition des objets. Et deuxièmement, un problème indépendant est l’analyse des structures multidimensionnelles des données expérimentales. Ces deux problèmes sont particulièrement aigus pour le chercheur dans des conditions de haute dimensionnalité de l'espace des caractéristiques, caractéristiques des problèmes réels.

La méthode des k-voisins les plus proches. La méthode des k voisins les plus proches pour résoudre les problèmes d’analyse discriminante a été proposée pour la première fois en 1952. C'est le suivant.

Lors de la classification d'un objet inconnu, un nombre donné (k) d'objets géométriquement les plus proches de lui dans l'espace des caractéristiques d'autres objets (voisins les plus proches) avec une appartenance déjà connue à des classes reconnues est trouvé. La décision d'attribuer un objet inconnu à une classe de diagnostic particulière est prise en analysant les informations sur cette affiliation connue de ses voisins les plus proches, par exemple à l'aide d'un simple décompte des voix.

Initialement, la méthode des k-voisins les plus proches était considérée comme une méthode non paramétrique pour estimer le rapport de vraisemblance. Pour cette méthode, des estimations théoriques de son efficacité ont été obtenues en comparaison avec le classificateur bayésien optimal. Il a été prouvé que les probabilités d'erreur asymptotiques pour la méthode des k-voisins les plus proches ne dépassent pas plus de deux fois les erreurs de la règle de Bayes.

Comme indiqué ci-dessus, dans les problèmes réels, il est souvent nécessaire d'opérer avec des objets décrits gros montant caractéristiques qualitatives (dichotomiques). Dans ce cas, la dimension de l’espace des caractéristiques est proportionnelle ou dépasse le volume de l’échantillon étudié. Dans de telles conditions, il est pratique d’interpréter chaque objet de l’échantillon d’apprentissage comme un classificateur linéaire distinct. Alors telle ou telle classe de diagnostic n'est pas représentée par un prototype, mais par un ensemble de classificateurs linéaires. L'interaction combinée des classificateurs linéaires aboutit finalement à une surface linéaire par morceaux séparant les classes reconnues dans l'espace des caractéristiques. Le type de surface de séparation, constituée de morceaux d'hyperplans, peut varier et dépend de la position relative des agrégats classés.

Une autre interprétation des mécanismes de classification utilisant la règle des k-plus proches voisins peut également être utilisée. Il est basé sur l'idée de l'existence de certaines variables latentes, abstraites ou liées par une transformation à l'espace des fonctionnalités d'origine. Si dans l'espace des variables latentes les distances par paires entre les objets sont les mêmes que dans l'espace des caractéristiques originales, et que le nombre de ces variables est significatif moins de nombre objets, alors l'interprétation de la méthode des k-voisins les plus proches peut être envisagée du point de vue de la comparaison d'estimations non paramétriques des densités de distribution des probabilités conditionnelles. La vision des variables latentes présentée ici est proche par nature de la vision de la vraie dimensionnalité et d'autres vues utilisées dans diverses techniques de réduction de dimensionnalité.

Lorsqu’il utilise la méthode des k voisins les plus proches pour la reconnaissance de formes, le chercheur doit résoudre le problème difficile du choix d’une métrique pour déterminer la proximité des objets diagnostiqués. Ce problème dans des conditions de haute dimensionnalité de l'espace des fonctionnalités est extrêmement aggravé en raison de la complexité suffisante de cette méthode, qui devient importante même pour les ordinateurs hautes performances. Par conséquent, ici, tout comme dans la méthode de comparaison avec un prototype, il est nécessaire de résoudre le problème créatif de l'analyse de la structure multidimensionnelle des données expérimentales afin de minimiser le nombre d'objets représentant les classes de diagnostic.

Algorithmes de calcul des notes (vote). Le principe de fonctionnement des algorithmes de calcul d'évaluation (ABO) est de calculer des priorités (scores de similarité) caractérisant la « proximité » des objets reconnus et de référence selon un système d'ensembles de caractéristiques, qui est un système de sous-ensembles d'un ensemble donné de caractéristiques. .

Contrairement à toutes les méthodes évoquées précédemment, les algorithmes de calcul des estimations fonctionnent avec les descriptions d'objets d'une manière fondamentalement nouvelle. Pour ces algorithmes, les objets existent simultanément dans des sous-espaces très différents de l’espace des fonctionnalités. La classe ABO pousse l'idée d'utiliser des fonctionnalités jusqu'à sa conclusion logique : comme on ne sait pas toujours quelles combinaisons de fonctionnalités sont les plus informatives, alors dans ABO le degré de similarité des objets est calculé en comparant toutes les combinaisons possibles ou spécifiques de caractéristiques incluses dans les descriptions des objets.

Collectifs de règles de décision. La règle de décision utilise un schéma de reconnaissance à deux niveaux. Au premier niveau fonctionnent des algorithmes de reconnaissance privée dont les résultats sont regroupés au deuxième niveau dans le bloc de synthèse. Les méthodes les plus courantes d'une telle unification reposent sur l'identification des domaines de compétence d'un algorithme particulier. La manière la plus simple de trouver des domaines de compétence est de partitionner a priori l'espace des attributs en fonction de considérations professionnelles d'une science particulière (par exemple, stratifier l'échantillon selon un certain attribut). Ensuite, pour chacune des zones sélectionnées, son propre algorithme de reconnaissance est construit. Une autre méthode est basée sur l'utilisation d'une analyse formelle pour déterminer des zones locales de l'espace de caractéristiques en tant que voisinages d'objets reconnus pour lesquels le succès d'un algorithme de reconnaissance particulier a été prouvé.

L'approche la plus générale pour construire un bloc de synthèse considère les indicateurs résultants d'algorithmes particuliers comme les caractéristiques initiales pour construire une nouvelle règle de décision généralisée. Dans ce cas, toutes les méthodes ci-dessus de directions intensionnelles et extensionnelles dans la reconnaissance de formes peuvent être utilisées. Les algorithmes logiques de type « Kora » et les algorithmes de calcul d'estimations (ABO), qui constituent la base de l'approche dite algébrique, qui prévoit l'étude et la description constructive de algorithmes de reconnaissance, dans le cadre desquels s'inscrivent tous les types d'algorithmes existants.

Méthodes de réseau neuronal

Les méthodes de réseau de neurones sont des méthodes basées sur l'application divers types réseaux de neurones (NN). Les principaux domaines d'application de divers réseaux de neurones pour la reconnaissance de formes et d'images :

    application pour extraire les caractéristiques ou caractéristiques clés d'images données,

    classification des images elles-mêmes ou des caractéristiques déjà extraites de celles-ci (dans le premier cas, l'extraction des caractéristiques clés se fait implicitement au sein du réseau),

    résoudre des problèmes d'optimisation.

Réseaux de neurones multicouches. L'architecture d'un réseau neuronal multicouche (MNN) se compose de couches connectées séquentiellement, où le neurone de chaque couche est connecté avec ses entrées à tous les neurones de la couche précédente et aux sorties de la suivante.

L'application la plus simple d'un réseau neuronal monocouche (appelé mémoire auto-associative) consiste à entraîner le réseau à reconstruire les images alimentées. En fournissant une image de test en entrée et en calculant la qualité de l'image reconstruite, vous pouvez évaluer dans quelle mesure le réseau a reconnu l'image d'entrée. Propriétés positives Cette méthode permet au réseau de restaurer des images déformées et bruitées, mais elle ne convient pas à des fins plus sérieuses.

MNN est également utilisé pour la classification directe d'images - soit l'image elle-même sous une forme ou un ensemble de caractéristiques clés de l'image préalablement extraites est fournie en entrée en sortie, le neurone avec une activité maximale indique l'appartenance à la classe reconnue (Fig. 4). Si cette activité est inférieure à un certain seuil, alors on considère que l'image soumise n'appartient à aucune des classes connues. Le processus d'apprentissage établit la correspondance des images fournies à l'entrée avec l'appartenance à une certaine classe. C’est ce qu’on appelle l’apprentissage supervisé. Cette approche convient aux tâches de contrôle d'accès d'un petit groupe de personnes. Cette approche garantit que le réseau compare directement les images elles-mêmes, mais avec l'augmentation du nombre de classes, le temps de formation et de fonctionnement du réseau augmente de façon exponentielle. Par conséquent, pour des tâches telles que la recherche personne similaire dans une grande base de données, nécessite l’extraction d’un ensemble compact de caractéristiques clés sur lesquelles effectuer la recherche.

Une approche de classification utilisant les caractéristiques de fréquence de l'image entière est décrite dans. Un réseau neuronal monocouche basé sur des neurones à valeurs multiples a été utilisé.

L'application d'un réseau neuronal pour la classification d'images est illustrée lorsque l'entrée du réseau reçoit les résultats de la décomposition d'images à l'aide de la méthode des composants principaux.

Dans le MNN classique, les connexions neuronales intercouches sont entièrement connectées et l'image est représentée comme un vecteur unidimensionnel, bien qu'elle soit bidimensionnelle. L'architecture du réseau neuronal convolutif vise à surmonter ces lacunes. Il a utilisé des champs récepteurs locaux (fournissent une connectivité bidimensionnelle locale des neurones), des poids partagés (fournissent la détection de certaines caractéristiques n'importe où dans l'image) et une organisation hiérarchique avec sous-échantillonnage spatial. Le réseau neuronal convolutif (CNN) offre une résistance partielle aux changements d'échelle, aux déplacements, aux rotations et aux distorsions.

Les MNN sont également utilisés pour détecter des objets d'un certain type. Outre le fait que tout MNN entraîné peut, dans une certaine mesure, déterminer si les images appartiennent à « leurs » classes, il peut être spécialement entraîné pour détecter de manière fiable certaines classes. Dans ce cas, les classes de sortie seront des classes qui appartiennent et n'appartiennent pas au type d'image donné. Un détecteur de réseau neuronal a été utilisé pour détecter une image de visage dans l’image d’entrée. L'image a été numérisée par une fenêtre de 20x20 pixels, qui a été transmise à l'entrée du réseau, qui décide si une zone donnée appartient à la classe des visages. La formation a été réalisée à la fois à partir d'exemples positifs ( diverses images visages) et négatifs (images qui ne sont pas des visages). Pour augmenter la fiabilité de la détection, une équipe de réseaux de neurones a été utilisée, entraînée avec des poids initiaux différents, à la suite de quoi les réseaux de neurones ont commis des erreurs différemment, et décision finale a été adopté par un vote de l’ensemble de l’équipe.

Figure 5. Composantes principales (faces propres) et décomposition de l'image en composantes principales

Un réseau neuronal est également utilisé pour extraire les caractéristiques clés de l’image, qui sont ensuite utilisées pour une classification ultérieure. Dans , une méthode de mise en œuvre d'un réseau neuronal de la méthode d'analyse des composantes principales est présentée. L'essence de la méthode d'analyse en composantes principales est d'obtenir des coefficients décorés au maximum caractérisant les images d'entrée. Ces coefficients sont appelés composants principaux et sont utilisés pour la compression statistique d'images, dans laquelle un petit nombre de coefficients sont utilisés pour représenter l'image entière. Un réseau de neurones avec une couche cachée contenant N neurones (ce qui est beaucoup plus petit que la dimension de l'image), entraîné à l'aide de la méthode de rétropropagation pour restituer l'image de sortie transmise à l'entrée, génère les coefficients des N premières composantes principales en sortie. des neurones cachés, qui sont utilisés à des fins de comparaison. Généralement, de 10 à 200 composants principaux sont utilisés. À mesure que le nombre d’un composant augmente, sa représentativité diminue considérablement et cela n’a aucun sens d’utiliser des composants avec des nombres plus grands. Lors de l'utilisation de fonctions d'activation non linéaires d'éléments neuronaux, une décomposition non linéaire en composants principaux est possible. La non-linéarité permet de refléter plus précisément les variations des données d’entrée. En appliquant l'analyse en composantes principales à la décomposition d'images faciales, nous obtenons des composantes principales, appelées faces propres, qui ont également une propriété utile : il existe des composantes qui reflètent principalement des caractéristiques essentielles d'un visage telles que le sexe, la race et les émotions. Une fois restaurés, les composants ont l'apparence d'un visage, les premiers reflétant le plus forme générale visages, ces derniers – diverses petites différences entre les visages (Fig. 5). Cette méthode est bien adaptée pour trouver des images similaires de visages dans de grandes bases de données. La possibilité de réduire davantage la dimension des composants principaux en utilisant NN est également présentée. En évaluant la qualité de la reconstruction de l'image d'entrée, on peut déterminer très précisément son appartenance à la classe des visages.

Réseaux de neurones d'ordre élevé. Les réseaux neuronaux d'ordre élevé (HANN) diffèrent des MNN en ce sens qu'ils n'ont qu'une seule couche, mais les entrées neuronales reçoivent également des termes d'ordre élevé, qui sont le produit de deux ou plusieurs composantes du vecteur d'entrée. De tels réseaux peuvent également former des surfaces de séparation complexes.

Réseaux de neurones Hopfield. Le Hopfield NN (HNS) est monocouche et entièrement connecté (il n'y a pas de connexions entre neurones sur eux-mêmes), ses sorties sont connectées aux entrées. Contrairement au MNS, le NSC est une relaxation - c'est-à-dire étant mis à l'état initial, il fonctionne jusqu'à atteindre un état stable, qui sera sa valeur de sortie. Pour rechercher un minimum global par rapport aux problèmes d'optimisation, des modifications stochastiques du NSC sont utilisées.

L'utilisation de NSH comme mémoire associative vous permet de restaurer avec précision les images pour lesquelles le réseau est formé lorsqu'une image déformée est introduite à l'entrée. Dans ce cas, le réseau « mémorisera » le plus proche (au sens minimum localénergie) image, et ainsi la reconnaît. Un tel fonctionnement peut également être représenté comme l'application séquentielle de la mémoire auto-associative décrite ci-dessus. Contrairement à la mémoire auto-associative, NSC restituera l’image avec une précision parfaite. Pour éviter les minimums d'interférences et augmenter la capacité du réseau, diverses méthodes sont utilisées.

Réseaux de neurones Kohonen auto-organisés. Les réseaux de neurones Kohonen auto-organisés (KONN) fournissent un ordre topologique de l'espace d'image d'entrée. Ils permettent un affichage topologiquement continu de l'entrée espace à n dimensions pour produire une dimension m, m<

Cognitron. L'architecture du Cognitron est similaire à la structure du cortex visuel ; elle présente une organisation hiérarchique multicouche dans laquelle les neurones entre les couches ne sont connectés que localement. Appris par apprentissage compétitif (sans professeur). Chaque couche du cerveau met en œuvre différents niveaux de généralisation ; la couche d'entrée est sensible aux motifs simples, tels que les lignes, et à leur orientation dans certaines zones du domaine visuel, tandis que la réponse des autres couches est plus complexe, abstraite et indépendante de la position du motif. Des fonctions similaires sont mises en œuvre dans le cognitron en modélisant l'organisation du cortex visuel.

Neocognitron est un développement ultérieur de l'idée de cognitron et reflète plus précisément la structure du système visuel, vous permet de reconnaître les images indépendamment de leurs transformations, rotations, distorsions et changements d'échelle.

Cognitron est un outil puissant de reconnaissance d’images, mais nécessite des coûts de calcul élevés, actuellement inaccessibles.

Les méthodes de réseau neuronal considérées permettent une reconnaissance d'image rapide et fiable, mais lors de l'utilisation de ces méthodes, des problèmes surviennent lors de la reconnaissance d'objets tridimensionnels. Cependant, cette approche présente de nombreux avantages.

      Conclusion

Actuellement, il existe un assez grand nombre de systèmes de reconnaissance automatique de formes pour diverses tâches appliquées.

La reconnaissance de formes par des méthodes formelles en tant que direction scientifique fondamentale est inépuisable.

Les méthodes mathématiques de traitement d'images ont une grande variété d'applications : science, technologie, médecine, sphère sociale. À l’avenir, le rôle de la reconnaissance de formes dans la vie humaine augmentera encore davantage.

Les méthodes de réseau neuronal fournissent une reconnaissance d’image rapide et fiable. Cette approche présente de nombreux avantages et est l’une des plus prometteuses.

Littérature

    D.V. Brilyuk, V.V. Starovoïtov. Méthodes de réseaux neuronaux pour la reconnaissance d'images // /

    Kuzin L.T. Fondamentaux de cybernétique : Fondamentaux des modèles cybernétiques. T.2. - M. : Energie, 1979. - 584 p.

    Peregudov F.I., Tarasenko F.P. Introduction à l'analyse des systèmes : Manuel. – M. : Ecole Supérieure, 1997. - 389 p.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Fondements théoriques des technologies de l'information. - M. : Energie, 1979. - 511 p.

    Tu J., Gonzalez R. Principes de reconnaissance de formes. /Trans. de l'anglais - M. : Mir, 1978. - 410 p.

    Winston P. Intelligence artificielle. /Trans. de l'anglais - M. : Mir, 1980. - 520 p.

    Fu K. Méthodes structurelles en reconnaissance de formes : traduction de l'anglais. - M. : Mir, 1977. - 320 p.

    Tsypkin Ya.Z. Fondements de la théorie de l'information de l'identification. - M. : Nauka, 1984. - 520 p.

    Pospelov G.S. L'intelligence artificielle est la base des nouvelles technologies de l'information. - M. : Nauka, 1988. - 280 p.

    Yu. Lifshits, Méthodes statistiques de reconnaissance de formes ///modern/07modernnote.pdf

    Bohr N. Physique atomique et cognition humaine. /Traduit de l'anglais - M. : Mir, 1961. - 151 p.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Traitement d'images sur ordinateur.1987.-236p.

    Duda R., Hart P. Reconnaissance de formes et analyse de scènes. /Traduit de l'anglais - M. : Mir, 1978. - 510 p.

    Duc V.A. Psychodiagnostic informatique. - Saint-Pétersbourg : Fraternité, 1994. - 365 p.

    Aizenberg I.N., Aizenberg N.N. et Krivosheev G.A. Neurones binaires multi-valeurs et universels : algorithmes d'apprentissage, applications au traitement et à la reconnaissance d'images. Notes de cours sur l'intelligence artificielle – Apprentissage automatique et exploration de données dans la reconnaissance de formes, 1999, pp. 21-35.

    Ranganath S. et Arun K. Reconnaissance faciale utilisant des fonctionnalités de transformation et des réseaux de neurones. Reconnaissance de formes 1997, Vol. 30, p. 1615-1622.

    Golovko V.A. Neurointelligence : théorie et applications. Livre 1. Organisation et entraînement des réseaux de neurones à connexions directes et feedback - Brest : BPI, 1999, - 260 pp.

    Vetter T. et Poggio T. Classes d'objets linéaires et synthèse d'images à partir d'un seul exemple d'image. Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle 1997, Vol. 19, p. 733-742.

    Golovko V.A. Neurointelligence : théorie et applications. Livre 2. Auto-organisation, tolérance aux pannes et application des réseaux de neurones - Brest : BPI, 1999, - 228 p.

    Lawrence S., Giles C. L., Tsoi A. C. et Back A. D. Reconnaissance faciale : une approche de réseau neuronal convolutif. Transactions IEEE sur les réseaux de neurones, numéro spécial sur les réseaux de neurones et la reconnaissance de formes, pp. 1-24.

    Wasserman F. Technologie neuro-informatique : Théorie et pratique, 1992 – 184 p.

    Rowley, HA, Baluja, S. et Kanade, T. Détection de visage basée sur un réseau neuronal. Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle 1998, Vol. 20, p. 23-37.

    Valentin D., Abdi H., O"Toole A. J. et Cottrell G. W. Modèles connexionnistes de traitement du visage : une enquête. IN : Pattern Recognition 1994, Vol. 27, pp. 1209-1230.

    Document

    Ils composent des algorithmes reconnaissanceimages. Méthodesreconnaissanceimages Comme indiqué ci-dessus... la réalité n'est pas existe"les écosystèmes en général", et exister seulement individuels... conclusions de ce détail revoirméthodesreconnaissance nous avons présenté dans...

  1. Revue des méthodes d'identification des personnes à partir d'images faciales, en tenant compte des caractéristiques de la reconnaissance visuelle

    Revoir

    ... reconnaissance par une personne d'objets à faible contraste, incl. personnes Donné revoir commun méthodes ... Existe ligne entière méthodes ... chemin, grâce à la recherche, une plateforme pour développer méthodereconnaissance ...

  2. Nommé d'après Glazkova Valentina Vladimirovna RECHERCHE ET DÉVELOPPEMENT DE MÉTHODES DE CONSTRUCTION D'OUTILS LOGICIELS POUR LA CLASSIFICATION DE DOCUMENTS HYPERTEXTES MULTI-THÈMES Spécialité 05

    Résumé de la thèse

    Documents hypertextes. Le chapitre fournit revoirexistantméthodes solutions au problème considéré, description... en supprimant les classes les moins pertinentes // Mathématique méthodesreconnaissanceimages: 13e Conférence panrusse. Région de Léningrad...

  3. Slide 0 Revue des tâches bioinformatiques liées à l'analyse et au traitement des textes génétiques

    Conférence

    Séquences d'ADN et de protéines. Revoir tâches bioinformatiques en tant que tâches... les signaux nécessitent l'utilisation de moyens modernes méthodesreconnaissanceimages, approches statistiques et... à faible densité génétique. Existant les programmes de prédiction génétique ne sont pas...

Dans cet article, j'ai entrepris de mettre en évidence certains des résultats fondamentaux de la théorie de l'apprentissage automatique de manière à rendre les concepts clairs pour les lecteurs ayant une certaine connaissance des problèmes de classification et de régression. L'idée d'écrire un tel article devenait de plus en plus claire dans mon esprit à chaque livre que je lisais, dans lequel les idées d'apprendre aux machines à reconnaître étaient racontées comme si elles venaient du milieu et on ne savait absolument pas ce que les auteurs de ceci ou cette méthode s’est appuyée lors de son développement. D'un autre côté, il existe un certain nombre de livres consacrés aux concepts de base de l'apprentissage automatique, mais la présentation du matériel qu'ils contiennent peut sembler trop complexe pour la première lecture.

Motivation

Considérons ce problème. Nous avons des pommes de deux classes – savoureuses et non savoureuses, 1 et 0. Les pommes ont des caractéristiques – couleur et taille. La couleur changera continuellement de 0 à 1, c'est-à-dire 0 - pomme complètement verte, 1 - complètement rouge. La taille peut changer de la même manière, 0 - petite pomme, 1 - grosse. Nous aimerions développer un algorithme qui recevrait la couleur et la taille en entrée, et qui indiquerait la classe de la pomme, qu'elle soit savoureuse ou non. Il est hautement souhaitable que moins il y a d’erreurs, mieux c’est. En même temps, nous disposons d'une liste finale contenant des données historiques sur la couleur, la taille et la classe des pommes. Comment pourrions-nous résoudre un tel problème ?

Approche logique

Lors de la résolution de notre problème, la première méthode qui pourrait nous venir à l'esprit pourrait être la suivante : créons manuellement des règles comme if-else et, en fonction des valeurs de couleur et de taille, nous attribuerons une certaine classe à la pomme. Ceux. nous avons des conditions préalables - la couleur et la taille, et il y a une conséquence - le goût de la pomme. C'est tout à fait raisonnable lorsqu'il y a peu de signes et que les seuils peuvent être estimés à l'œil nu à des fins de comparaison. Mais il peut arriver qu'il ne soit pas possible de définir des conditions claires et que les données ne permettent pas de déterminer clairement quels seuils prendre, et le nombre de signes peut augmenter à l'avenir. Et si dans notre liste de données historiques, nous trouvions deux pommes de la même couleur et de la même taille, mais que l’une est marquée comme savoureuse et l’autre non ? Ainsi, notre première méthode n’est pas aussi flexible et évolutive que nous le souhaiterions.

Désignations

Introduisons la notation suivante. Nous désignerons la ème pomme par . À leur tour, chacun se compose de deux nombres : la couleur et la taille. Nous désignerons ce fait par une paire de nombres : . Nous désignons la classe de chaque -ième pomme par . La liste avec les données historiques sera désignée par la lettre , la longueur de cette liste est de . Le ème élément de cette liste est la valeur des attributs de la pomme et sa classe. Ceux. . Nous l'appellerons également un échantillon. Nous utilisons des lettres majuscules pour désigner les variables qui peuvent prendre les valeurs d'un attribut et d'une classe spécifiques. Introduisons un nouveau concept : une règle de décision est une fonction qui prend la couleur et la taille en entrée et renvoie une étiquette de classe en sortie :

Approche probabiliste

En développant l'idée d'une méthode logique avec des prémisses et des conséquences, posons-nous la question : quelle est la probabilité que la pomme qui n'appartient pas à notre échantillon soit savoureuse, compte tenu des valeurs mesurées de couleur et de taille ? Dans la notation de la théorie des probabilités, cette question peut s’écrire comme suit :

Cette expression peut être interprétée comme une prémisse, une conséquence, mais le passage de la prémisse à la conséquence obéira à des lois probabilistes et non logiques. Ceux. Au lieu d'une table de vérité avec des valeurs booléennes 0 et 1 pour une classe, il y aura des valeurs de probabilité allant de 0 à 1. Appliquez la formule de Bayes et obtenez l'expression suivante :

Examinons plus en détail le côté droit de cette expression. Le multiplicateur est appelé probabilité a priori et désigne la probabilité de trouver une pomme savoureuse parmi toutes les pommes possibles. Il y a a priori une probabilité de tomber sur une pomme insipide. Cette probabilité peut refléter notre connaissance personnelle de la façon dont les pommes savoureuses et désagréables sont distribuées dans la nature. Par exemple, grâce à notre expérience passée, nous savons que 80 % de toutes les pommes sont savoureuses. Ou nous pouvons estimer cette valeur simplement en calculant la proportion de pommes savoureuses dans notre liste avec des données historiques S. Le facteur suivant montre la probabilité qu'il soit d'obtenir une valeur de couleur et de taille spécifique pour une pomme de classe 1. Cette expression est également appelée la fonction de vraisemblance et peut ressembler à ceci : une distribution spécifique, par exemple normale. Nous utilisons le dénominateur comme constante de normalisation pour que la probabilité souhaitée varie de 0 à 1. Notre objectif ultime n'est pas de rechercher des probabilités, mais de rechercher une règle décisive qui nous donnerait immédiatement la classe. La forme finale de la règle de décision dépend des valeurs et des paramètres que nous connaissons. Par exemple, nous ne pouvons connaître que les valeurs de la probabilité a priori, et les valeurs restantes ne peuvent pas être estimées. Ensuite, la règle décisive sera la suivante : attribuer à toutes les pommes la valeur de la classe pour laquelle la probabilité a priori est la plus grande. Ceux. si nous savons que 80 % des pommes dans la nature sont savoureuses, alors nous attribuons à chaque pomme une classe de 1. Notre erreur sera alors de 20 %. Si nous pouvons également estimer les valeurs de la fonction de vraisemblance $p(X=x_m | Y=1)$, alors nous pouvons trouver la valeur de la probabilité souhaitée en utilisant la formule de Bayes, comme écrit ci-dessus. La règle décisive ici sera la suivante : mettre une étiquette pour la classe pour laquelle la probabilité est maximale :

Appelons cette règle le classificateur bayésien. Puisqu'il s'agit de probabilités, même une valeur de probabilité élevée ne garantit pas que la pomme n'appartient pas à la classe 0. Estimons la probabilité d'une erreur sur une pomme comme suit : si la règle de décision a renvoyé une valeur de classe égale à 1 , alors la probabilité d'une erreur sera et vice versa :

Nous nous intéressons à la probabilité d'une erreur de classificateur non seulement dans cet exemple spécifique, mais en général pour toutes les pommes possibles :

Cette expression est la valeur attendue de l'erreur. Ainsi, en résolvant le problème initial, nous sommes arrivés au classificateur bayésien, mais quels sont ses inconvénients ? Le principal problème est d’estimer la probabilité conditionnelle à partir des données. Dans notre cas, nous représentons un objet avec une paire de nombres - couleur et taille, mais dans des problèmes plus complexes, la dimension des caractéristiques peut être plusieurs fois plus élevée et le nombre d'observations de notre liste avec des données historiques peut ne pas être suffisant pour estimer le probabilité d'une variable aléatoire multidimensionnelle. Ensuite, nous essaierons de généraliser notre concept d’erreur de classificateur et verrons également s’il est possible de sélectionner un autre classificateur pour résoudre le problème.

Pertes d'erreur du classificateur

Supposons que nous ayons déjà une règle de décision. Ensuite, il peut commettre deux types d'erreurs - la première consiste à affecter un objet à la classe 0, dont la classe réelle est 1, et vice versa, à affecter un objet à la classe 1, dont la classe réelle est 0. Dans certains problèmes, il est important pour distinguer ces cas. Par exemple, nous souffrons davantage lorsqu’une pomme étiquetée comme savoureuse s’avère insipide et vice versa. Nous formalisons le degré de notre inconfort dû aux attentes déçues dans le concept. Plus généralement, nous avons une fonction de perte qui renvoie un nombre pour chaque erreur du classificateur. Soyons une véritable étiquette de classe. La fonction de perte renvoie ensuite la valeur de perte pour l'étiquette de classe réelle et la valeur de notre règle de décision. Un exemple d'utilisation de cette fonction - nous prenons une pomme avec une classe connue, transmettons la pomme comme entrée à notre règle de décision, obtenons une estimation de la classe à partir de la règle de décision, si les valeurs correspondent, alors nous supposons que le classificateur ne s'est pas trompé et qu'il n'y a pas de pertes, si les valeurs ne correspondent pas, alors le montant de la perte dira notre fonction

Risque conditionnel et bayésien

Maintenant que nous disposons d’une fonction de perte et savons combien nous perdons en raison d’une mauvaise classification des objets, il serait bien de comprendre combien nous perdons en moyenne, sur de nombreux objets. Si nous connaissons la valeur - la probabilité que la pomme soit savoureuse, compte tenu des valeurs mesurées de couleur et de taille, ainsi que de la valeur réelle de la classe (par exemple, prenez une pomme de l'échantillon S, voir à la début de l'article), on peut alors introduire la notion de risque conditionnel. Le risque conditionnel est la valeur moyenne des pertes de l'installation pour la règle décisive :

Dans notre cas de classification binaire quand il s'avère :

Ci-dessus, nous avons décrit la règle de décision, qui attribue un objet à la classe qui a la valeur de probabilité la plus élevée. Cette règle fournit un minimum à nos pertes moyennes (risque bayésien), donc le classificateur bayésien est optimal du point de vue de la fonctionnelle de risque. nous avons présenté. Cela signifie que le classificateur bayésien présente la plus petite erreur de classification possible.

Quelques fonctions de perte typiques

L'une des fonctions de perte les plus courantes est une fonction symétrique, lorsque les pertes du premier et du deuxième types d'erreurs sont équivalentes. Par exemple, la fonction de perte 1-0 (perte zéro-un) est définie comme suit :

Alors le risque conditionnel pour a(x) = 1 sera simplement la valeur de la probabilité d'obtenir la classe 0 sur l'objet :

De même pour a(x) = 0 :

La fonction de perte 1-0 prend la valeur 1 si le classificateur fait une erreur sur l'objet et 0 sinon. Assurons-nous maintenant que la valeur de l'erreur n'est pas égale à 1, mais à une autre fonction Q, en fonction de la règle de décision et de l'étiquette de classe réelle :

Alors le risque conditionnel peut s’écrire comme suit :

Notes sur la notation

Le texte précédent a été rédigé selon la notation adoptée dans le livre de Duda et Hart. Dans le livre original de V.N. Vapnik a considéré le processus suivant : la nature sélectionne un objet selon la distribution $p(x)$, puis lui attribue une étiquette de classe selon la distribution conditionnelle $p(y|x)$. Ensuite, le risque (attente de pertes) est défini comme

Où est la fonction avec laquelle nous essayons d'approcher la dépendance inconnue, est la fonction de perte pour la valeur réelle et la valeur de notre fonction. Cette notation est plus claire afin d'introduire le concept suivant : le risque empirique.

Risque empirique

A ce stade, nous avons déjà découvert que la méthode logique ne nous convient pas, car elle n'est pas assez flexible, et nous ne pouvons pas utiliser le classificateur bayésien lorsqu'il y a beaucoup de fonctionnalités, mais qu'il y a un nombre limité de données d'apprentissage et que nous ne peut pas restaurer la probabilité. Nous savons également que le classificateur bayésien présente la plus petite erreur de classification possible. Puisque nous ne pouvons pas utiliser de classificateur bayésien, utilisons quelque chose de plus simple. Fixons une famille paramétrique de fonctions H et sélectionnons un classificateur dans cette famille.

Exemple : soit l'ensemble de toutes les fonctions du formulaire

Toutes les fonctions de cet ensemble ne différeront les unes des autres que par les coefficients. Lorsque nous avons choisi une telle famille, nous avons supposé que dans les coordonnées couleur-taille entre les points de classe 1 et les points de classe 0, nous pouvons tracer une ligne droite avec des coefficients dans un tel ensemble. manière dont les points de classes différentes sont situés le long de différents côtés de la ligne droite. On sait que pour une droite de ce type le vecteur coefficient est normal à la droite. Maintenant, nous faisons ceci - nous prenons notre pomme, mesurons sa couleur et sa taille et traçons le point avec les coordonnées obtenues sur le graphique dans les axes couleur-taille. Ensuite, nous mesurons l'angle entre ce point et le vecteur $w$. On remarque que notre point peut se situer soit d’un côté, soit de l’autre côté de la ligne droite. Ensuite, l'angle entre et le point sera soit aigu, soit obtus, et le produit scalaire sera soit positif, soit négatif. Cela nous amène à la règle décisive :

Après avoir fixé la classe de fonctions $H$, la question se pose : comment en sélectionner une fonction avec les coefficients requis ? La réponse est : choisissons la fonction qui minimise notre risque bayésien $R()$. Encore une fois, le problème est que pour calculer les valeurs de risque bayésiennes, il faut connaître la distribution $p(x,y)$, mais elle ne nous est pas donnée, et il n'est pas toujours possible de la restituer. Une autre idée consiste à minimiser les risques non pas sur tous les objets possibles, mais uniquement sur un échantillon. Ceux. fonction minimiser :

Cette fonction est appelée risque empirique. La question suivante est de savoir pourquoi nous avons décidé qu'en minimisant le risque empirique, nous minimisons également le risque bayésien ? Permettez-moi de vous rappeler que notre tâche pratique est de commettre le moins d'erreurs de classification possible. Moins il y a d’erreurs, plus le risque bayésien est faible. La justification de la convergence du risque empirique vers le risque bayésien avec l'augmentation du volume de données a été obtenue dans les années 70 par deux scientifiques - V. N. Vapnik et A. Ya Chervonenkis.

Garanties de convergence. Le cas le plus simple

Nous sommes donc arrivés à la conclusion que le classificateur bayésien donne la plus petite erreur possible, mais dans la plupart des cas, nous ne pouvons pas l'entraîner et nous sommes également incapables de calculer l'erreur (risque). Cependant, nous pouvons calculer une approximation du risque bayésien, appelée risque empirique, et connaissant le risque empirique, sélectionner une fonction d'approximation qui minimiserait le risque empirique. Examinons la situation la plus simple dans laquelle la minimisation du risque empirique produit un classificateur qui minimise également le risque bayésien. Pour le cas le plus simple, nous devrons faire une hypothèse rarement satisfaite en pratique, mais qui pourra être assouplie par la suite. Fixons une classe finie de fonctions dans laquelle nous sélectionnerons notre classificateur et supposons que la fonction réelle que la nature utilise pour classer nos pommes en goûts se trouve dans cet ensemble fini d'hypothèses : . Nous disposons également d'un échantillon obtenu à partir de la distribution sur les objets. Nous considérons que tous les objets échantillons sont également distribués indépendamment (iid). Alors ce qui suit sera vrai

Théorème

En sélectionnant une fonction dans une classe utilisant la minimisation empirique du risque, nous sommes assurés d'en trouver une telle qu'elle ait une petite valeur de risque bayésien si l'échantillon sur lequel nous effectuons la minimisation est de taille suffisante.

Que signifient « petite valeur » et « taille suffisante », voir la littérature ci-dessous.

Idée de preuve

D'après les conditions du théorème, on obtient un échantillon de la distribution, c'est-à-dire le processus de sélection des objets dans la nature est aléatoire. Chaque fois que nous prélevons un échantillon, celui-ci proviendra de la même distribution, mais les objets eux-mêmes peuvent être différents. L'idée principale de la preuve est que nous pouvons obtenir un échantillon si mauvais que l'algorithme que nous choisissons en minimisant le risque empirique sur cet échantillon sera mauvais pour minimiser le risque bayésien, mais en même temps il sera bon pour en minimisant le risque empirique, mais la probabilité d'obtenir un tel échantillon est faible et en augmentant la taille de l'échantillon, cette probabilité diminue. Des théorèmes similaires existent pour des hypothèses plus réalistes, mais nous ne les considérerons pas ici.

Résultats pratiques

Ayant la preuve que la fonction trouvée en minimisant le risque empirique n'aura pas d'erreur importante sur des données précédemment non observées avec une taille d'échantillon d'apprentissage suffisante, nous pouvons utiliser ce principe dans la pratique, par exemple, comme suit - nous prenons l'expression :

Et nous substituons différentes fonctions de perte, en fonction du problème à résoudre. Pour la régression linéaire :

Pour la régression logistique :

Bien que les machines à vecteurs de support aient une motivation principalement géométrique, elles peuvent également être considérées comme un problème empirique de minimisation des risques.

Conclusion

De nombreuses méthodes d'apprentissage supervisé peuvent être considérées, entre autres, comme des cas particuliers de la théorie développée par V. N. Vapnik et A. Ya Chervonenkis. Cette théorie fournit des garanties concernant l'erreur sur l'ensemble de test, à condition qu'il y ait une taille suffisante de l'échantillon d'apprentissage et certaines exigences pour l'espace d'hypothèses dans lequel nous recherchons notre algorithme.

Livres d'occasion

  • La nature de la théorie de l'apprentissage statistique, Vladimir N. Vapnik
  • Classification des modèles, 2e édition, Richard O. Duda, Peter E. Hart, David G. Stork
  • Comprendre l'apprentissage automatique : de la théorie aux algorithmes, Shai Shalev-Shwartz, Shai Ben-David
P.S. Veuillez écrire dans un message personnel pour toute inexactitude ou faute de frappe.

Balises : Ajouter des balises

  • Didacticiel

J'ai longtemps voulu écrire un article général contenant les bases mêmes de la reconnaissance d'images, une sorte de guide sur les méthodes de base, indiquant quand les utiliser, quels problèmes elles résolvent, ce qu'on peut faire le soir à genoux et ce qu'il faut faire. mieux vaut ne pas y penser sans avoir une équipe de personnes dans 20.

J'écris depuis longtemps des articles sur la reconnaissance optique, donc plusieurs fois par mois, diverses personnes m'écrivent pour me poser des questions sur ce sujet. Parfois, on a le sentiment de vivre avec eux dans des mondes différents. D'une part, vous comprenez que la personne est très probablement un professionnel dans un domaine connexe, mais qu'elle connaît très peu les méthodes de reconnaissance optique. Et le plus ennuyeux, c'est qu'il essaie d'appliquer une méthode d'un domaine de connaissances proche, ce qui est logique, mais ne fonctionne pas complètement en reconnaissance d'images, mais il ne comprend pas cela et est très offensé si vous commencez à lui dire quelque chose à partir des bases. Et étant donné que raconter à partir des bases prend beaucoup de temps, ce qui n'est souvent pas disponible, cela devient encore plus triste.

Cet article est destiné à ce qu'une personne qui n'a jamais travaillé avec des méthodes de reconnaissance d'images puisse, en 10 à 15 minutes, créer dans sa tête une certaine image de base du monde qui correspond au sujet et comprendre dans quelle direction creuser. La plupart des techniques décrites ici sont applicables au traitement radar et audio.
Je vais commencer par quelques principes que nous commençons toujours à expliquer à un client potentiel ou à une personne qui souhaite commencer à utiliser la reconnaissance optique :

  • Lorsque vous résolvez un problème, partez toujours du plus simple. Il est beaucoup plus facile de mettre une étiquette orange sur une personne que de suivre une personne en la mettant en valeur en cascade. Il est beaucoup plus facile de prendre un appareil photo avec une résolution plus élevée que de développer un algorithme de super-résolution.
  • Une formulation stricte du problème dans les méthodes de reconnaissance optique est d'un ordre de grandeur plus importante que dans les problèmes de programmation système : un mot supplémentaire dans la spécification technique peut ajouter 50 % du travail.
  • Il n’existe pas de solutions universelles aux problèmes de reconnaissance. Vous ne pouvez pas créer un algorithme qui « reconnaîtrait simplement n’importe quelle inscription ». Un panneau dans la rue et une feuille de texte sont des objets fondamentalement différents. Il est probablement possible de créer un algorithme général (voici un bon exemple de Google), mais cela nécessitera beaucoup de travail de la part d'une grande équipe et sera composé de dizaines de sous-programmes différents.
  • OpenCV est une bible qui propose de nombreuses méthodes et peut résoudre 50 % de presque tous les problèmes, mais OpenCV ne représente qu'une petite partie de ce qui peut réellement être fait. Dans une étude, les conclusions ont été écrites : « Le problème ne peut pas être résolu en utilisant les méthodes OpenCV, il est donc insoluble. » Essayez d'éviter cela, ne soyez pas paresseux et évaluez sobrement la tâche en cours à partir de zéro à chaque fois, sans utiliser de modèles OpenCV.
Il est très difficile de donner des conseils universels ou d'indiquer comment créer une sorte de structure autour de laquelle vous pouvez construire une solution à des problèmes arbitraires de vision par ordinateur. Le but de cet article est de structurer ce qui peut être utilisé. Je vais essayer de diviser les méthodes existantes en trois groupes. Le premier groupe est le filtrage préliminaire et la préparation de l'image. Le deuxième groupe est le traitement logique des résultats du filtrage. Le troisième groupe concerne les algorithmes de prise de décision basés sur un traitement logique. Les frontières entre les groupes sont très arbitraires. Pour résoudre un problème, il n’est pas toujours nécessaire d’utiliser les méthodes de tous les groupes ; parfois deux suffisent, parfois même une.

La liste des méthodes données ici n'est pas complète. Je suggère d'ajouter des méthodes critiques dans les commentaires que je n'ai pas écrits et d'attribuer 2-3 mots d'accompagnement à chacune.

Partie 1. Filtration

Dans ce groupe j'ai placé des méthodes qui permettent de sélectionner des zones d'intérêt dans les images sans les analyser. La plupart de ces méthodes appliquent une sorte de transformation unique à tous les points de l'image. Au niveau du filtrage, aucune analyse d'image n'est effectuée, mais les points qui passent le filtrage peuvent être considérés comme des zones présentant des caractéristiques particulières.
Binarisation par seuil, sélection de zone d'histogramme
La transformation la plus simple est la binarisation de l'image par seuil. Pour les images RVB et en niveaux de gris, le seuil est la valeur de couleur. Il existe des problèmes idéaux dans lesquels une telle transformation est suffisante. Supposons que vous souhaitiez sélectionner automatiquement des objets sur une feuille de papier blanche :




Le choix du seuil auquel se produit la binarisation détermine en grande partie le processus de binarisation lui-même. Dans ce cas, l’image a été binarisée par la couleur moyenne. Généralement, la binarisation est effectuée à l'aide d'un algorithme qui sélectionne un seuil de manière adaptative. Un tel algorithme peut être le choix d'une attente ou d'un mode. Ou vous pouvez sélectionner le plus grand pic de l'histogramme.

La binarisation peut donner des résultats très intéressants lorsqu'on travaille avec des histogrammes, y compris dans le cas où l'on considère une image non pas en RVB, mais en HSV. Par exemple, segmentez les couleurs qui vous intéressent. Sur ce principe, vous pouvez construire à la fois un détecteur d'étiquettes et un détecteur de peau humaine.
Filtrage classique : Fourier, filtre passe-bas, filtre passe-haut
Les méthodes classiques de filtrage radar et de traitement du signal peuvent être appliquées avec succès à diverses tâches de reconnaissance de formes. Une méthode traditionnelle en radar, qui n'est presque jamais utilisée dans les images sous forme pure, est la transformée de Fourier (plus précisément la FFT). L'une des rares exceptions dans lesquelles la transformée de Fourier unidimensionnelle est utilisée est la compression d'image. Pour l'analyse d'images, une transformation unidimensionnelle n'est généralement pas suffisante ; vous devez utiliser une transformation bidimensionnelle beaucoup plus gourmande en ressources.

Peu de gens le calculent réellement ; généralement, il est beaucoup plus rapide et plus facile d’utiliser la convolution de la zone d’intérêt avec un filtre prêt à l’emploi, réglé pour les fréquences hautes (HPF) ou basses (LPF). Bien entendu, cette méthode ne permet pas d'analyser le spectre, mais dans une tâche de traitement vidéo spécifique, ce qui est généralement nécessaire n'est pas l'analyse, mais le résultat.


Les exemples les plus simples de filtres mettant l'accent sur les basses fréquences (filtre gaussien) et les hautes fréquences (filtre Gabor).
Pour chaque point image, une fenêtre est sélectionnée et multipliée par un filtre de même taille. Le résultat d’une telle convolution est une nouvelle valeur en points. Lors de la mise en œuvre de filtres passe-bas et de filtres passe-haut, des images du type suivant sont obtenues :



Ondelettes
Mais que se passe-t-il si nous utilisons une fonction caractéristique arbitraire pour la convolution avec le signal ? On l'appellera alors "Transformation en ondelette". Cette définition des ondelettes n'est pas correcte, mais traditionnellement, dans de nombreuses équipes, l'analyse des ondelettes est la recherche d'un motif arbitraire dans une image par convolution avec un modèle de ce motif. Il existe un ensemble de fonctions classiques utilisées dans l'analyse par ondelettes. Il s'agit notamment de l'ondelette de Haar, de l'ondelette de Morlet, de l'ondelette du chapeau mexicain, etc. Les primitives Haar, sur lesquelles il y avait plusieurs de mes articles précédents (,), concernent de telles fonctions pour un espace bidimensionnel.


Ci-dessus, 4 exemples d'ondelettes classiques. Ondelette de Haar en 3 dimensions, ondelette de Meyer en 2 dimensions, ondelette de Chapeau Mexicain, ondelette de Daubechies. Un bon exemple d’utilisation de l’interprétation étendue des ondelettes est le problème de la recherche d’un éblouissement dans l’œil, pour lequel l’ondelette est l’éblouissement lui-même :

Les ondelettes classiques sont généralement utilisées pour la compression d'images ou pour la classification d'images (à décrire ci-dessous).
Corrélation
Après une interprétation aussi libre des ondelettes de ma part, il convient de mentionner la corrélation réelle qui les sous-tend. C'est un outil indispensable pour filtrer les images. Une application classique consiste à corréler un flux vidéo pour trouver des décalages ou des flux optiques. Le détecteur de décalage le plus simple est aussi, dans un sens, un corrélateur de différence. Là où les images ne correspondaient pas, il y avait du mouvement.

Fonctions de filtrage
Une classe intéressante de filtres est le filtrage des fonctions. Ce sont des filtres purement mathématiques qui permettent de détecter une fonction mathématique simple dans une image (ligne, parabole, cercle). Une image accumulée est construite, dans laquelle pour chaque point de l'image originale est dessiné un ensemble de fonctions qui la génèrent. La transformation la plus classique est la transformation de Hough pour les lignes. Dans cette transformation, pour chaque point (x;y), on trace un ensemble de points (a;b) de la droite y=ax+b pour lesquels l'égalité est vraie. Vous obtenez de belles images :


(le premier plus est pour celui qui est le premier à trouver un piège dans l'image et cette définition et à l'expliquer, le deuxième plus est pour celui qui est le premier à dire ce qui est montré ici)
La transformée de Hough vous permet de trouver toutes les fonctions paramétrables. Par exemple des cercles. Il existe une transformation modifiée qui vous permet de rechercher n'importe quelle forme. Les mathématiciens sont terriblement friands de cette transformation. Mais lors du traitement des images, cela ne fonctionne malheureusement pas toujours. Vitesse de fonctionnement très lente, très grande sensibilité à la qualité de binarisation. Même dans des situations idéales, j’ai préféré me contenter d’autres méthodes.
Un analogue de la transformée de Hough pour les lignes droites est la transformée de Radon. Il est calculé via FFT, ce qui donne un gain de performances dans une situation où il y a beaucoup de points. De plus, il peut être appliqué à une image non binarisée.
Filtrage des contours
Une classe distincte de filtres est le filtrage des bordures et des contours. Les contours sont très utiles lorsque nous voulons passer du travail avec une image au travail avec les objets de cette image. Lorsqu'un objet est assez complexe, mais clairement distinguable, la seule façon de travailler avec lui est souvent de sélectionner ses contours. Il existe un certain nombre d'algorithmes qui résolvent le problème du filtrage des contours :

Le plus souvent c'est Canny qui est utilisé, qui fonctionne bien et dont l'implémentation est en OpenCV (Sobel est là aussi, mais il cherche des contours pires).



Autres filtres
Ci-dessus se trouvent des filtres dont les modifications aident à résoudre 80 à 90 % des problèmes. Mais à côté d'eux, il existe des filtres plus rares utilisés dans les tâches locales. Il existe des dizaines de filtres de ce type, je ne les énumérerai pas tous. Les filtres itératifs (par exemple, un modèle d'apparence actif) sont intéressants, ainsi que les transformations en crête et en courbure, qui sont une fusion du filtrage et de l'analyse par ondelettes classiques dans le domaine de la transformation du radon. La transformation en faisceaux fonctionne à merveille à la frontière de la transformation en ondelettes et de l'analyse logique, vous permettant de mettre en évidence les contours :

Mais ces transformations sont très spécifiques et adaptées à des tâches rares.

Partie 2. Traitement logique des résultats de filtrage

Le filtrage fournit un ensemble de données adaptées au traitement. Mais souvent, vous ne pouvez pas simplement récupérer et utiliser ces données sans les traiter. Dans cette section, nous présenterons plusieurs méthodes classiques qui permettent de passer d'une image aux propriétés des objets, ou aux objets eux-mêmes.
Morphologie
Le passage du filtrage à la logique, à mon avis, ce sont les méthodes de morphologie mathématique (, ,). Essentiellement, ce sont les opérations les plus simples de croissance et d’érosion d’images binaires. Ces méthodes permettent de supprimer le bruit d'une image binaire en augmentant ou en diminuant les éléments existants. Il existe des algorithmes de contouring basés sur la morphologie mathématique, mais on utilise généralement des algorithmes hybrides ou des algorithmes combinés.
Analyse de contour
Des algorithmes pour obtenir des limites ont déjà été évoqués dans la section sur le filtrage. Les frontières ainsi obtenues sont tout simplement converties en contours. Pour l'algorithme Canny, cela se produit automatiquement ; pour les autres algorithmes, une binarisation supplémentaire est requise. Vous pouvez obtenir un contour pour un algorithme binaire, par exemple en utilisant l'algorithme Beetle.
Un contour est une caractéristique unique d’un objet. Cela permet souvent d'identifier un objet par son contour. Il existe un puissant appareil mathématique qui vous permet de le faire. L'appareil s'appelle analyse de contour (,).

Pour être honnête, je n'ai jamais pu appliquer l'analyse de contour à des problèmes réels. Des conditions trop idéales sont nécessaires. Soit il n’y a pas de frontière, soit il y a trop de bruit. Mais si vous avez besoin de reconnaître quelque chose dans des conditions idéales, l’analyse des contours est une excellente option. Cela fonctionne très rapidement, de belles mathématiques et une logique claire.
Points spéciaux
Les points singuliers sont des caractéristiques uniques d'un objet qui permettent de comparer l'objet avec lui-même ou avec des classes d'objets similaires. Il existe plusieurs dizaines de façons d'identifier de tels points. Certaines méthodes identifient des points spéciaux dans des images adjacentes, d'autres après une longue période de temps et lorsque l'éclairage change, d'autres vous permettent de trouver des points spéciaux qui le restent même lorsque l'objet est pivoté. Commençons par des méthodes qui permettent de trouver des points particuliers, qui ne sont pas si stables, mais qui sont rapidement calculés, puis nous irons dans une complexité croissante :
Première année. Points spéciaux stables sur une période de quelques secondes. De tels points sont utilisés pour guider un objet entre des images vidéo adjacentes ou pour combiner des images de caméras voisines. Ces points incluent les maxima locaux de l'image, les coins de l'image (le meilleur des détecteurs est peut-être le détecteur Charis), les points auxquels la dispersion maximale est atteinte, certains gradients, etc.
Seconde classe. Points spéciaux stables lors des changements d'éclairage et des petits mouvements de l'objet. Ces points servent principalement à la formation et à la classification ultérieure des types d'objets. Par exemple, un classificateur piéton ou un classificateur facial est le produit d'un système construit précisément sur de tels points. Certaines des ondelettes mentionnées précédemment peuvent constituer la base de ces points. Par exemple, les primitives Haar, recherchent des faits saillants, recherchent d'autres fonctions spécifiques. Ces points incluent ceux trouvés par la méthode de l'histogramme des gradients directionnels (HOG).
Troisième classe. Points stables. Je ne connais que deux méthodes offrant une stabilité totale et leurs modifications. Ce sont SURF et SIFT. Ils vous permettent de trouver des points spéciaux même lorsque vous faites pivoter l'image. Le calcul de ces points prend plus de temps que d’autres méthodes, mais le temps est assez limité. Malheureusement, ces méthodes sont brevetées. Bien qu'en Russie, il soit impossible de breveter des algorithmes, utilisez-les donc pour le marché intérieur.

Partie 3. Formation

La troisième partie du récit sera consacrée aux méthodes qui ne fonctionnent pas directement avec l'image, mais qui permettent de prendre des décisions. Il s’agit essentiellement de diverses méthodes d’apprentissage automatique et de prise de décision. Récemment, Yandyx a publié un cours sur ce sujet sur Habr, il y en a une très bonne sélection. Le voici dans la version texte. Pour une étude sérieuse du sujet, je recommande fortement de les regarder. Ici, je vais essayer de décrire plusieurs méthodes principales utilisées spécifiquement dans la reconnaissance de formes.
Dans 80 % des situations, l'essence de l'apprentissage dans la tâche de reconnaissance est la suivante :
Il existe un exemple de test qui contient plusieurs classes d'objets. Que ce soit la présence/absence d'une personne sur la photo. Pour chaque image, il existe un ensemble de caractéristiques qui ont été mises en évidence par une caractéristique, que ce soit Haar, HOG, SURF ou une ondelette. L'algorithme d'apprentissage doit construire un modèle afin de pouvoir analyser une nouvelle image et décider quel objet se trouve dans l'image.
Comment c'est fait? Chacune des images de test est un point dans l'espace des fonctionnalités. Ses coordonnées sont le poids de chacune des caractéristiques de l'image. Que nos signes soient : « Présence d'yeux », « Présence d'un nez », « Présence de deux mains », « Présence d'oreilles », etc... Nous mettrons en évidence tous ces signes à l'aide de nos détecteurs existants, entraînés sur parties du corps semblables à celles de l'humain Pour une personne dans un tel espace, le point correct serait. Pour le singe, point pour le cheval. Le classificateur est formé à l'aide d'un échantillon d'exemples. Mais toutes les photographies ne montraient pas des mains, d’autres n’avaient pas d’yeux et sur la troisième, le singe avait un nez humain en raison d’une erreur de classificateur. Un classificateur humain entraîné divise automatiquement l'espace des fonctionnalités de manière à dire : si la première fonctionnalité se situe dans la plage 0,5 Essentiellement, l'objectif du classificateur est de dessiner des zones dans l'espace des caractéristiques qui sont caractéristiques des objets de classification. Voici à quoi ressemblera une approximation séquentielle de la réponse pour l'un des classificateurs (AdaBoost) dans un espace bidimensionnel :


Il existe de nombreux classificateurs. Chacun d’eux fonctionne mieux dans une tâche particulière. La tâche consistant à sélectionner un classificateur pour une tâche spécifique est en grande partie un art. Voici quelques belles photos sur le sujet.
Cas simple, séparation unidimensionnelle
Regardons un exemple du cas de classification le plus simple, lorsque l'espace des fonctionnalités est unidimensionnel et que nous devons séparer 2 classes. Cette situation se produit plus souvent que vous ne le pensez : par exemple, lorsque vous devez distinguer deux signaux ou comparer un modèle avec un échantillon. Ayons un échantillon de formation. Cela produit une image où l'axe X est la mesure de similarité et l'axe Y est le nombre d'événements avec une telle mesure. Lorsque l’objet recherché est similaire à lui-même, une gaussienne gauche est obtenue. Quand ça n’y ressemble pas, c’est le bon. La valeur de X=0,4 sépare les échantillons de sorte qu'une mauvaise décision minimise la probabilité de prendre une mauvaise décision. La recherche d'un tel séparateur relève de la classification.


Une petite remarque. Le critère qui minimise l’erreur ne sera pas toujours optimal. Le graphique suivant est un graphique d'un véritable système de reconnaissance de l'iris. Pour un tel système, le critère est choisi pour minimiser la probabilité de fausse admission d'une personne non autorisée dans l'établissement. Cette probabilité est appelée « erreur de type I », « probabilité de fausse alarme », « faux positif ». Dans la littérature anglaise « False Access Rate ».
) AdaBusta est l'un des classificateurs les plus courants. Par exemple, la cascade Haar y est construite. Généralement utilisé lorsqu'une classification binaire est nécessaire, mais rien n'empêche de s'entraîner pour un plus grand nombre de classes.
SVM ( , , , ) L'un des classificateurs les plus puissants, qui a de nombreuses implémentations. Fondamentalement, sur les tâches d'apprentissage que j'ai rencontrées, cela a fonctionné de la même manière qu'Adabusta. Il est considéré comme assez rapide, mais son entraînement est plus difficile que celui d'Adabusta et nécessite de choisir le bon noyau.

Il existe également des réseaux de neurones et la régression. Mais pour les classer brièvement et montrer en quoi ils diffèrent, nous avons besoin d’un article beaucoup plus long que celui-ci.
________________________________________________
J'espère avoir pu donner un aperçu rapide des méthodes utilisées sans plonger dans les mathématiques et la description. Peut-être que cela aidera quelqu'un. Bien que, bien sûr, l'article soit incomplet et qu'il n'y ait pas un mot sur le travail avec des images stéréo, ni sur le LSM avec un filtre de Kalman, ni sur l'approche adaptative de Bayes.
Si vous aimez l'article, je vais essayer de faire une deuxième partie avec une sélection d'exemples de la façon dont les problèmes existants de ImageRecognition sont résolus.

et enfin

Que lire ?
1) J'ai déjà beaucoup aimé le livre « Digital Image Processing » de B. Yane, qui est écrit simplement et clairement, mais en même temps presque toutes les mathématiques sont données. Bon pour se familiariser avec les méthodes existantes.
2) Un classique du genre est R. Gonzalez, R. Woods « Digital Image Processing ». Pour une raison quelconque, c'était plus difficile pour moi que le premier. Beaucoup moins de mathématiques, mais plus de méthodes et d'images.
3) « Traitement et analyse d'images dans les problèmes de vision par ordinateur » - rédigé sur la base d'un cours dispensé dans l'un des départements de physique et de technologie. Il existe de nombreuses méthodes et leurs descriptions détaillées. Mais à mon avis, le livre présente deux gros inconvénients : le livre est fortement axé sur le progiciel qui l'accompagne, dans le livre la description d'une méthode simple se transforme trop souvent en une jungle mathématique, d'où il est difficile de sortir. dériver le schéma structurel de la méthode. Mais les auteurs ont créé un site Web pratique où presque tout le contenu est présenté - wiki.technicalvision.ru Ajouter des balises

En général, trois méthodes de reconnaissance de formes peuvent être distinguées : Méthode par force brute. Dans ce cas, une comparaison est effectuée avec une base de données, où pour chaque type d'objet diverses modifications d'affichage sont présentées. Par exemple, pour la reconnaissance optique de formes, vous pouvez utiliser la méthode d'énumération de l'apparence d'un objet sous différents angles, échelles, déplacements, déformations, etc. Pour les lettres, vous devez énumérer la police, les propriétés de la police, etc. de reconnaissance d'images sonores, une comparaison est donc effectuée avec certains modèles connus (par exemple, un mot prononcé par plusieurs personnes).

La deuxième approche implique une analyse plus approfondie des caractéristiques de l’image. Dans le cas de la reconnaissance optique, il peut s'agir de la détermination de diverses caractéristiques géométriques. Dans ce cas, l’échantillon sonore est soumis à une analyse de fréquence, d’amplitude, etc.

La méthode suivante consiste à utiliser des réseaux de neurones artificiels (ANN). Cette méthode nécessite soit un grand nombre d'exemples de tâche de reconnaissance lors de l'entraînement, soit une structure de réseau neuronal particulière prenant en compte les spécificités de cette tâche. Cependant, il offre une efficacité et une productivité plus élevées.

4. Histoire de la reconnaissance des formes

Considérons brièvement le formalisme mathématique de la reconnaissance de formes. Un objet en reconnaissance de formes est décrit par un ensemble de caractéristiques de base (caractéristiques, propriétés). Les caractéristiques principales peuvent être de nature différente : elles peuvent être tirées d'un ensemble ordonné de type ligne réelle, ou d'un ensemble discret (qui peut cependant aussi être doté de structure). Cette compréhension d'un objet est cohérente à la fois avec le besoin d'applications pratiques de la reconnaissance de formes et avec notre compréhension du mécanisme de perception humaine des objets. En effet, nous pensons que lorsqu'une personne observe (mesure) un objet, les informations le concernant arrivent au cerveau via un nombre fini de capteurs (canaux analysés), et chaque capteur peut être associé à une caractéristique correspondante de l'objet. En plus des caractéristiques qui correspondent à nos mesures de l'objet, il existe également une caractéristique sélectionnée, ou un groupe de caractéristiques, que nous appelons caractéristiques de classification, et découvrir leurs valeurs pour un vecteur X donné est la tâche effectuée par systèmes de reconnaissance naturelle et artificielle.

Il est clair que pour établir les valeurs de ces caractéristiques, il est nécessaire de disposer d'informations sur la façon dont les caractéristiques connues sont liées aux caractéristiques de classification. Les informations sur cette connexion sont données sous forme de précédents, c'est-à-dire un ensemble de descriptions d'objets avec des valeurs connues de caractéristiques de classification. Et sur la base de ces informations précédentes, il est nécessaire de construire une règle de décision qui attribuera à une description arbitraire d'un objet les valeurs de ses caractéristiques de classification.

Cette compréhension du problème de la reconnaissance des formes est établie dans la science depuis les années 50 du siècle dernier. Et puis on s’est rendu compte qu’une telle production n’était pas du tout nouvelle. Nous avons rencontré une formulation similaire et il existait déjà des méthodes d'analyse de données statistiques assez éprouvées, qui étaient activement utilisées pour de nombreux problèmes pratiques, comme, par exemple, les diagnostics techniques. Ainsi, les premiers pas de la reconnaissance de formes se sont déroulés sous le signe d’une approche statistique, qui a dicté les principaux problèmes.

L'approche statistique est basée sur l'idée que l'espace originel des objets est un espace probabiliste et que les signes (caractéristiques) des objets sont des variables aléatoires qui y sont spécifiées. Ensuite, la tâche du data scientist était, sur la base de certaines considérations, d'émettre une hypothèse statistique sur la répartition des caractéristiques, ou plus précisément, sur la dépendance des caractéristiques de classification les unes par rapport aux autres. L'hypothèse statistique, en règle générale, était un ensemble défini paramétriquement de fonctions de distribution de caractéristiques. Une hypothèse statistique typique et classique est l'hypothèse sur la normalité de cette distribution (les statisticiens ont proposé de très nombreuses variétés de telles hypothèses). Après avoir formulé l’hypothèse, il restait à tester cette hypothèse sur des données précédentes. Ce test consistait à sélectionner une certaine distribution parmi un ensemble de distributions initialement spécifié (paramètre de l'hypothèse de distribution) et à évaluer la fiabilité (intervalle de confiance) de ce choix. En fait, cette fonction de distribution était la réponse au problème, seulement l'objet n'était plus classé sans ambiguïté, mais avec certaines probabilités d'appartenance à des classes. Les statisticiens ont également développé une justification asymptotique pour de telles méthodes. De telles justifications ont été faites selon le schéma suivant : une certaine fonctionnelle pour la qualité du choix de distribution a été établie (intervalle de confiance) et il a été montré qu'avec une augmentation du nombre de précédents, notre choix avec une probabilité tendant vers 1 devenait correct dans le sens de cette fonctionnelle (intervalle de confiance tendant vers 0). Pour l'avenir, nous dirons que la vision statistique du problème de la reconnaissance s'est avérée très fructueuse non seulement en termes d'algorithmes développés (qui incluent des méthodes d'analyse clusterisée et discriminante, de régression non paramétrique, etc.), mais a également mené par la suite Vapnik à la création d'une théorie statistique profonde de la reconnaissance.

Cependant, il existe un argument solide selon lequel les problèmes de reconnaissance de formes ne peuvent pas être réduits aux statistiques. En principe, tout problème de ce type peut être considéré d'un point de vue statistique et les résultats de sa solution peuvent être interprétés statistiquement. Pour ce faire, il suffit de supposer que l’espace objet du problème est probabiliste. Mais du point de vue de l'instrumentalisme, le critère de succès d'une interprétation statistique d'une certaine méthode de reconnaissance ne peut être que la présence d'une justification de cette méthode dans le langage de la statistique en tant que branche des mathématiques. La justification signifie ici le développement d'exigences de base pour la tâche qui garantissent le succès de l'application de cette méthode. Cependant, à l'heure actuelle, pour la plupart des méthodes de reconnaissance, y compris celles directement nées dans le cadre de l'approche statistique, de telles justifications satisfaisantes n'ont pas été trouvées. De plus, les algorithmes statistiques les plus couramment utilisés à l'heure actuelle, comme le discriminant linéaire de Fisher, la fenêtre de Parzen, l'algorithme EM, la méthode du plus proche voisin, sans oublier les réseaux de croyances bayésiens, ont un caractère fortement heuristique et peuvent avoir des interprétations qui diffèrent des statistiques. Et enfin, à tout ce qui précède, il faut ajouter qu'outre le comportement asymptotique des méthodes de reconnaissance, qui est l'enjeu principal des statistiques, la pratique de la reconnaissance soulève des questions de complexité computationnelle et structurelle des méthodes qui vont bien au-delà la seule portée de la théorie des probabilités.

Ainsi, contrairement aux aspirations des statisticiens de considérer la reconnaissance de formes comme une branche des statistiques, des idées complètement différentes ont été incluses dans la pratique et l'idéologie de la reconnaissance. L’un d’eux est né de recherches dans le domaine de la reconnaissance visuelle des formes et repose sur l’analogie suivante.

Comme déjà indiqué, dans la vie de tous les jours, les gens résolvent constamment (souvent inconsciemment) des problèmes de reconnaissance de diverses situations, images auditives et visuelles. Une telle capacité pour les ordinateurs est, au mieux, une chose du futur. Ainsi, certains pionniers de la reconnaissance de formes ont conclu que la résolution de ces problèmes sur ordinateur devrait, en termes généraux, modéliser les processus de la pensée humaine. La tentative la plus célèbre pour aborder le problème sous cet angle fut la célèbre étude de F. Rosenblatt sur les perceptrons.

Au milieu des années 50, il semblait que les neurophysiologistes avaient compris les principes physiques du cerveau (dans le livre « The New Mind of the King », le célèbre physicien théoricien britannique R. Penrose remet en question de manière intéressante le modèle du réseau neuronal du cerveau, justifiant le rôle important des effets de la mécanique quantique dans son fonctionnement, même si ce modèle a été remis en question dès le début. Sur la base de ces découvertes, F. Rosenblatt a développé un modèle d'apprentissage de la reconnaissance visuelle d'images, qu'il a appelé le perceptron de Rosenblatt, qui représente. la fonction suivante (Fig. 1) :

Figure 1. Circuit Perceptron

En entrée, le perceptron reçoit un vecteur objet qui, dans le travail de Rosenblatt, était un vecteur binaire montrant lequel des pixels de l’écran est noirci par l’image et lequel ne l’est pas. Ensuite, chacun des signes est transmis à l'entrée d'un neurone dont l'action est une simple multiplication par un certain poids du neurone. Les résultats sont transmis au dernier neurone, qui les additionne et compare le montant total à un certain seuil. En fonction des résultats de la comparaison, l'objet d'entrée X est reconnu comme requis ou non. Ensuite, la tâche d'enseigner la reconnaissance des formes consistait à sélectionner les poids des neurones et les valeurs seuils afin que le perceptron donne des réponses correctes sur les images visuelles précédentes. Rosenblatt pensait que la fonction résultante serait efficace pour reconnaître l'image visuelle souhaitée même si l'objet d'entrée ne faisait pas partie des précédents. Pour des raisons bioniques, il a également proposé une méthode de sélection des poids et des seuils, sur laquelle nous ne nous attarderons pas. Disons simplement que son approche s’est avérée efficace sur un certain nombre de problèmes de reconnaissance et a donné naissance à toute une direction de recherche sur les algorithmes d’apprentissage basés sur les réseaux de neurones, dont un cas particulier est le perceptron.

De plus, diverses généralisations du perceptron ont été inventées, la fonction des neurones était compliquée : les neurones pouvaient désormais non seulement multiplier les nombres d'entrée ou les additionner et comparer le résultat avec des seuils, mais aussi appliquer des fonctions plus complexes par rapport à eux. La figure 2 montre l'une de ces complications neuronales :

Riz. 2 Schéma d'un réseau de neurones.

De plus, la topologie du réseau de neurones pourrait être bien plus complexe que celle envisagée par Rosenblatt, par exemple ceci :

Riz. 3. Schéma du réseau neuronal de Rosenblatt.

Les complications ont conduit à une augmentation du nombre de paramètres réglables pendant l'entraînement, mais ont en même temps augmenté la capacité de s'adapter à des modèles très complexes. Les recherches dans ce domaine se déroulent désormais dans deux directions étroitement liées : diverses topologies de réseau et diverses méthodes de configuration sont étudiées.

Les réseaux de neurones ne sont actuellement pas seulement un outil pour résoudre les problèmes de reconnaissance de formes, mais ont également été utilisés dans la recherche sur la mémoire associative et la compression d'images. Bien que ce domaine de recherche recoupe fortement les problèmes de reconnaissance de formes, il représente une branche distincte de la cybernétique. Pour un reconnaisseur à l'heure actuelle, les réseaux de neurones ne sont rien de plus qu'un ensemble de mappages très spécifiquement définis et paramétriques, qui, en ce sens, ne présente aucun avantage significatif par rapport à de nombreux autres modèles d'apprentissage similaires qui seront brièvement répertoriés ci-dessous.

A propos de cette évaluation du rôle des réseaux de neurones pour la reconnaissance elle-même (c'est-à-dire pas pour la bionique, pour laquelle ils revêtent désormais une importance primordiale), je voudrais noter ce qui suit : les réseaux de neurones, étant un objet extrêmement complexe pour les mathématiques L'analyse, lorsqu'elle est utilisée correctement, permet de trouver des lois très non triviales dans les données. Leur difficulté d'analyse s'explique en général par leur structure complexe et, par conséquent, par des possibilités pratiquement inépuisables de généraliser une grande variété de modèles. Mais ces avantages, comme cela arrive souvent, sont source d’erreurs potentielles et de possibilités de reconversion. Comme nous le verrons ci-dessous, une telle double vision des perspectives de tout modèle d’apprentissage est l’un des principes de l’apprentissage automatique.

Une autre direction populaire en matière de reconnaissance est celle des règles logiques et des arbres de décision. En comparaison avec les méthodes de reconnaissance mentionnées ci-dessus, ces méthodes utilisent le plus activement l'idée d'exprimer nos connaissances sur le domaine sous la forme probablement des structures les plus naturelles (à un niveau conscient) - des règles logiques. Une règle logique élémentaire signifie une déclaration telle que « si les entités inclassables sont dans la relation X, alors celles classées sont dans la relation Y ». Un exemple d'une telle règle dans le diagnostic médical est le suivant : si le patient a plus de 60 ans et a déjà subi une crise cardiaque, n'effectuez pas l'opération - le risque d'issue négative est élevé.

Pour rechercher des règles logiques dans les données, deux choses sont nécessaires : déterminer la mesure du « caractère informatif » de la règle et l'espace des règles. Et la tâche de recherche de règles se transforme alors en une tâche d'énumération complète ou partielle dans l'espace des règles afin de retrouver la plus informative d'entre elles. La définition du contenu de l'information peut être introduite de diverses manières, et nous ne nous y attarderons pas, considérant qu'il s'agit également d'un certain paramètre du modèle. L'espace de recherche est défini de manière standard.

Après avoir trouvé des règles suffisamment informatives, la phase « d’assemblage » des règles dans le classificateur final commence. Sans aborder en profondeur les problèmes qui se posent ici (et ils sont un nombre considérable), nous énumérerons 2 méthodes principales de « montage ». Le premier type est une liste linéaire. Le deuxième type est le vote pondéré, lorsque chaque règle se voit attribuer un certain poids et que l'objet est attribué par le classificateur à la classe pour laquelle le plus grand nombre de règles ont été votées.

En effet, la phase de construction des règles et la phase « d'assemblage » sont effectuées ensemble et, lors de la construction d'un vote ou d'une liste pondérée, la recherche de règles sur des parties des données du cas est appelée encore et encore pour assurer une meilleure adéquation entre les données et le modèle. .



Avez-vous aimé l'article? Partage avec tes amis!