Linguistique computationnelle. Lexicographie théorique et informatique

Linguistique computationnelle : méthodes, ressources, applications

Introduction

Terme linguistique informatique(CL) est devenu de plus en plus courant ces dernières années en relation avec le développement de divers systèmes logiciels d'application, y compris des produits logiciels commerciaux. Cela est dû à la croissance rapide de l'information textuelle dans la société, y compris sur Internet, et à la nécessité d'un traitement automatique des textes en langue naturelle (NL). Cette circonstance stimule le développement de la linguistique informatique en tant que domaine scientifique et le développement de nouvelles technologies de l'information et linguistiques.

Dans le cadre de la linguistique computationnelle, qui existe depuis plus de 50 ans (et est également connue sous le nom de linguistique automatique, traitement automatique de texte aux Pays-Bas) de nombreuses méthodes et idées prometteuses ont été proposées, mais toutes n'ont pas encore trouvé leur expression dans des produits logiciels utilisés dans la pratique. Notre objectif est de caractériser les spécificités de ce domaine de recherche, de formuler ses tâches principales, d'indiquer ses liens avec d'autres sciences, de donner un bref aperçu des principales approches et ressources utilisées, et également de caractériser brièvement les applications existantes du CL. Pour une introduction plus détaillée à ces questions, nous pouvons vous recommander des livres.

1. Problèmes de linguistique computationnelle

La linguistique informatique est née à l'intersection de sciences telles que la linguistique, les mathématiques, l'informatique (Computer Science) et l'intelligence artificielle. Les origines de CL remontent aux recherches du célèbre scientifique américain N. Chomsky dans le domaine de la formalisation de la structure du langage naturel ; son développement s'appuie sur des résultats dans le domaine de la linguistique générale (linguistique). La linguistique étudie les lois générales du langage naturel - sa structure et son fonctionnement, et comprend les domaines suivants :

Ø Phonologie– étudie les sons de la parole et les règles de leur connexion lors de la formation de la parole ;

Ø Morphologie– traite de la structure interne et de la forme externe des mots du discours, y compris les parties du discours et leurs catégories ;

Ø Syntaxe– étudie la structure des phrases, les règles de compatibilité et l'ordre des mots dans une phrase, ainsi que ses propriétés générales en tant qu'unité du langage.

Ø Sémantiqueet pragmatique– des domaines étroitement liés : la sémantique traite du sens des mots, des phrases et d'autres unités de discours, et la pragmatique traite des particularités de l'expression de ce sens en lien avec des objectifs spécifiques de communication ;

Ø Lexicographie décrit le lexique d'une NL particulière - ses mots individuels et leurs propriétés grammaticales, ainsi que les méthodes de création de dictionnaires.

Les résultats de N. Chomsky, obtenus à l'intersection de la linguistique et des mathématiques, ont jeté les bases de la théorie des langages formels et des grammaires (souvent appelées génératif, ou générateur grammairiens). Cette théorie s'applique désormais à linguistique mathématique et est utilisé pour traiter non pas tant le NL, mais les langages artificiels, principalement les langages de programmation. De par sa nature, il s’agit d’une discipline entièrement mathématique.

La linguistique mathématique comprend également linguistique quantitative, qui étudie les caractéristiques fréquentielles du langage - les mots, leurs combinaisons, les structures syntaxiques, etc., et utilise des méthodes mathématiques de statistiques, cette branche de la science peut donc être appelée linguistique statistique.

CL est également étroitement lié à un domaine scientifique interdisciplinaire tel que l’intelligence artificielle (IA), dans lequel sont développés des modèles informatiques de fonctions intellectuelles individuelles. L'un des premiers programmes fonctionnels dans le domaine de l'IA et du CL est le célèbre programme de T. Winograd, qui a compris les ordres humains les plus simples pour changer le monde des cubes, formulés sur un sous-ensemble limité de NL. A noter que malgré l’intersection évidente des recherches dans le domaine de l’AC et de l’IA (puisque la maîtrise du langage concerne les fonctions intellectuelles), l’IA n’absorbe pas l’intégralité de l’AC, puisqu’elle a sa propre base théorique et sa propre méthodologie. Le point commun de ces sciences est la modélisation informatique comme méthode principale et objectif final de la recherche.

Ainsi, la tâche CL peut être formulée comme le développement de programmes informatiques pour le traitement automatique de textes en NL. Et bien que le traitement soit compris de manière assez large, tous les types de traitement ne peuvent pas être qualifiés de linguistiques, et les processeurs correspondants - linguistiques. Processeur linguistique doit utiliser l'un ou l'autre modèle formel de langage (même très simple), ce qui signifie qu'il doit dépendre de la langue d'une manière ou d'une autre (c'est-à-dire dépendre d'un NL spécifique). Ainsi, par exemple, l'éditeur de texte Mycrosoft Word peut être qualifié de linguistique (ne serait-ce que parce qu'il utilise des dictionnaires), mais pas l'éditeur NotePad.

La complexité des tâches CL est due au fait que NL est un système complexe de signes à plusieurs niveaux né pour l'échange d'informations entre les personnes, développé au cours de l'activité pratique humaine et en constante évolution en relation avec cette activité. Une autre difficulté dans le développement des méthodes CL (et la difficulté d'étudier la NL dans le cadre de la linguistique) est liée à la diversité des langues naturelles, des différences significatives dans leur vocabulaire, leur morphologie, leur syntaxe offrent différentes manières d'exprimer le même sens ; .

2. Caractéristiques du système NL : niveaux et connexions

L'objet des processeurs linguistiques sont les textes NL. Les textes sont compris comme tout échantillon de discours - oral et écrit, de tout genre, mais CL considère principalement les textes écrits. Le texte a une structure unidimensionnelle et linéaire et est également porteur d'un certain sens, tandis que la langue agit comme un moyen de transformer le sens transmis en textes (synthèse vocale) et vice versa (analyse de la parole). Le texte est composé d'unités plus petites et il existe plusieurs manières possibles de diviser (diviser) le texte en unités appartenant à différents niveaux.

L'existence des niveaux suivants est généralement admise :

· niveau de propositions (déclarations) – niveau syntaxique;

· Lexico-morphologique l'homonymie (le type le plus courant) se produit lorsque les formes verbales de deux lexèmes différents coïncident, par exemple : poème– un verbe au singulier masculin et un nom au singulier nominatif),

· Homonymie syntaxique signifie l'ambiguïté de la structure syntaxique, qui conduit à plusieurs interprétations : Les étudiants de Lvov sont allés à Kyiv,En volant Avions peut être dangereux(exemple célèbre de Chomsky), etc.

3. Modélisation en linguistique computationnelle

Le développement d'un processeur linguistique (LP) implique une description des propriétés linguistiques du texte NL traité, et cette description est organisée comme modèle langue. Comme pour la modélisation en mathématiques et en programmation, un modèle est compris comme un certain système qui affiche un certain nombre de propriétés essentielles du phénomène modélisé (c'est-à-dire SE) et présente donc une similitude structurelle ou fonctionnelle.

Les modèles linguistiques utilisés en CL sont généralement construits sur la base de théories créées par des linguistes en étudiant divers textes et sur la base de leur intuition linguistique (introspection). Quelles sont les spécificités des modèles CL ? On peut distinguer les caractéristiques suivantes :

· Formalité et, finalement, algorithmisabilité ;

· Fonctionnalité (le but de la modélisation est de reproduire les fonctions d'un langage comme une « boîte noire », sans construire un modèle précis de synthèse et d'analyse de la parole humaine) ;

· La généralité du modèle, c'est-à-dire qu'il prend en compte un ensemble de textes assez large ;

· Validité expérimentale, qui consiste à tester le modèle sur différents textes ;

· Recours aux dictionnaires comme élément obligatoire du modèle.

La complexité de la NL, de sa description et de son traitement conduit à la division de ce processus en étapes distinctes correspondant aux niveaux du langage. La plupart des LP modernes sont de type modulaire, dans lesquels chaque niveau d'analyse ou de synthèse linguistique correspond à un niveau distinct. module processeur. En particulier, dans le cas de l'analyse de texte, les modules LP individuels effectuent :

Ø Analyse graphique, c'est-à-dire mise en évidence des formes de mots dans le texte (passage des symboles aux mots) ;

Ø Analyse morphologique – transition des formes de mots à leurs lemmes(formes dictionnaires de lexèmes) ou les bases(parties nucléaires du mot, moins les morphèmes flexionnels) ;

Ø Analyse syntaxique, c'est-à-dire identifier la structure grammaticale des phrases de texte ;

Ø Analyse sémantique et pragmatique, qui détermine le sens des phrases et la réaction correspondante du système au sein duquel le LP opère.

Différents schémas d'interaction de ces modules sont possibles (fonctionnement séquentiel ou analyse intermittente parallèle), cependant, les niveaux individuels - morphologie, syntaxe et sémantique sont toujours traités par des mécanismes différents.

Ainsi, LP peut être considéré comme un convertisseur à plusieurs étages, qui, dans le cas de l'analyse de texte, traduit chacune de ses phrases en une représentation interne de son sens et vice versa dans le cas de la synthèse. Le modèle de langage correspondant peut être appelé de construction.

Bien que les modèles CL complets nécessitent la prise en compte de tous les niveaux principaux du langage et la présence des modules correspondants, lors de la résolution de certains problèmes appliqués, il est possible de se passer de la représentation des niveaux individuels dans LP. Par exemple, dans les premiers programmes expérimentaux d'apprentissage linguistique, les textes traités appartenaient à des domaines problématiques très restreints (avec un ensemble limité de mots et leur ordre strict), de sorte que leurs lettres initiales pouvaient être utilisées pour reconnaître des mots, en omettant les étapes de compréhension morphologique et syntaxique. analyse.

Un autre exemple de modèle réduit, maintenant assez souvent utilisé, est le modèle linguistique de la fréquence des symboles et de leurs combinaisons (bigrammes, trigrammes, etc.) dans les textes d'une NL particulière. Tel modèle statistique affiche des informations linguistiques au niveau des caractères (lettres) du texte, et il suffit, par exemple, d'identifier les fautes de frappe dans le texte ou de reconnaître son identité linguistique. Un modèle similaire basé sur les statistiques de mots individuels et leur cooccurrence dans des textes (bigrammes, trigrammes de mots) est utilisé, par exemple, pour résoudre l'ambiguïté lexicale ou déterminer la partie du discours d'un mot (dans des langues comme l'anglais ).

Notez qu'il est possible modèles structurels et statistiques, dans lequel, lors de la représentation des niveaux individuels de la NL, l'une ou l'autre statistique est prise en compte - mots, structures syntaxiques, etc.

Dans un LP de type modulaire, à chaque étape d'analyse ou de synthèse de texte, un modèle correspondant (morphologie, syntaxe, etc.) est utilisé.

Les modèles morphologiques d'analyse des formes de mots existant en CL diffèrent principalement par les paramètres suivants :

· le résultat du travail - un lemme ou radical avec un ensemble de caractéristiques morphologiques (genre, nombre, cas, aspect, personne, etc.) d'une forme de mot donnée ;

· méthode d'analyse - basée sur un dictionnaire des formes de mots d'une langue ou un dictionnaire des bases, ou une méthode sans dictionnaire ;

· la possibilité de traiter la forme verbale d'un lexème non inclus dans le dictionnaire.

En synthèse morphologique, les données initiales sont le lexème et les caractéristiques morphologiques spécifiques de la forme verbale demandée de ce lexème ; une demande de synthèse de toutes les formes d'un lexème donné est également possible. Le résultat de l’analyse morphologique et de la synthèse est généralement ambigu.

Pour modéliser la syntaxe dans le cadre du CL, un grand nombre d'idées et de méthodes différentes ont été proposées, différant par la manière de décrire la syntaxe du langage, la manière d'utiliser ces informations dans l'analyse ou la synthèse d'une phrase NL, comme ainsi que la manière de représenter la structure syntaxique de la phrase. De manière assez classique, on peut distinguer trois approches principales de création de modèles : une approche générative, remontant aux idées de Chomsky, une approche remontant aux idées de I. Melchuk et représentée par le modèle « Sens-Texte », ainsi que une approche au sein de laquelle certaines tentatives sont faites pour surmonter les limites des deux premières approches, en particulier la théorie des groupes syntaxiques.

Dans l'approche générative, l'analyse syntaxique est généralement effectuée sur la base d'une grammaire formelle hors contexte qui décrit la structure phrasale d'une phrase, ou sur la base d'une certaine extension de la grammaire hors contexte. Ces grammaires sont basées sur la division linéaire cohérente d'une phrase en phrases (constructions syntaxiques, par exemple, phrases nominales) et reflètent donc simultanément ses structures syntaxiques et linéaires. La structure syntaxique hiérarchique de la phrase NL obtenue à la suite de l'analyse est décrite arbre de composants, dont les feuilles contiennent les mots de la phrase, les sous-arbres correspondent aux constructions syntaxiques (phrases) incluses dans la phrase, et les arcs expriment les relations d'imbrication des constructions.

L'approche considérée peut inclure des grammaires de réseau, qui sont à la fois un appareil pour décrire un système linguistique et pour spécifier une procédure d'analyse de phrases basée sur le concept d'une machine à états finis, par exemple le réseau de transition étendu ATN.

Dans la deuxième approche, une méthode plus visuelle et courante est utilisée pour représenter la structure syntaxique d'une phrase - arbres de dépendances. Les nœuds de l'arbre contiennent les mots de la phrase (la racine est généralement un verbe-prédicat), et chaque arc de l'arbre reliant une paire de nœuds est interprété comme syntaxique. subordonnant connexion entre eux, et la direction de la connexion correspond à la direction de l'arc donné. Puisque dans ce cas les connexions syntaxiques des mots et l'ordre des mots dans une phrase sont séparés, alors, sur la base d'arbres de subordination, brisés et non projectif des constructions qui apparaissent assez souvent dans les langues à ordre libre des mots.

Les arbres de composants sont plus adaptés pour décrire les langues dans un ordre de mots rigide ; représenter avec leur aide des constructions brisées et non projectives nécessite d'élargir le formalisme grammatical utilisé. Mais dans le cadre de cette approche, les constructions avec des relations de non-subordination sont plus naturellement décrites. Dans le même temps, une difficulté commune aux deux approches est la représentation des membres homogènes d'une phrase.

Les modèles syntaxiques dans toutes les approches tentent de prendre en compte les restrictions imposées à la connexion des unités linguistiques dans le discours, tandis que le concept de valence est utilisé d'une manière ou d'une autre. Valence- c'est la capacité d'un mot ou d'une autre unité du langage à relier d'autres unités d'une certaine manière syntaxique ; actif est un mot ou une construction syntaxique qui remplit cette valence. Par exemple, le verbe russe remettre a trois valences principales, qui peuvent être exprimées par les mots interrogatifs suivants : OMS? à qui? Quoi? Dans le cadre de l'approche générative, les valences des mots (principalement des verbes) sont décrites principalement sous forme de cadres spéciaux ( sous-catégorisation cadres) , et dans le cadre de l'approche basée sur les arbres de dépendances - comment modèles de gestion.

Les modèles de sémantique du langage sont les moins développés dans le cadre du CL. Pour l'analyse sémantique des phrases, ce qu'on appelle les grammaires de cas et cas sémantiques(valence), sur la base de laquelle la sémantique d'une phrase est décrite à la fois par les connexions du mot principal (verbe) avec ses actants sémantiques, c'est-à-dire par des cas sémantiques. Par exemple, le verbe remettre décrit par des cas sémantiques donnant(agent), destinataire Et objet de transfert.

Pour représenter la sémantique d'un texte entier, deux formalismes logiquement équivalents sont couramment utilisés (tous deux décrits en détail dans le cadre de l'IA) :

· Formules pour le calcul de prédicats exprimant des propriétés, des états, des processus, des actions et des relations ;

· Les réseaux sémantiques sont des graphes étiquetés dans lesquels les sommets correspondent aux concepts et les sommets correspondent aux relations entre eux.

Quant aux modèles de pragmatique et de discours, qui permettent de traiter non seulement des phrases individuelles, mais aussi le texte dans son ensemble, les idées de Van Dyck sont principalement utilisées pour les construire. L’un des modèles rares et réussis est le modèle de synthèse discursive de textes cohérents. De tels modèles doivent prendre en compte les références anaphoriques et d’autres phénomènes au niveau du discours.

Pour conclure la caractérisation des modèles linguistiques dans le cadre du CL, attardons-nous un peu plus en détail sur la théorie des modèles linguistiques « Sens-Texte », et dans le cadre de laquelle sont apparues de nombreuses idées fécondes, en avance sur leur temps et qui sont toujours d'actualité aujourd'hui.

Conformément à cette théorie, la NL est considérée comme un type particulier de transformateur qui transforme des significations données en textes correspondants et des textes donnés en significations correspondantes. Le sens est compris comme l'invariant de toutes les transformations synonymes du texte. Le contenu d'un fragment de discours cohérent sans division en phrases et formes de mots est affiché sous la forme d'une représentation sémantique spéciale, composée de deux éléments : graphe sémantique et des informations sur organisation communicative du sens.

Les traits distinctifs de la théorie doivent être indiqués :

o orientation vers la synthèse de textes (la capacité à générer des textes corrects est considérée comme le critère principal de la compétence linguistique) ;

o caractère multi-niveaux et modulaire du modèle, les principaux niveaux de langage étant divisés en niveaux superficiels et profonds : ils diffèrent, par exemple, profond(sémantisé) et surface la syntaxe (« pure »), ainsi que les niveaux morphologiques de surface et morphologiques profonds ;

o le caractère intégral du modèle de langage ; stockage des informations présentées à chaque niveau par le module correspondant, effectuant le passage de ce niveau au suivant ;

o des moyens particuliers de description de la syntaxe (règles de connexion des unités) à chaque niveau ; un ensemble a été proposé pour décrire la compatibilité lexicale fonctions lexicales, à l'aide duquel sont formulées les règles de paraphrase syntaxique ;

o accent mis sur le vocabulaire plutôt que sur la grammaire ; le dictionnaire stocke des informations liées aux différents niveaux de langue ; en particulier, des modèles de contrôle de mots qui décrivent leurs valences syntaxiques et sémantiques sont utilisés pour l'analyse syntaxique.

Cette théorie et ce modèle linguistique sont incarnés dans le système de traduction automatique ETAP.

4. Ressources linguistiques

Le développement de processeurs linguistiques nécessite une représentation appropriée des informations linguistiques sur la langue traitée. Ces informations sont affichées dans divers dictionnaires et grammaires informatiques.

Dictionnaires sont la forme la plus traditionnelle de représentation de l'information lexicale ; ils diffèrent par leurs unités (généralement des mots ou des phrases), leur structure et leur couverture de vocabulaire (dictionnaires de termes dans un domaine problématique spécifique, dictionnaires de vocabulaire général, etc.). L'unité de vocabulaire s'appelle Entrée du dictionnaire, il fournit des informations sur le jeton. Les homonymes lexicaux sont généralement représentés dans différentes entrées du dictionnaire.

Les plus courants en CL sont les dictionnaires morphologiques utilisés pour l'analyse morphologique ; leur entrée de dictionnaire présente des informations morphologiques sur le mot correspondant - partie du discours, classe flexionnelle (pour les langues flexionnelles), une liste de significations de mots, etc. processeur linguistique dans le dictionnaire, des informations grammaticales peuvent également être ajoutées, par exemple des modèles de contrôle de mots.

Il existe des dictionnaires qui fournissent des informations plus larges sur les mots. Par exemple, le modèle linguistique « Sens-Texte » s’appuie largement sur dictionnaire combinatoire explicatif, dans l'entrée du dictionnaire dont, en plus des informations morphologiques, syntaxiques et sémantiques (valences syntaxiques et sémantiques), des informations sur la compatibilité lexicale de ce mot sont présentées.

Un certain nombre de processeurs linguistiques utilisent dictionnaires de synonymes. Un type de dictionnaire relativement nouveau - dictionnaires de paronymes, c'est-à-dire des mots extérieurement similaires dont le sens diffère, par exemple, étranger Et extraterrestre, édition Et référence .

Un autre type de ressources lexicales est bases de données de phrases, dans lequel les phrases les plus typiques d'une langue particulière sont sélectionnées. Cette base de données d'expressions en langue russe (environ un million d'unités) constitue le cœur du système CrossLexica.

Des types plus complexes de ressources lexicales sont thésaurus et ontologies. Un thésaurus est un dictionnaire sémantique, c'est-à-dire un dictionnaire dans lequel sont présentées les connexions sémantiques des mots - synonymes, relations de type genre (parfois appelées relation haut-bas), partie-tout, associations. La diffusion de thésaurus est associée à la résolution de problèmes de recherche d'informations.

Le concept d’ontologie est étroitement lié au concept de thésaurus. L'ontologie est un ensemble de concepts et d'entités d'un certain domaine de connaissance, orientés vers la réutilisation pour diverses tâches. Les ontologies peuvent être créées sur la base du vocabulaire existant dans une langue - dans ce cas elles sont appelées linguistique Et.

Une ontologie linguistique similaire est considérée comme le système WordNet - une vaste ressource lexicale dans laquelle des mots anglais sont collectés : des noms, des adjectifs, des verbes et des adverbes, et leurs connexions sémantiques de plusieurs types sont présentées. Pour chacune des parties spécifiées du discours, les mots sont regroupés en groupes de synonymes ( synsets), entre lesquels s'établissent les relations d'antonymie, d'hyponymie (relation genre-espèce), de méronymie (relation partie-tout). La ressource contient environ 25 000 mots, le nombre de niveaux hiérarchiques pour la relation genre-espèce est en moyenne de 6 à 7, atteignant parfois 15. Le niveau supérieur de la hiérarchie forme une ontologie générale - un système de concepts de base sur le monde.

Sur la base du schéma anglais WordNet, des ressources lexicales similaires pour d'autres langues européennes ont été construites, réunies sous le nom général EuroWordNet.

Un type complètement différent de ressources linguistiques est Grammaire NL, dont le type dépend du modèle de syntaxe utilisé dans le processeur. En première approximation, la grammaire est un ensemble de règles exprimant les propriétés syntaxiques générales des mots et des groupes de mots. Le nombre total de règles de grammaire dépend également du modèle syntaxique, variant de plusieurs dizaines à plusieurs centaines. Essentiellement, un problème se pose ici, celui de la relation entre la grammaire et le vocabulaire dans un modèle de langage : plus le dictionnaire présente d'informations, plus la grammaire peut être courte et vice versa.

A noter que la construction de dictionnaires informatiques, de thésaurus et de grammaires est un travail volumineux et laborieux, parfois même plus laborieux que le développement d'un modèle linguistique et du processeur correspondant. Par conséquent, l'une des tâches subordonnées de CL est l'automatisation de la construction de ressources linguistiques.

Les dictionnaires informatiques sont souvent créés en convertissant des dictionnaires de texte ordinaires, mais leur construction nécessite souvent un travail beaucoup plus complexe et minutieux. Cela se produit généralement lors de la construction de dictionnaires et de thésaurus pour des domaines scientifiques en développement rapide - biologie moléculaire, informatique, etc. Le matériel source pour extraire les informations linguistiques nécessaires peut être collections et corpus de textes.

Un corpus de textes est un ensemble de textes rassemblés selon un certain principe de représentativité (par genre, paternité, etc.), dans lequel tous les textes sont marqués, c'est-à-dire munis de quelques marquages linguistiques (annotations) - morphologiques, accentuels, syntaxique, etc. n. Actuellement, il existe au moins une centaine de corpus différents - pour différentes langues et avec des marquages différents, le plus célèbre est le Corpus national de la langue russe ;

Les corpus étiquetés sont créés par des linguistes et sont utilisés à la fois pour la recherche linguistique et pour le réglage (formation) des modèles et des processeurs utilisés en CL à l'aide de méthodes mathématiques bien connues d'apprentissage automatique. Ainsi, l’apprentissage automatique est utilisé pour configurer des méthodes permettant de résoudre l’ambiguïté lexicale, de reconnaître des parties du discours et de résoudre les références anaphoriques.

Étant donné que les corpus et les collections de textes sont toujours limités en termes de phénomènes linguistiques qui y sont représentés (et que les corpus, en outre, prennent beaucoup de temps à créer), les textes Internet sont récemment de plus en plus considérés comme une ressource linguistique plus complète. Bien entendu, Internet constitue la source la plus représentative d’échantillons de parole modernes, mais son utilisation comme corpus nécessite le développement de technologies particulières.

5. Applications de la linguistique computationnelle

Le champ d'application de la linguistique computationnelle est en constante expansion, c'est pourquoi nous caractériserons ici les problèmes appliqués les plus connus résolus par ses outils.

Traduction automatique– la première application du CL, avec laquelle ce domaine lui-même est apparu et s'est développé. Les premiers programmes de traduction ont été créés il y a plus de 50 ans et étaient basés sur une simple stratégie de traduction mot à mot. Cependant, on s’est vite rendu compte que la traduction automatique nécessitait un modèle linguistique complet prenant en compte tous les niveaux du langage, jusqu’à la sémantique et la pragmatique, ce qui a freiné à plusieurs reprises le développement de ce domaine. Un modèle assez complet est utilisé dans le système national ETAP, qui traduit des textes scientifiques du français vers le russe.

Notez cependant que dans le cas d'une traduction vers une langue apparentée, par exemple lors de la traduction de l'espagnol vers le portugais ou du russe vers l'ukrainien (qui ont beaucoup en commun en termes de syntaxe et de morphologie), le processeur peut être implémenté sur la base d'un langage simplifié. modèle, par exemple, basé sur l’utilisation de la même stratégie de traduction mot à mot.

Il existe actuellement toute une gamme de systèmes de traduction informatique (de qualité variable), depuis les grands projets de recherche internationaux jusqu'aux traducteurs automatiques commerciaux. Les projets de traduction multilingues utilisant une langue intermédiaire dans laquelle le sens des phrases traduites est codé sont d'un grand intérêt. Une autre direction moderne est la traduction statistique, basée sur des statistiques sur la traduction de mots et d'expressions (ces idées, par exemple, sont mises en œuvre dans le traducteur du moteur de recherche Google).

Mais malgré plusieurs décennies de développement dans tout ce domaine, le problème de la traduction automatique est encore très loin d’être complètement résolu.

Une autre application assez ancienne de la linguistique computationnelle est récupération de l'information et tâches connexes d'indexation, de résumé, de classification et de rubrification des documents.

La recherche en texte intégral de documents dans de grandes bases de données de documents (principalement scientifiques, techniques, commerciaux) est généralement effectuée sur la base de leur rechercher des images, c'est-à-dire un ensemble mots clés– des mots reflétant le sujet principal du document. Au début, seuls les mots NL individuels étaient considérés comme des mots-clés, et la recherche a été effectuée sans tenir compte de leur inflexion, ce qui n'est pas critique pour les langues faiblement fléchies comme l'anglais. Pour les langues fléchies, par exemple le russe, il a fallu utiliser un modèle morphologique prenant en compte la flexion.

La requête de recherche a également été présentée sous la forme d'un ensemble de mots ; les documents appropriés (pertinents) ont été déterminés en fonction de la similarité de la requête et de l'image de recherche du document. Créer une image de recherche d'un document implique indexage son texte, c'est-à-dire en mettant en évidence les mots clés qui s'y trouvent. Étant donné que très souvent le sujet et le contenu d'un document sont reflétés avec beaucoup plus de précision non pas par des mots individuels, mais par des phrases, les phrases ont commencé à être considérées comme des mots-clés. Cela compliquait considérablement la procédure d'indexation des documents, car il était nécessaire d'utiliser diverses combinaisons de critères statistiques et linguistiques pour sélectionner des phrases significatives dans le texte.

En fait, la recherche d’informations utilise principalement modèle de texte vectoriel(appelé quelques fois sac de mots– sac de mots), dans lequel un document est représenté comme un vecteur (ensemble) de ses mots-clés. Les moteurs de recherche Internet modernes utilisent également ce modèle, indexant les textes par mots utilisés (en même temps, ils utilisent des procédures de classement très sophistiquées pour renvoyer les documents pertinents).

Le modèle de texte spécifié (avec quelques complications) est également utilisé dans les problèmes de recherche d'informations connexes discutés ci-dessous.

Texte de synthèse- en réduire le volume et en obtenir une synthèse, un résumé (contenu condensé), qui accélère la recherche dans les collections documentaires. Un résumé général peut également être compilé pour plusieurs documents liés au sujet.

La principale méthode d'abstraction automatique reste la sélection des phrases les plus significatives du texte à extraire, pour lesquelles généralement les mots-clés du texte sont d'abord calculés et le coefficient de signification des phrases du texte est calculé. La sélection de phrases significatives est compliquée par des connexions anaphoriques de phrases dont la rupture n'est pas souhaitable - pour résoudre ce problème, certaines stratégies de sélection de phrases sont en cours de développement.

Une tâche proche de l'abstraction est annotation texte du document, c'est-à-dire rédiger son annotation. Dans sa forme la plus simple, un résumé est une liste des principaux sujets d'un texte que des procédures d'indexation peuvent être utilisées pour identifier.

Lors de la création de grandes collections de documents, les tâches suivantes sont pertinentes : classements Et regroupement textes afin de créer des classes de documents liés au sujet. La classification signifie attribuer chaque document à une classe spécifique avec des paramètres pré-connus, et le clustering signifie diviser un ensemble de documents en clusters, c'est-à-dire des sous-ensembles de documents thématiquement similaires. Pour résoudre ces problèmes, des méthodes d'apprentissage automatique sont utilisées, et donc ces problèmes appliqués sont appelés Text Mining et appartiennent à la direction scientifique connue sous le nom de Data Mining, ou data mining.

Le problème est très proche de la classification rubrique texte - son affectation à l'une des rubriques thématiques précédemment connues (généralement les rubriques forment un arbre hiérarchique de sujets).

Le problème de la classification est de plus en plus répandu ; il est résolu, par exemple, dans la reconnaissance du spam, et une application relativement nouvelle est la classification des messages SMS sur les appareils mobiles. Une direction de recherche nouvelle et pertinente pour le problème général de la recherche d’informations est la recherche de documents multilingues.

Une autre tâche relativement nouvelle liée à la recherche d'informations est générer des réponses aux questions(Réponse aux questions) . Ce problème est résolu en déterminant le type de question, en recherchant des textes contenant potentiellement la réponse à cette question et en extrayant la réponse de ces textes.

Un domaine appliqué complètement différent qui se développe, bien que lentement mais sûrement, est automatisation de la préparation et de l'édition textes dans EA. L'une des premières applications dans cette direction a été les programmes de détermination automatique des traits d'union des mots et les programmes d'orthographe de texte (orthographe ou correcteurs automatiques). Malgré l'apparente simplicité du problème de transfert, sa solution correcte pour de nombreuses langues (par exemple l'anglais) nécessite la connaissance de la structure morphémique des mots dans la langue correspondante, et donc du dictionnaire correspondant.

La vérification orthographique est implémentée depuis longtemps dans les systèmes commerciaux et repose sur un dictionnaire et un modèle morphologique appropriés. Un modèle syntaxique incomplet est également utilisé, sur la base duquel toutes les erreurs syntaxiques assez fréquentes sont identifiées (par exemple, les erreurs d'accord des mots). Dans le même temps, les correcteurs automatiques n'ont pas encore mis en œuvre la détection d'erreurs plus complexes, par exemple une utilisation incorrecte des prépositions. De nombreuses erreurs lexicales ne sont pas non plus détectées, en particulier les erreurs résultant de fautes de frappe ou d'une utilisation incorrecte de mots similaires (par exemple, poids au lieu de lourd). La recherche moderne en CL propose des méthodes de détection et de correction automatisées de ces erreurs, ainsi que de certains autres types d'erreurs stylistiques. Ces méthodes utilisent des statistiques sur l'occurrence de mots et d'expressions.

Une tâche appliquée proche du support à la préparation des textes est enseignement des langues naturelles, dans le cadre de cette direction, des systèmes informatiques d'enseignement des langues - anglais, russe, etc. sont souvent développés (des systèmes similaires peuvent être trouvés sur Internet). Généralement, ces systèmes prennent en charge l'étude d'aspects individuels du langage (morphologie, vocabulaire, syntaxe) et sont basés sur des modèles appropriés, par exemple le modèle morphologique.

En ce qui concerne l'apprentissage du vocabulaire, des analogues électroniques des dictionnaires de texte (qui ne disposent essentiellement pas de modèles linguistiques) sont également utilisés à cet effet. Cependant, des dictionnaires informatiques multifonctionnels sont également développés, qui n'ont pas d'analogues textuels et s'adressent à un large éventail d'utilisateurs - par exemple, le dictionnaire Crosslexics de phrases russes. Ce système couvre un large éventail de vocabulaire - mots et leurs combinaisons de mots acceptables, et fournit également une aide sur les modèles de gestion des mots, les synonymes, les antonymes et autres corrélats sémantiques des mots, ce qui est clairement utile non seulement pour ceux qui étudient la langue russe, mais également pour les locuteurs natifs.

Le prochain domaine d'application qui mérite d'être mentionné est génération automatique textes dans EA. En principe, cette tâche peut être considérée comme une sous-tâche de la tâche de traduction automatique déjà évoquée ci-dessus. Cependant, dans le cadre de la direction, il existe un certain nombre de tâches spécifiques. Une telle tâche est la génération multilingue, c'est-à-dire la construction automatique de documents spéciaux en plusieurs langues - formules de brevet, modes d'emploi de produits techniques ou de systèmes logiciels, sur la base de leurs spécifications dans un langage formel. Pour résoudre ce problème, des modèles de langage assez détaillés sont utilisés.

Un problème appliqué de plus en plus pertinent, souvent appelé Text Mining, est extraction d'informationsà partir de textes, ou l'extraction d'informations, qui est nécessaire pour résoudre des problèmes d'analyse économique et de production. Pour ce faire, certains objets sont identifiés dans le test NL - entités nommées (noms, personnalités, noms géographiques), leurs relations et événements qui leur sont associés. En règle générale, cela est mis en œuvre sur la base d'une analyse partielle du texte, ce qui permet de traiter les flux d'informations des agences de presse. La tâche étant assez complexe non seulement sur le plan théorique, mais aussi sur le plan technologique, la création de systèmes significatifs pour extraire des informations à partir de textes est réalisable au sein d'entreprises commerciales.

Le domaine du Text Mining comprend également deux autres tâches connexes : l’opinion mining (Opinion Mining) et l’analyse des sentiments (Sentiment Analysis), qui attirent l’attention d’un nombre croissant de chercheurs. La première tâche consiste à rechercher (dans les blogs, forums, boutiques en ligne, etc.) les avis des utilisateurs sur des produits et autres objets, puis à analyser ces avis. La deuxième tâche est proche de la tâche classique d'analyse du contenu des textes de communication de masse ; elle évalue le ton général des déclarations.

Une autre application qui mérite d'être mentionnée est soutien au dialogue avec l'utilisateur sur EA dans le cadre de tout système logiciel d'information. Le plus souvent, ce problème a été résolu pour les bases de données spécialisées - dans ce cas, le langage de requête est assez limité (lexiquement et grammaticalement), ce qui permet l'utilisation de modèles de langage simplifiés. Les requêtes adressées à la base de données, formulées en NL, sont traduites en langage formel, après quoi les informations requises sont recherchées et la phrase de réponse correspondante est construite.

En dernier lieu de notre liste d'applications CL (mais non des moindres), nous indiquons reconnaissance et synthèse vocale. Les erreurs de reconnaissance qui surviennent inévitablement dans ces tâches sont corrigées par des méthodes automatiques basées sur des dictionnaires et des connaissances linguistiques de la morphologie. L’apprentissage automatique sera également utilisé dans ce domaine.

Conclusion

La linguistique computationnelle démontre des résultats tout à fait tangibles dans diverses applications du traitement automatique de texte aux Pays-Bas. Son développement ultérieur dépend à la fois de l'émergence de nouvelles applications et du développement indépendant de divers modèles de langage, dans lesquels de nombreux problèmes n'ont pas encore été résolus. Les modèles les plus développés sont l'analyse et la synthèse morphologiques. Les modèles syntaxiques n'ont pas encore été amenés au niveau de modules de travail stables et efficaces, malgré le grand nombre de formalismes et de méthodes proposés. Les modèles au niveau sémantique et pragmatique sont encore moins étudiés et formalisés, bien que le traitement automatique du discours soit déjà requis dans un certain nombre d'applications. Notez que les outils déjà existants de la linguistique informatique elle-même, l’utilisation de l’apprentissage automatique et des corpus de textes, peuvent faire progresser considérablement la solution de ces problèmes.

Littérature

1. Baeza-Yates, R. et Ribeiro-Neto, B. Recherche d'informations modernes, Adison Wesley, 1999.

2. Bateman, J., Zock M. Génération de langage naturel. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p.304.

3. Biber, D., Conrad S. et Reppen D. Corpus Linguistics. Enquête sur la structure et l'utilisation du langage. La Presse de l'Universite de Cambridge, Cambridge, 1998.

4. Bolshakov, I. A., Linguistique putationnelle Gelbukh. Modèles, ressources, applications. Mexique, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Les mathématiques de la traduction automatique statistique. // Linguistique computationnelle, Vol. 19(2) : 263-3

6. Carroll JR. Analyse. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 233-248.

7. Chomsky, N. Structures syntaxiques. La Haye : Mouton, 1957.

8. Grishman R. Extraction d'informations. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 545-559.

9. Harabagiu, S., Moldave D. Réponse aux questions. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 560-582.

10. Hearst, M. A. Découverte automatisée des relations WordNet. Dans : Fellbaum, C. (éd.) WordNet : Une base de données lexicale électronique. MIT Press, Cambridge, 1998, p.131-151.

11. Hirst, G. Ontologie et lexique. Dans.: Manuel sur les ontologies dans les systèmes d'information. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Extraction de termes et indexation automatique // Mitkov R. (éd.) : Handbook of Computational Linguistics. Presse universitaire d'Oxford, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introduction au numéro spécial sur le Web comme linguistique putationnelle, V. 29, No. 3, 2003, p. 333-347.

14. Manning, Ch. D., H. Schütze. Fondements du traitement statistique du langage naturel. Presses du MIT, 1999.

15. Matsumoto Y. Acquisition de connaissances lexicales. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 395-413.

16. Le manuel d'Oxford sur la linguistique computationnelle. R. Mitkov (éd.). Presse universitaire d'Oxford, 2005.

17. Oakes, M., Paice C. D. Extraction de termes pour l'abstraction automatique. Progrès récents de la terminologie informatique. D. Bourigault, C. Jacquemin et M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Un arbre décisionnel de bigrammes est un prédicteur précis du sens des mots. Proc. 2e réunion annuelle du NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Méthodes statistiques. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 358-375.

20. Salton, G. Traitement automatique de texte : transformation, analyse et récupération d'informations par ordinateur. Lecture, MA : Addison-Wesley, 1988.

21. Somers, H. Traduction automatique : derniers développements. Dans : Le manuel d'Oxford de linguistique computationnelle. Mitkov R. (éd.). Presse universitaire d'Oxford, 2003, p. 512-528.

22. Strzalkowski, T. (éd.) Recherche d'informations en langage naturel. Kluwer, 19h.

23. Woods W. A. Grammers du réseau de transition pour l'analyse du langage naturel/Communications de l'ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net : une base de données lexicale électronique. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Suggestion de colocalisation automatique dans la rédaction académique // Actes de la conférence ACL 2010 Short Papers, 2010.

26. et autres. Support linguistique du système ETAP-2. M. : Nauka, 1989.

27. etc. Technologies d'analyse de données : Data Mining, Visual Mining, Text Mining, OLAP – 2e éd. – Saint-Pétersbourg : BHV-Pétersbourg, 2008.

28. Bolshakov, Lexica - un grand dictionnaire électronique de combinaisons et de connexions sémantiques de mots russes. //Comp. linguistique et intelligence. technologie : Actes int. Conf. "Dialogues 2009". Numéro : Université d'État russe des sciences humaines, 2009, pp. 45-50.

29. Bolshakova E.I., Détection Bolshakov et correction automatisée des malapropismes russes // NTI. Ser. 2, n° 5, 2007, p. 27-40.

30. Wang, Kinch V. Stratégie de compréhension d'un texte connecté // Nouveau en linguistique étrangère. Vol. XXIII– M., Progrès, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Méthodes de traitement automatisé de texte. – M. : IPI RAS, 2008.

32. Vinograd T. Un programme qui comprend le langage naturel - M., Mir, 1976.

33. Structures fluides du langage naturel dans les systèmes de communication automatisés. – M., Nauka, 1985.

34. Gusev, V. D., Dictionnaire Salomatina des paronymes : version 2. // NTI, Ser. 2, n° 7, 2001, p. 26-33.

35. Zakharov - l'espace comme corpus linguistique // Linguistique informatique et technologies intellectuelles : Actes de l'Internationale. Conférence Dialogue ‘2005 / Éd. , – M. : Nauka, 2005, p. 166-171.

36. Kasevich de linguistique générale. - M., Nauka, 1977.

37. Compréhension Léontief des textes : Systèmes, modèles, ressources : Manuel - M. : Académie, 2006.

38. Dictionnaire encyclopédique linguistique / Éd. V. N. Yartseva, M. : Encyclopédie soviétique, 1990, 685 p.

39. , Salium pour l'indexation et la catégorisation automatiques : développement, structure, maintenance. // NTI, Ser. 2, n° 1, 1996.

40. Luger J. Intelligence artificielle : stratégies et méthodes pour résoudre des problèmes complexes. M., 2005.

41. McQueen K. Stratégies discursives pour la synthèse de texte en langue naturelle // Nouveau en linguistique étrangère. Vol. XXIV. M. : Progress, 1989, pp. 311-356.

42. Théorie de Melchuk des modèles linguistiques « SIGNIFICATION « TEXTE ». - M., Nauka, 1974.

43. Corpus national de la langue russe. http://*****

44. Khoroshevsky V. F. OntosMiner : une famille de systèmes d'extraction d'informations à partir de collections de documents multilingues // Neuvième Conférence nationale sur l'intelligence artificielle avec participation internationale KII-2004. T. 2. – M. : Fizmatlit, 2004, p.573-581.

logiciel de linguistique statistique linguistique

Histoire du développement de la linguistique computationnelle

Le processus de formation et de formation de la linguistique moderne en tant que science du langage naturel représente un long développement historique de la connaissance linguistique. Les connaissances linguistiques reposent sur des éléments qui se sont formés au cours d'activités inextricablement liées au développement de la structure de la parole orale, à l'émergence, au développement et à l'amélioration de l'écriture, à l'apprentissage de l'écriture, ainsi qu'à l'interprétation et au décodage des textes.

Le langage naturel en tant qu'objet de la linguistique occupe une place centrale dans cette science. Au cours du développement du langage, les idées à ce sujet ont également changé. Si auparavant aucune importance particulière n'était attachée à l'organisation interne du langage et qu'elle était considérée principalement dans le contexte de ses relations avec le monde extérieur, alors, à partir de la fin du XIXe et du début du XXe siècle, un rôle particulier a été attribué à l'organisation interne. structure formelle de la langue. C'est à cette époque que le célèbre linguiste suisse Ferdinand de Saussure développe les fondements de sciences telles que la sémiologie et la linguistique structurale et les expose en détail dans son livre Un cours de linguistique générale (1916).

Le scientifique a eu l'idée de considérer le langage comme un mécanisme unique, un système intégral de signes, qui permet à son tour de décrire mathématiquement le langage. Saussure fut le premier à proposer une approche structurale du langage, à savoir : une description du langage par l'étude des relations entre ses unités. Par unités, ou « signes », il entendait un mot qui combine à la fois le sens et le son. Le concept proposé par le scientifique suisse s'appuie sur la théorie du langage comme système de signes composé de trois parties : le langage (de la langue française), la parole (de la parole française) et l'activité de la parole (de la langue française).

Le scientifique lui-même a défini la science qu’il a créée, la sémiologie, comme « une science qui étudie la vie des signes dans le cadre de la vie en société ». Puisque la langue est un système de signes, à la recherche d'une réponse à la question de savoir quelle place occupe la linguistique parmi les autres sciences, Saussure a soutenu que la linguistique fait partie de la sémiologie. Il est généralement admis que c'est le philologue suisse qui a posé les bases théoriques d'une nouvelle direction de la linguistique, devenant ainsi le fondateur et le « père » de la linguistique moderne.

Le concept avancé par F. de Saussure a été développé dans les travaux de nombreux scientifiques éminents : au Danemark - L. Hjelmslev, en République tchèque - N. Trubetskoy, aux États-Unis - L. Bloomfield, Z. Harris, N. Chomsky. Quant à notre pays, ici la linguistique structurale a commencé son développement à peu près à la même époque qu'en Occident - au tournant des XIXe et XXe siècles. - dans les ouvrages de F. Fortunatov et I. Baudouin de Courtenay. A noter que I. Baudouin de Courtenay a travaillé en étroite collaboration avec F. de Saussure. Si Saussure a posé les bases théoriques de la linguistique structurale, alors Baudouin de Courtenay peut être considéré comme celui qui a jeté les bases de l'application pratique des méthodes proposées par le scientifique suisse. C'est lui qui a défini la linguistique comme une science utilisant des méthodes statistiques et des dépendances fonctionnelles, et l'a séparée de la philologie. La première expérience dans l'application des méthodes mathématiques en linguistique fut la phonologie - la science de la structure des sons d'une langue.

Il convient de noter que les postulats avancés par F. de Saussure ont pu se refléter dans les problèmes de linguistique pertinents au milieu du XXe siècle. C’est durant cette période qu’il y a une nette tendance à la mathématisation de la science du langage. Dans presque tous les grands pays commence le développement rapide de la science et de la technologie informatique, qui à son tour nécessite des bases linguistiques de plus en plus nouvelles. Le résultat de tout cela fut la convergence rapide des sciences exactes et des sciences humaines, ainsi que l'interaction active des mathématiques et de la linguistique, qui trouvèrent une application pratique dans la résolution de problèmes scientifiques urgents.

Dans les années 50 du 20e siècle, à l'intersection de sciences telles que les mathématiques, la linguistique, l'informatique et l'intelligence artificielle, une nouvelle direction scientifique est apparue : la linguistique informatique (également connue sous le nom de linguistique automatique ou traitement automatique de texte en langage naturel). Les principales étapes de développement de cette direction se sont déroulées dans le contexte de l'évolution des méthodes d'intelligence artificielle. La création des premiers ordinateurs a été un puissant élan pour le développement de la linguistique informatique. Cependant, avec l'avènement d'une nouvelle génération d'ordinateurs et de langages de programmation dans les années 60, une étape fondamentalement nouvelle dans le développement de cette science commence. Il convient également de noter que les origines de la linguistique computationnelle remontent aux travaux du célèbre linguiste américain N. Chomsky dans le domaine de la formalisation de la structure du langage. Les résultats de ses recherches, obtenus à l'intersection de la linguistique et des mathématiques, ont constitué la base du développement de la théorie des langages formels et des grammaires (grammaires génératives ou génératives), largement utilisée pour décrire à la fois naturelles et artificielles. langages, notamment les langages de programmation. Pour être plus précis, cette théorie est une discipline entièrement mathématique. Il peut être considéré comme l'un des premiers dans une direction de la linguistique appliquée telle que la linguistique mathématique.

Les premières expériences et premiers développements en linguistique computationnelle concernent la création de systèmes de traduction automatique, ainsi que de systèmes modélisant les capacités linguistiques humaines. À la fin des années 80, avec l'avènement et le développement actif d'Internet, le volume d'informations textuelles disponibles sous forme électronique a connu une croissance rapide. Cela a conduit au fait que les technologies de recherche d'informations sont passées à une étape qualitativement nouvelle de leur développement. Le besoin s'est fait sentir d'un traitement automatique des textes en langage naturel et des tâches et technologies complètement nouvelles sont apparues. Les scientifiques sont confrontés au problème du traitement rapide d’un énorme flux de données non structurées. Afin de trouver une solution à ce problème, une grande importance a été accordée au développement et à l'application de méthodes statistiques dans le domaine du traitement automatique de texte. C'est avec leur aide qu'il est devenu possible de résoudre des problèmes tels que la division des textes en groupes unis par un thème commun, la mise en évidence de certains fragments du texte, etc. De plus, l'utilisation de méthodes de statistiques mathématiques et d'apprentissage automatique a permis de résoudre les problèmes de reconnaissance vocale et de création de moteurs de recherche.

Les scientifiques ne se sont pas arrêtés aux résultats obtenus : ils ont continué à se fixer de nouveaux buts et objectifs, à développer de nouvelles techniques et méthodes de recherche. Tout cela a conduit au fait que la linguistique a commencé à agir comme une science appliquée, combinant un certain nombre d'autres sciences, parmi lesquelles le rôle principal appartenait aux mathématiques avec sa variété de méthodes quantitatives et la capacité de les utiliser pour une compréhension plus approfondie des phénomènes. en cours d'étude. C'est ainsi que la linguistique mathématique a commencé sa formation et son développement. Pour le moment, il s'agit d'une science assez « jeune » (elle existe depuis une cinquantaine d'années), cependant, malgré son très « jeune âge », elle représente un domaine de connaissance scientifique déjà établi avec de nombreuses réalisations réussies.

Le contenu de l'article

LINGUISTIQUE INFORMATIQUE, direction en linguistique appliquée, axée sur l'utilisation d'outils informatiques - programmes, technologies informatiques d'organisation et de traitement des données - pour modéliser le fonctionnement de la langue dans certaines conditions, situations, domaines problématiques, etc., ainsi que l'ensemble du champ d'application de modèles de langage informatique en linguistique et disciplines connexes. En fait, ce n’est que dans ce dernier cas que l’on parle de linguistique appliquée au sens strict, puisque la modélisation informatique du langage peut également être considérée comme un domaine d’application de l’informatique et de la théorie de la programmation pour résoudre des problèmes de la science du langage. En pratique, cependant, la linguistique computationnelle comprend presque tout ce qui concerne l’utilisation des ordinateurs en linguistique.

La linguistique computationnelle est devenue un domaine scientifique particulier dans les années 1960. Le terme russe « linguistique informatique » est une traduction de l’anglais linguistique informatique. Étant donné que l'adjectif informatique en russe peut également être traduit par « informatique », le terme « linguistique informatique » se retrouve également dans la littérature, mais dans la science russe, il prend un sens plus étroit, se rapprochant du concept de « linguistique quantitative ». Le flux de publications dans ce domaine est très important. Outre les collections thématiques, la revue Computer Linguistics est publiée trimestriellement aux États-Unis. Une grande partie du travail organisationnel et scientifique est réalisée par l'Association pour la linguistique computationnelle, qui dispose de structures régionales (notamment une branche européenne). Tous les deux ans, des conférences internationales sur la linguistique computationnelle – COLING – ont lieu. Les questions correspondantes sont généralement largement représentées lors de diverses conférences sur l'intelligence artificielle.

Boîte à outils pour la linguistique computationnelle.

La linguistique computationnelle en tant que discipline appliquée particulière se distingue principalement par son instrument - c'est-à-dire sur l'utilisation des outils informatiques de traitement des données linguistiques. Étant donné que les programmes informatiques qui modélisent certains aspects du fonctionnement d'un langage peuvent utiliser une variété d'outils de programmation, il ne semble pas nécessaire de parler de l'appareil conceptuel général de la linguistique informatique. Cependant, ce n’est pas le cas. Il existe des principes généraux de modélisation informatique de la pensée, qui sont mis en œuvre d'une manière ou d'une autre dans tout modèle informatique. Ils sont basés sur la théorie de la connaissance, développée à l’origine dans le domaine de l’intelligence artificielle et devenue plus tard l’une des branches des sciences cognitives. Les catégories conceptuelles les plus importantes de la linguistique informatique sont des structures de connaissances telles que les « cadres » (structures conceptuelles ou, comme on dit, conceptuelles pour la représentation déclarative des connaissances sur une situation typée thématiquement unifiée), les « scénarios » (structures conceptuelles pour la procédure). représentation de connaissances sur une situation stéréotypée ou un comportement stéréotypé), des « plans » (des structures de connaissances qui capturent des idées sur des actions possibles menant à la réalisation d'un certain objectif). Le concept de « scène » est étroitement lié à la catégorie de cadre. La catégorie scène est principalement utilisée dans la littérature sur la linguistique informatique comme désignation d'une structure conceptuelle pour la représentation déclarative de situations et de leurs parties actualisées dans un acte de parole et mises en évidence par des moyens linguistiques (lexèmes, constructions syntaxiques, catégories grammaticales, etc.) .

Un ensemble organisé de structures de connaissances forme d’une certaine manière le « modèle mondial » du système cognitif et son modèle informatique. Dans les systèmes d'intelligence artificielle, le modèle du monde forme un bloc particulier, qui, selon l'architecture choisie, peut inclure des connaissances générales sur le monde (sous forme de propositions simples comme « il fait froid en hiver » ou sous forme de règles de production « s'il pleut dehors, alors il faut porter un imperméable ou prendre un parapluie »), quelques faits précis (« Le plus haut sommet du monde est l'Everest »), ainsi que des valeurs et leurs hiérarchies, parfois séparées en un « bloc axiologique » spécial.

La plupart des éléments des concepts des outils de linguistique computationnelle sont homonymes : ils désignent simultanément des entités réelles du système cognitif humain et des manières de représenter ces entités utilisées dans leur description théorique et leur modélisation. En d’autres termes, les éléments de l’appareil conceptuel de la linguistique informatique ont des aspects ontologiques et instrumentaux. Par exemple, sous l'aspect ontologique, la division des connaissances déclaratives et procédurales correspond à différents types de connaissances dont dispose une personne - la soi-disant connaissance QUOI (déclarative ; comme, par exemple, la connaissance de l'adresse postale de certains NN), d'une part, et la connaissance COMMENT (procédurale ; telle, par exemple, la connaissance qui permet de retrouver l'appartement de ce NN, même sans connaître son adresse formelle) - d'autre part. Sous l'aspect instrumental, la connaissance peut s'incarner dans un ensemble de descriptions (descriptions), dans un ensemble de données, d'une part, et dans un algorithme, une instruction exécutée par un ordinateur ou un autre modèle d'un système cognitif, de l'autre.

Orientations de la linguistique informatique.

Le domaine du CL est très diversifié et comprend des domaines tels que la modélisation informatique de la communication, la modélisation de la structure de l'intrigue, les technologies hypertextes pour la présentation de textes, la traduction automatique et la lexicographie informatique. Au sens étroit, les problèmes du CL sont souvent associés à un domaine appliqué interdisciplinaire portant le nom quelque peu malheureux de « traitement du langage naturel » (traduction du terme anglais Natural Language Processing). Elle est née à la fin des années 1960 et s’est développée au sein de la discipline scientifique et technologique de « l’intelligence artificielle ». Dans sa forme interne, l’expression « traitement du langage naturel » couvre tous les domaines dans lesquels les ordinateurs sont utilisés pour traiter des données linguistiques. Entre-temps, une compréhension plus étroite de ce terme s'est imposée dans la pratique : le développement de méthodes, de technologies et de systèmes spécifiques qui assurent la communication entre une personne et un ordinateur en langage naturel ou limité.

Le développement rapide du domaine du « traitement du langage naturel » s’est produit dans les années 1970, associé à une croissance exponentielle inattendue du nombre d’utilisateurs finaux d’ordinateurs. L'enseignement des langues et des technologies de programmation à tous les utilisateurs étant impossible, le problème de l'organisation de l'interaction avec les programmes informatiques s'est posé. La solution à ce problème de communication a suivi deux voies principales. Dans le premier cas, des tentatives ont été faites pour adapter les langages de programmation et les systèmes d'exploitation à l'utilisateur final. En conséquence, des langages de haut niveau tels que Visual Basic sont apparus, ainsi que des systèmes d'exploitation pratiques construits dans l'espace conceptuel de métaphores familières aux humains - DESK, LIBRARY. La deuxième voie consiste à développer des systèmes qui permettraient d'interagir avec un ordinateur dans un domaine problématique spécifique en langage naturel ou dans une version limitée de celui-ci.

L'architecture des systèmes de traitement du langage naturel dans le cas général comprend un bloc pour analyser le message vocal de l'utilisateur, un bloc pour interpréter le message, un bloc pour générer le sens de la réponse et un bloc pour synthétiser la structure superficielle de l'énoncé. Une partie particulière du système est la composante dialogue, qui enregistre les stratégies de dialogue, les conditions d'utilisation de ces stratégies et les moyens de surmonter d'éventuels échecs de communication (échecs du processus de communication).

Parmi les systèmes informatiques de traitement du langage naturel, on distingue généralement les systèmes de questions-réponses, les systèmes interactifs de résolution de problèmes et les systèmes de traitement de texte connectés. Initialement, les systèmes de questions-réponses ont commencé à être développés en réaction à la mauvaise qualité du codage des requêtes lors de la recherche d'informations dans les systèmes de recherche d'informations. Étant donné que le domaine problématique de tels systèmes était très limité, cela simplifiait quelque peu les algorithmes de traduction des requêtes en une représentation en langage formel et la procédure inverse pour convertir une représentation formelle en instructions en langage naturel. Parmi les développements nationaux, les programmes de ce type incluent le système POET, créé par une équipe de chercheurs sous la direction d'E.V. Popov. Le système traite les demandes en russe (avec des restrictions mineures) et synthétise la réponse. L'organigramme du programme consiste à parcourir toutes les étapes d'analyse (morphologique, syntaxique et sémantique) et les étapes de synthèse correspondantes.

Les systèmes conversationnels de résolution de problèmes, contrairement aux systèmes du type précédent, jouent un rôle actif dans la communication, puisque leur tâche est d'obtenir une solution au problème sur la base des connaissances qui y sont présentées et des informations qui peuvent être obtenues de l'utilisateur. Le système contient des structures de connaissances qui enregistrent des séquences d'actions typiques pour résoudre des problèmes dans un domaine problématique donné, ainsi que des informations sur les ressources nécessaires. Lorsqu'un utilisateur pose une question ou définit une tâche spécifique, le script correspondant est activé. Si certains composants de script sont manquants ou si certaines ressources sont manquantes, le système lance la communication. C'est ainsi que fonctionne, par exemple, le système SNUKA, résolvant les problèmes de planification des opérations militaires.

Les systèmes de traitement de textes connectés sont de structure très diverse. Leur caractéristique commune peut être considérée comme l'utilisation généralisée des technologies de représentation des connaissances. Les fonctions de systèmes de ce type sont de comprendre le texte et de répondre aux questions sur son contenu. La compréhension n'est pas considérée comme une catégorie universelle, mais comme un processus d'extraction d'informations d'un texte, déterminé par une intention communicative spécifique. En d’autres termes, le texte est « lu » uniquement en supposant que c’est exactement ce que l’utilisateur potentiel veut savoir à son sujet. Ainsi, les systèmes de traitement de textes connectés s'avèrent non pas universels, mais orientés vers des problèmes. Des exemples typiques de systèmes du type discuté sont les systèmes RESEARCHER et TAILOR, qui forment un seul progiciel permettant à l'utilisateur d'obtenir des informations à partir d'abrégés de brevet décrivant des objets physiques complexes.

Le domaine le plus important de la linguistique informatique est le développement de systèmes de recherche d'informations (IRS). Cette dernière est apparue à la fin des années 1950 et au début des années 1960 en réponse à la forte augmentation du volume d’informations scientifiques et techniques. En fonction du type d'informations stockées et traitées, ainsi que des fonctionnalités de recherche, les systèmes de recherche d'informations sont divisés en deux grands groupes : documentaires et factuels. Les systèmes de recherche d'informations documentaires stockent les textes des documents ou leurs descriptions (résumés, fiches bibliographiques, etc.). L'IRS factuel traite de la description de faits spécifiques, et pas nécessairement sous forme de texte. Il peut s'agir de tableaux, de formules et d'autres types de présentation de données. Il existe également des systèmes d’information mixtes, comprenant à la fois des documents et des informations factuelles. Actuellement, les systèmes d'information factuels sont construits sur la base de technologies de bases de données (DB). Pour assurer la recherche d'informations dans le système de recherche d'informations, des langages de recherche d'informations spéciaux sont créés, basés sur des thésaurus de recherche d'informations. Le langage de recherche d'informations est un langage formel conçu pour décrire certains aspects du plan de contenu des documents stockés dans le système de recherche d'informations et de la requête. La procédure permettant de décrire un document dans un langage de recherche d'informations est appelée indexation. À la suite de l'indexation, chaque document se voit attribuer sa description formelle dans un langage de recherche d'informations - une image de recherche du document. La requête est indexée de la même manière, à laquelle sont attribuées une image de requête de recherche et une prescription de recherche. Les algorithmes de recherche d'informations sont basés sur la comparaison de la prescription de recherche avec l'image de recherche de la requête. Le critère de délivrance d'un document à une demande peut être une correspondance complète ou partielle de l'image de recherche du document et de l'instruction de recherche. Dans certains cas, l'utilisateur a la possibilité de formuler lui-même les critères d'émission. Ceci est déterminé par son besoin d’information. Les systèmes automatisés de recherche d’informations utilisent souvent des langages de recherche d’informations descripteurs. Le sujet d'un document est décrit par un ensemble de descripteurs. Les descripteurs sont des mots et des termes qui désignent des catégories et des concepts simples et assez élémentaires du domaine problématique. Autant de descripteurs sont saisis dans l’image de recherche du document, autant de sujets différents sont abordés dans le document. Le nombre de descripteurs n'est pas limité, ce qui permet de décrire le document dans une matrice multidimensionnelle de fonctionnalités. Souvent, dans un langage de recherche d'informations sur les descripteurs, des restrictions sont imposées sur la compatibilité des descripteurs. Dans ce cas, on peut dire que le langage de recherche d’informations a une syntaxe.

L'un des premiers systèmes fonctionnant avec un langage de descripteur fut le système américain UNITERM, créé par M. Taube. Les mots-clés du document (uniterms) fonctionnaient comme descripteurs dans ce système. La particularité de cet IRS est qu'au départ le dictionnaire du langage de l'information n'était pas spécifié, mais est apparu au cours du processus d'indexation du document et de la requête. Le développement de systèmes modernes de recherche d'informations est associé au développement de systèmes de recherche d'informations de type non thésaurus. De tels systèmes d'information fonctionnent avec l'utilisateur dans un langage naturel limité, et la recherche s'effectue à travers les textes des résumés de documents, à travers leurs descriptions bibliographiques et souvent à travers les documents eux-mêmes. Pour l'indexation dans l'IRS de type non thésaurus, des mots et des expressions en langage naturel sont utilisés.

Dans une certaine mesure, le domaine de la linguistique informatique peut inclure des travaux dans le domaine de la création de systèmes hypertextes, considérés comme une manière particulière d'organiser le texte et même comme un type de texte fondamentalement nouveau, contrastant dans nombre de ses propriétés avec le texte ordinaire formé dans la tradition de l'imprimerie de Gutenberg. L'idée d'hypertexte est associée au nom de Vannevar Bush, conseiller scientifique du président F. Roosevelt. V. Bush a théoriquement justifié le projet du système technique Memex, qui permettait à l'utilisateur de relier des textes et leurs fragments à l'aide de divers types de connexions, principalement par des relations associatives. Le manque de technologie informatique a rendu le projet difficile à mettre en œuvre, car le système mécanique s'est avéré trop complexe pour une mise en œuvre pratique.

L'idée de Bush renaît dans les années 1960 avec le système Xanadu de T. Nelson, qui impliquait déjà l'utilisation de la technologie informatique. « Xanadu » permettait à l'utilisateur de lire un ensemble de textes entrés dans le système de différentes manières, dans des séquences différentes ; le logiciel permettait à la fois de mémoriser la séquence des textes visualisés et de sélectionner presque n'importe lequel d'entre eux à tout moment ; Un ensemble de textes avec des relations qui les relient (un système de transitions) a été appelé hypertexte par T. Nelson. De nombreux chercheurs considèrent la création de l’hypertexte comme le début d’une nouvelle ère de l’information, opposée à l’ère de l’imprimerie. La linéarité de l'écriture, qui reflète extérieurement la linéarité de la parole, s'avère être une catégorie fondamentale qui limite la pensée humaine et la compréhension du texte. Le monde du sens n'est pas linéaire, par conséquent, la compression des informations sémantiques dans un segment de parole linéaire nécessite l'utilisation de « packages communicatifs » spéciaux - division en thème et rhème, division du plan de contenu d'un énoncé en explicite (énoncé, proposition, focus ) et implicite (présupposition, conséquence, implicature du discours). Le refus de la linéarité du texte tant dans le processus de présentation au lecteur (c'est-à-dire lors de la lecture et de la compréhension) que dans le processus de synthèse, selon les théoriciens, contribuerait à la « libération » de la pensée, voire à l'émergence de sa de nouvelles formes.

Dans un système informatique, l'hypertexte se présente sous la forme d'un graphe dont les nœuds contiennent des textes traditionnels ou leurs fragments, des images, des tableaux, des vidéos, etc. Les nœuds sont reliés par diverses relations dont les types sont spécifiés par les développeurs de logiciels hypertextes ou par le lecteur lui-même. Les relations définissent les possibilités potentielles de mouvement ou de navigation via l'hypertexte. Les relations peuvent être unidirectionnelles ou bidirectionnelles. En conséquence, les flèches bidirectionnelles permettent à l'utilisateur de se déplacer dans les deux directions, tandis que les flèches unidirectionnelles permettent à l'utilisateur de se déplacer dans une seule direction. La chaîne de nœuds par laquelle passe le lecteur lors de la visualisation des composants du texte forme un chemin, ou un itinéraire.

Les implémentations informatiques de l'hypertexte peuvent être hiérarchiques ou en réseau. La structure hiérarchique – arborescente – de l’hypertexte limite considérablement les possibilités de transition entre ses composants. Dans un tel hypertexte, les relations entre les composants ressemblent à la structure d'un thésaurus basé sur les relations genre-espèce. L'hypertexte en réseau permet d'utiliser différents types de relations entre les composants, sans se limiter aux relations genre-espèce. Selon le mode d'existence de l'hypertexte, on distingue les hypertextes statiques et dynamiques. L'hypertexte statique ne change pas pendant le fonctionnement ; L'utilisateur peut y enregistrer ses commentaires, mais ils ne changent pas l'essence du problème. Pour l’hypertexte dynamique, le changement est une forme normale d’existence. Généralement, les hypertextes dynamiques fonctionnent là où il est nécessaire d'analyser en permanence le flux d'informations, c'est-à-dire dans des services d'information de toutes sortes. L'hypertexte est, par exemple, l'Arizona Information System (AAIS), qui est mis à jour mensuellement avec 300 à 500 résumés par mois.

Les relations entre les éléments hypertextes peuvent être initialement fixées par les créateurs, ou elles peuvent être générées chaque fois qu'un utilisateur accède à l'hypertexte. Dans le premier cas, nous parlons d'hypertextes de structure dure, et dans le second, d'hypertextes de structure souple. La structure rigide est technologiquement tout à fait compréhensible. La technologie d'organisation d'une structure souple doit être basée sur une analyse sémantique de la proximité des documents (ou d'autres sources d'information) les uns par rapport aux autres. Il s’agit d’une tâche non triviale en linguistique computationnelle. De nos jours, l’utilisation de technologies de structure douce sur les mots-clés est très répandue. Le passage d'un nœud à un autre dans un réseau hypertexte s'effectue à la suite d'une recherche de mots-clés. L’ensemble des mots-clés pouvant être différent à chaque fois, la structure de l’hypertexte change à chaque fois.

La technologie de création de systèmes hypertextes ne fait pas de distinction entre les informations textuelles et non textuelles. Parallèlement, l'inclusion d'informations visuelles et audio (vidéos, images, photographies, enregistrements sonores, etc.) nécessite un changement important dans l'interface utilisateur et un logiciel et un support informatique plus puissants. De tels systèmes sont appelés hypermédia ou multimédia. La visibilité des systèmes multimédias a prédéterminé leur utilisation généralisée dans l'éducation et dans la création de versions informatiques d'encyclopédies. Il existe, par exemple, des CD-ROM magnifiquement réalisés avec des systèmes multimédias basés sur des encyclopédies pour enfants publiées par Dorlin Kindersley.

Dans le cadre de la lexicographie informatique, des technologies informatiques permettant de compiler et d'exploiter des dictionnaires sont en cours de développement. Des programmes spéciaux - bases de données, classeurs informatiques, programmes de traitement de texte - vous permettent de générer automatiquement des entrées de dictionnaire, de stocker des informations dans le dictionnaire et de les traiter. De nombreux programmes lexicographiques informatiques différents sont divisés en deux grands groupes : les programmes de support des œuvres lexicographiques et les dictionnaires automatiques de divers types, y compris les bases de données lexicographiques. Un dictionnaire automatique est un dictionnaire dans un format machine spécial destiné à être utilisé sur un ordinateur par un utilisateur ou un programme informatique de traitement de texte. En d’autres termes, il existe une distinction entre les dictionnaires automatiques destinés à l’utilisateur final humain et les dictionnaires automatiques destinés aux programmes de traitement de texte. Les dictionnaires automatiques destinés à l'utilisateur final diffèrent considérablement dans l'interface et la structure de l'entrée du dictionnaire des dictionnaires automatiques inclus dans les systèmes de traduction automatique, les systèmes de résumé automatique, les systèmes de recherche d'informations, etc. Il s’agit le plus souvent de versions informatiques de dictionnaires conventionnels bien connus. Sur le marché des logiciels, il existe des analogues informatiques des dictionnaires explicatifs de la langue anglaise (le Webster automatique, le dictionnaire explicatif automatique de la langue anglaise publié par Collins, la version automatique du New Large English-Russe Dictionary édité par Yu.D. Apresyan et E.M. Mednikova), il existe également une version informatique du dictionnaire d'Ojegov. Les dictionnaires automatiques destinés aux programmes de traitement de texte peuvent être appelés dictionnaires automatiques au sens strict. Ils ne sont généralement pas destinés à l’utilisateur moyen. Les caractéristiques de leur structure et la portée du matériel de vocabulaire sont déterminées par les programmes qui interagissent avec eux.

La modélisation informatique de la structure de l'intrigue est un autre domaine prometteur de la linguistique informatique. L'étude de la structure de l'intrigue concerne les problèmes de critique littéraire structurelle (au sens large), de sémiotique et d'études culturelles. Les programmes informatiques disponibles pour la modélisation d'intrigues sont basés sur trois formalismes de base pour la représentation d'intrigue : les directions morphologiques et syntaxiques de la représentation d'intrigue, ainsi que sur l'approche cognitive. Les idées sur la structure morphologique de la structure de l'intrigue remontent aux œuvres célèbres de V.Ya Propp ( cm.) sur un conte de fées russe. Propp a remarqué qu'avec l'abondance de personnages et d'événements dans un conte de fées, le nombre de fonctions des personnages est limité, et il a proposé un appareil pour décrire ces fonctions. Les idées de Propp ont constitué la base du programme informatique TALE, qui simule la génération d'une intrigue de conte de fées. L'algorithme du programme TALE est basé sur la séquence de fonctions des personnages du conte de fées. En fait, les fonctions de Propp définissaient un ensemble de situations typées, ordonnées sur la base d'une analyse de matériel empirique. Les possibilités de relier diverses situations dans les règles de génération étaient déterminées par une séquence typique de fonctions - sous la forme sous laquelle celle-ci peut être établie à partir des textes de contes de fées. Dans le programme, des séquences de fonctions typiques ont été décrites comme des scénarios typiques de rencontre de personnages.

La base théorique de l'approche syntaxique de l'intrigue d'un texte était les « grammaires d'histoire » ou « grammaires d'histoire ». Ils sont apparus au milieu des années 1970 à la suite du transfert des idées de la grammaire générative de N. Chomsky à la description de la macrostructure du texte. Si les composants les plus importants de la structure syntaxique dans une grammaire générative étaient des phrases verbales et nominales, alors dans la plupart des grammaires d'intrigue, l'exposition (le cadre), l'événement et l'épisode étaient distingués comme éléments de base. Dans la théorie des grammaires d'intrigue, les conditions de minimalité, c'est-à-dire les restrictions qui déterminent le statut d'une séquence d'éléments d'intrigue en tant qu'intrigue normale, ont été largement discutées. Il s’est toutefois avéré que cela ne peut pas être réalisé en utilisant des méthodes purement linguistiques. De nombreuses restrictions sont de nature socioculturelle. Les grammaires de l'intrigue, bien que différant considérablement dans l'ensemble des catégories dans l'arbre de génération, permettaient un ensemble très limité de règles pour modifier la structure narrative.

Au début des années 1980, l'une des élèves de R. Schenk, V. Lehnert, dans le cadre de ses travaux sur la création d'un générateur d'intrigue informatique, a proposé un formalisme original d'unités d'intrigue émotionnelles (Affective Plot Units), qui s'est avéré être un moyen puissant de représenter la structure de l’intrigue. Bien qu’il ait été initialement développé pour un système d’intelligence artificielle, ce formalisme a été utilisé dans des études purement théoriques. L'essence de l'approche de Lehnert était que l'intrigue était décrite comme un changement séquentiel dans les états cognitifs et émotionnels des personnages. Ainsi, le formalisme de Lehnert ne se concentre pas sur les composantes externes de l’intrigue – exposition, événement, épisode, moralité – mais sur ses caractéristiques de contenu. À cet égard, le formalisme de Lehnert constitue en partie un retour aux idées de Propp.

La compétence de la linguistique informatique comprend également la traduction automatique, qui connaît actuellement une renaissance.

Littérature:

Popov E.V. Communication avec un ordinateur en langage naturel. M., 1982
Sadur V.G. Communication vocale avec les ordinateurs électroniques et problèmes de leur développement. – Dans le livre : Communication vocale : problèmes et perspectives. M., 1983
Baranov A.N. Catégories d'intelligence artificielle en sémantique linguistique. Cadres et scripts. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modélisation de la communication dans les systèmes homme-machine. – Support linguistique des systèmes d’information. M., 1987
Olker H.R. Contes de fées, tragédies et manières de présenter l'histoire du monde. – Dans l’ouvrage : Langage et modélisation de l’interaction sociale. M., 1987
Gorodetsky B.Yu. Linguistique computationnelle : modélisation de la communication linguistique
McQueen K. Stratégies discursives pour la synthèse de textes en langage naturel. – Nouveau en linguistique étrangère. Vol. XXIV, Linguistique computationnelle. M., 1989
Popov E.V., Preobrazhensky A.B. . Caractéristiques de la mise en œuvre des systèmes NL
Préobrajenski A.B. État de développement des systèmes NL modernes. - Intelligence artificielle. Livre 1, Systèmes de communication et systèmes experts. M., 1990
Subbotin M.M. Hypertexte. Une nouvelle forme de communication écrite. – VINITI, Sér. Informatique, 1994, vol.
Baranov A.N. Introduction à la linguistique appliquée. M., 2000

TRAVAIL DE COURS

dans la discipline "Informatique"

sur le thème : « Linguistique computationnelle »

INTRODUCTION

2. Interfaces modernes pour la linguistique informatique

CONCLUSION

LITTÉRATURE

Introduction

Les technologies de l'information automatisées jouent un rôle important dans la vie de la société moderne. Au fil du temps, leur importance ne cesse de croître. Mais le développement des technologies de l'information est très inégal : si le niveau moderne de la technologie informatique et des communications est étonnant, alors dans le domaine du traitement sémantique de l'information, les succès sont beaucoup plus modestes. Ces succès dépendent avant tout des progrès réalisés dans l'étude des processus de la pensée humaine, des processus de communication verbale entre les personnes et de la capacité de modéliser ces processus sur un ordinateur.

Lorsqu'il s'agit de créer des technologies de l'information prometteuses, les problèmes de traitement automatique des informations textuelles présentées en langues naturelles apparaissent au premier plan. Ceci est dû au fait que la pensée d’une personne est étroitement liée à sa langue. De plus, le langage naturel est un outil de réflexion. C'est aussi un moyen universel de communication entre les personnes - un moyen de perception, d'accumulation, de stockage, de traitement et de transmission de l'information. La science de la linguistique informatique traite des problèmes liés à l'utilisation du langage naturel dans les systèmes de traitement automatique de l'information. Cette science est apparue relativement récemment - au tournant des années cinquante et soixante du siècle dernier. Au cours du dernier demi-siècle, des résultats scientifiques et pratiques importants ont été obtenus dans le domaine de la linguistique informatique : systèmes de traduction automatique de textes d'une langue naturelle à une autre, systèmes de recherche automatisée d'informations dans des textes, systèmes d'analyse et de synthèse automatiques de l'oral. discours, et bien d’autres ont été créés. Ce travail est consacré à la construction d'une interface informatique optimale utilisant la linguistique informatique lors de la conduite de recherches linguistiques.

1. La place et le rôle de la linguistique computationnelle dans la recherche linguistique

Dans le monde moderne, la linguistique computationnelle est de plus en plus utilisée pour mener diverses études linguistiques.

La linguistique computationnelle est un domaine de connaissances associé à la résolution de problèmes de traitement automatique d'informations présentées en langage naturel. Les problèmes scientifiques centraux de la linguistique informatique sont le problème de la modélisation du processus de compréhension du sens des textes (passage du texte à une représentation formalisée de son sens) et le problème de la synthèse vocale (passage d'une représentation formalisée du sens aux textes en langage naturel langue). Ces problèmes se posent lors de la résolution d'un certain nombre de problèmes appliqués et, en particulier, des problèmes de détection et de correction automatiques d'erreurs lors de la saisie de textes dans un ordinateur, d'analyse et de synthèse automatiques de la parole orale, de traduction automatique de textes d'une langue à une autre, de communication avec un ordinateur en langage naturel, la classification et l'indexation automatiques des documents texte, leur résumé automatique, la recherche de documents dans des bases de données en texte intégral.

Les outils linguistiques créés et utilisés en linguistique computationnelle peuvent être divisés en deux parties : déclarative et procédurale. La partie déclarative comprend des dictionnaires d'unités de langage et de parole, des textes et divers types de tables de grammaire, la partie procédurale comprend des moyens de manipulation des unités de langue et de parole, des textes et des tables de grammaire. L'interface informatique fait référence à la partie procédurale de la linguistique informatique.

Le succès dans la résolution des problèmes appliqués de linguistique informatique dépend avant tout de l'exhaustivité et de l'exactitude de la représentation des moyens déclaratifs dans la mémoire de l'ordinateur et de la qualité des moyens procéduraux. À ce jour, le niveau requis pour résoudre ces problèmes n'a pas encore été atteint, bien que des travaux dans le domaine de la linguistique informatique soient menés dans tous les pays développés du monde (Russie, États-Unis, Angleterre, France, Allemagne, Japon, etc. ).

Néanmoins, de sérieuses réalisations scientifiques et pratiques dans le domaine de la linguistique computationnelle peuvent être notées. Ainsi, dans plusieurs pays (Russie, États-Unis, Japon, etc.) des systèmes expérimentaux et industriels de traduction automatique de textes d'une langue à une autre ont été construits, un certain nombre de systèmes expérimentaux de communication avec des ordinateurs en langage naturel ont été construits , des travaux sont en cours pour créer des banques de données terminologiques, des thésaurus, des dictionnaires automatiques bilingues et multilingues (Russie, USA, Allemagne, France, etc.), des systèmes d'analyse et de synthèse automatiques de la parole orale sont en construction (Russie, USA, Japon, etc. .), des recherches sont menées dans le domaine de la construction de modèles de langage naturel.

Un problème méthodologique important de la linguistique informatique appliquée est l'évaluation correcte de la relation nécessaire entre les composants déclaratifs et procéduraux des systèmes de traitement automatique de l'information textuelle. Que faut-il préférer : des procédures de calcul puissantes basées sur des systèmes de vocabulaire relativement petits avec de riches informations grammaticales et sémantiques, ou un composant déclaratif puissant avec des interfaces informatiques relativement simples ? La plupart des scientifiques estiment que la deuxième voie est préférable. Cela permettra d'atteindre plus rapidement des objectifs pratiques, car il y aura moins d'impasses et d'obstacles difficiles à surmonter, et il sera alors possible d'utiliser les ordinateurs à plus grande échelle pour automatiser la recherche et le développement.

La nécessité de mobiliser les efforts, en premier lieu, sur le développement de la composante déclarative des systèmes de traitement automatique de l'information textuelle est confirmée par un demi-siècle d'expérience dans le développement de la linguistique informatique. Après tout, malgré les succès indéniables de cette science, la passion pour les procédures algorithmiques n'a pas apporté le succès escompté. Il y a même eu une certaine déception quant aux capacités des moyens procéduraux.

À la lumière de ce qui précède, il semble prometteur de développer une telle voie de développement de la linguistique informatique, lorsque les principaux efforts viseront à créer de puissants dictionnaires d'unités linguistiques et vocales, à étudier leur structure sémantico-syntaxique et à créer des procédures de base pour les analyses morphologiques, analyse et synthèse sémantico-syntaxique et conceptuelle de textes. Cela nous permettra de résoudre un large éventail de problèmes appliqués à l’avenir.

La linguistique informatique est avant tout confrontée aux tâches de support linguistique pour les processus de collecte, d'accumulation, de traitement et de récupération d'informations. Les plus importants d'entre eux sont :

1. Automatisation de la compilation et du traitement linguistique des dictionnaires automatiques ;

2. Automatisation des processus de détection et de correction des erreurs lors de la saisie de textes dans un ordinateur ;

3. Indexation automatique des documents et demandes d'informations ;

4. Classification et résumé automatiques des documents ;

5. Support linguistique pour les processus de recherche d'informations dans des bases de données monolingues et multilingues ;

6. Traduction automatique de textes d'une langue naturelle à une autre ;

7. Construction de processeurs linguistiques assurant la communication de l'utilisateur avec des systèmes d'information intelligents automatisés (notamment les systèmes experts) en langage naturel, ou dans un langage proche du naturel ;

8. Extraire des informations factuelles à partir de textes informels.

Arrêtons-nous en détail sur les problèmes les plus pertinents pour le sujet de recherche.

Dans les activités pratiques des centres d'information, il est nécessaire de résoudre le problème de la détection et de la correction automatisées des erreurs dans les textes lors de leur saisie dans un ordinateur. Cette tâche complexe peut être conditionnellement divisée en trois tâches : tâches de contrôle orthographique, syntaxique et sémantique des textes. Le premier d’entre eux peut être résolu à l’aide d’une procédure d’analyse morphologique qui utilise un dictionnaire machine de référence assez puissant de radicaux de mots. Dans le processus de contrôle orthographique, les mots du texte sont soumis à une analyse morphologique, et si leurs bases sont identifiées avec les bases du dictionnaire de référence, alors ils sont considérés comme corrects ; s'ils ne sont pas identifiés, alors ils, accompagnés d'un microcontexte, sont présentés à une personne pour visualisation. Une personne détecte et corrige les mots déformés, et le système logiciel correspondant apporte ces corrections au texte corrigé.

La tâche de contrôle syntaxique des textes afin d'y détecter les erreurs est beaucoup plus difficile que la tâche de contrôle orthographique. Premièrement, parce qu'il inclut la tâche de contrôle orthographique comme composante obligatoire, et, deuxièmement, parce que le problème de l'analyse syntaxique des textes informels n'a pas encore été entièrement résolu. Toutefois, un contrôle syntaxique partiel des textes est tout à fait possible. Ici, vous pouvez procéder de deux manières : soit compiler des dictionnaires automatiques assez représentatifs des structures syntaxiques de référence et comparer avec celles-ci les structures syntaxiques du texte analysé ; ou développer un système complexe de règles pour vérifier la cohérence grammaticale des éléments de texte. La première voie nous semble plus prometteuse, même si elle n'exclut bien entendu pas la possibilité d'utiliser des éléments de la seconde voie. La structure syntaxique des textes doit être décrite en termes de classes grammaticales de mots (plus précisément, sous la forme de séquences d'ensembles d'informations grammaticales pour les mots).

La tâche de contrôle sémantique des textes afin d'y détecter les erreurs sémantiques doit être classée comme une classe de tâches d'intelligence artificielle. Il ne peut être résolu dans son intégralité que sur la base d’une modélisation des processus de la pensée humaine. Dans ce cas, il faudra apparemment créer de puissantes bases de connaissances encyclopédiques et des outils logiciels de manipulation des connaissances. Néanmoins, pour des domaines limités et pour des informations formalisées, cette tâche est tout à fait réalisable. Il doit être posé et résolu comme un problème de contrôle sémantico-syntaxique des textes.

Le problème de l'automatisation de l'indexation des documents et des requêtes est traditionnel pour les systèmes automatisés de recherche d'informations textuelles. Au début, l'indexation était comprise comme le processus d'attribution d'indices de classification aux documents et aux requêtes qui reflétaient leur contenu thématique. Par la suite, ce concept s'est transformé et le terme « indexation » a commencé à désigner le processus de traduction des descriptions de documents et de requêtes du langage naturel vers un langage formalisé, en particulier vers le langage des « images de recherche ». En règle générale, les images de recherche de documents ont commencé à être rédigées sous la forme de listes de mots-clés et d'expressions reflétant leur contenu thématique, et les images de recherche de requêtes - sous la forme de structures logiques dans lesquelles les mots-clés et les expressions étaient connectés les uns aux autres. par des opérateurs logiques et syntaxiques.

Il est pratique d'indexer automatiquement les documents sur la base des textes de leurs résumés (le cas échéant), car les résumés reflètent le contenu principal des documents sous une forme concentrée. L'indexation peut être effectuée avec ou sans contrôle du thésaurus. Dans le premier cas, dans le texte du titre du document et de son résumé, les mots et expressions clés du dictionnaire machine de référence sont recherchés et seuls ceux qui se trouvent dans le dictionnaire sont inclus dans l'AML. Dans le second cas, les mots et expressions clés sont isolés du texte et inclus dans le POD, indépendamment de leur appartenance à un dictionnaire de référence. Une troisième option a également été mise en œuvre : outre les termes du thésaurus automatique, l'AML incluait également des termes extraits du titre et de la première phrase du résumé du document. Des expériences ont montré que les POD compilés automatiquement à l'aide de titres et de résumés de documents fournissent une recherche plus complète que les POD compilés manuellement. Cela s'explique par le fait que le système d'indexation automatique reflète mieux divers aspects du contenu des documents que le système d'indexation manuelle.

L'indexation automatique des requêtes pose à peu près les mêmes problèmes que l'indexation automatique des documents. Ici, vous devez également extraire des mots-clés et des expressions du texte et normaliser les mots inclus dans le texte de la requête. Les connexions logiques entre les mots-clés, les expressions et les opérateurs contextuels peuvent être saisies manuellement ou à l'aide d'une procédure automatisée. Un élément important du processus d'indexation automatique d'une requête est l'ajout de ses mots-clés et expressions constitutifs avec leurs synonymes et hyponymes (parfois également des hyperonymes et d'autres termes associés aux termes de la requête d'origine). Cela peut être fait automatiquement ou de manière interactive à l’aide d’un thésaurus machine.

Nous avons déjà partiellement envisagé le problème de l'automatisation de la recherche d'informations documentaires en lien avec la tâche d'indexation automatique. Le plus prometteur ici est la recherche de documents à partir de leurs textes intégraux, puisque l'utilisation de toutes sortes de substituts à cet effet (descriptions bibliographiques, recherche d'images de documents et de textes de leurs résumés) entraîne une perte d'informations lors de la recherche. Les pertes les plus importantes se produisent lorsque les descriptions bibliographiques sont utilisées comme substituts aux documents primaires, et les pertes les plus faibles se produisent lorsque les résumés sont utilisés.

Les caractéristiques importantes de la qualité de la recherche d'informations sont son exhaustivité et son exactitude. L'exhaustivité de la recherche peut être assurée en tenant compte au maximum des connexions paradigmatiques entre les unités du langage et de la parole (mots et phrases), et l'exactitude - en tenant compte de leurs connexions syntagmatiques. Il existe une opinion selon laquelle l'exhaustivité et l'exactitude d'une recherche sont inversement liées : les mesures visant à améliorer l'une de ces caractéristiques entraînent une détérioration de l'autre. Mais cela n’est vrai que pour une logique de recherche fixe. Si cette logique est améliorée, alors les deux caractéristiques peuvent être améliorées simultanément.

Il est conseillé de construire le processus de recherche d'informations dans des bases de données en texte intégral comme un processus de communication interactive entre l'utilisateur et le système de recherche d'informations (IRS), dans lequel il visualise séquentiellement des fragments de texte (paragraphes) qui satisfont aux conditions logiques de la demande, et sélectionne celles qui l'intéressent. Les textes intégraux des documents ainsi que leurs fragments peuvent être renvoyés comme résultats de recherche finaux.

Comme le montrent les discussions précédentes, lors de la recherche automatique d'informations, il est nécessaire de surmonter la barrière linguistique qui apparaît entre l'utilisateur et le système d'information en raison de la variété des formes de représentation du même sens qui apparaissent dans les textes. Cet obstacle devient encore plus important si la recherche doit être effectuée dans des bases de données multilingues. Une solution radicale au problème pourrait être la traduction automatique des textes des documents d’une langue à une autre. Cela peut être fait soit à l'avance, avant de charger des documents dans un moteur de recherche, soit pendant le processus de recherche d'informations. Dans ce dernier cas, la demande de l'utilisateur doit être traduite dans la langue du tableau de documents dans lequel la recherche est effectuée, et les résultats de la recherche doivent être traduits dans la langue de la demande. Ce type de moteurs de recherche fonctionne déjà sur Internet. VINITI RAS a également construit un système de navigateur cyrillique, qui vous permet de rechercher des informations dans des textes en russe à l'aide de requêtes en anglais avec des résultats de recherche également dans la langue de l'utilisateur.

Une tâche importante et prometteuse de la linguistique informatique est la construction de processeurs linguistiques qui assurent la communication des utilisateurs avec des systèmes d'information automatisés intelligents (en particulier les systèmes experts) en langage naturel ou dans un langage proche du naturel. Étant donné que dans les systèmes intelligents modernes, les informations sont stockées sous une forme formalisée, les processeurs linguistiques, agissant en tant qu'intermédiaires entre une personne et un ordinateur, doivent résoudre les tâches principales suivantes : 1) la tâche de transition des textes des demandes d'informations saisies et des messages en naturel langage pour représenter leur signification dans un langage formalisé (lors de la saisie d'informations dans un ordinateur) ; 2) la tâche de transition d'une représentation formalisée de la signification des messages de sortie à sa représentation en langage naturel (lors de la délivrance d'informations à une personne). La première tâche doit être résolue par une analyse morphologique, syntaxique et conceptuelle des requêtes et des messages d'entrée, la seconde - par une synthèse conceptuelle, syntaxique et morphologique des messages de sortie.

L'analyse conceptuelle des demandes d'information et des messages consiste à identifier leur structure conceptuelle (les limites des noms de concepts et les relations entre les concepts dans le texte) et à traduire cette structure dans un langage formalisé. Elle est réalisée après analyse morphologique et syntaxique des requêtes et des messages. La synthèse conceptuelle des messages consiste en le passage de la représentation des éléments de leur structure dans un langage formalisé à une représentation verbale (verbale). Après cela, les messages reçoivent le format syntaxique et morphologique nécessaire.

Pour la traduction automatique de textes d'une langue naturelle à une autre, il est nécessaire de disposer de dictionnaires de correspondance de traduction entre les noms de concepts. Les connaissances sur ces correspondances de traduction ont été accumulées par de nombreuses générations de personnes et compilées sous la forme de publications spéciales - dictionnaires bilingues ou multilingues. Pour les spécialistes ayant une certaine connaissance des langues étrangères, ces dictionnaires constituaient une aide précieuse pour la traduction des textes.

Dans les dictionnaires généraux traditionnels bilingues et multilingues, les équivalents de traduction étaient indiqués principalement pour des mots individuels et pour des phrases - beaucoup moins souvent. L'indication des équivalents de traduction pour les phrases était plus typique des dictionnaires terminologiques spéciaux. Ainsi, lors de la traduction de sections de textes contenant des mots polysémantiques, les étudiants rencontraient souvent des difficultés.

Vous trouverez ci-dessous les correspondances de traduction entre plusieurs paires de phrases anglaises et russes sur des sujets « scolaires ».

1) La chauve-souris ressemble à une souris avec des ailes – La chauve-souris ressemble à une souris avec des ailes.

2) Les enfants aiment jouer dans le sable sur la plage - Les enfants adorent jouer dans le sable au bord de la mer.

3) Une goutte de pluie est tombée sur ma main - Une goutte de pluie est tombée sur ma main.

4) Le bois sec brûle facilement – le bois sec brûle bien.

5) Il a fait semblant de ne pas m'entendre - Il a fait semblant de ne pas m'entendre.

Ici, les expressions anglaises ne sont pas des expressions idiomatiques. Cependant, leur traduction en russe ne peut être considérée que dans une certaine mesure comme une simple traduction mot à mot, car presque tous les mots qui y sont inclus sont polysémantiques. Par conséquent, seuls les acquis de la linguistique informatique peuvent ici aider les étudiants.