Saisons

Maison

Peintures d'artistes Matériel de Wikipédia - l'encyclopédie gratuite Dictionnaire de fréquence(ou liste de fréquences) - un ensemble de mots d'une langue (ou sous-langue) donnée ainsi que des informations sur la fréquence de leur apparition. Le dictionnaire peut être trié par fréquence, par ordre alphabétique (puis pour chaque mot sa fréquence sera indiquée), par groupes de mots (par exemple, les mille premiers mots les plus fréquents, suivis du second, etc.), par typicité (mots qui sont fréquentes pour les textes majoritaires), etc. Les listes de fréquences sont utilisées pour l'enseignement des langues, la création de nouveaux dictionnaires, les applications de la linguistique computationnelle, la recherche dans le domaine

typologie linguistique

, etc. Construction de listes de fréquences Généralement, les dictionnaires de fréquences sont construits sur la base de corpus de textes : on prend un ensemble de textes représentatifs de la langue dans son ensemble, pour un certain domaine, ou

cet auteur

  • (voir le Dictionnaire des fréquences de Griboïedov) et des formes de mots, des lemmes et des parties du discours en sont extraits (ces derniers sont extraits si le corpus présente des marquages ​​morphologiques).
  • Les défis liés à la création de listes de fréquences sont les suivants :
  • reproductibilité (les résultats seront-ils identiques sur un autre organisme similaire), des pics dans la fréquence de mots individuels (la fréquence d'un mot dans un texte peut affecter sa position dans la liste de fréquences), la difficulté de déterminer la position des mots les moins fréquents, ce qui ne permet pas de les classer rationnellement ; par exemple, le mot déchets est inclus dans les 20 000 mots les plus fréquents, tandis que le mot

grognement est en dehors de la liste des 40 000 premiers. Tous ces problèmes sont liés au fait que point statistique Selon nous, le langage représente un grand nombre d'événements rares (loi de Zipf), de sorte qu'un petit nombre de mots apparaissent très souvent et que la grande majorité des mots ont une très faible fréquence. Fréquence des mots Et(le mot le plus fréquent dans la langue russe) est environ 10 fois supérieure à la fréquence du mot Ô, qui à son tour apparaît 100 fois plus souvent que des mots aussi ordinaires que voyages, vieillesse.

ou mode ) : si plusieurs textes du corpus parlent de hobbits, alors ce mot sera utilisé dans presque toutes les phrases. En conséquence, sa fréquence dans ces textes sera comparable à la fréquence des mots de fonction, mais dans la liste de fréquence d'un grand corpus comprenant de tels textes, ce mot aura un rang invraisemblablement élevé. De telles sursauts de fréquence peuvent être évalués à l’aide du coefficient de variation : le rapport entre l’écart type et la fréquence moyenne.

Comparaison de cas

Les dictionnaires de fréquence offrent la possibilité de comparer deux corpus pour déterminer les mots les plus caractéristiques de chacun. Étant donné que la taille des corpus peut être différente, une estimation plus fiable de la fréquence des mots repose sur leur réduction à fmc (fréquence par million de formes de mots, anglais). ipm, instances par million de mots ). Mot point statistique a une fréquence d'environ 30 000 hms, mot vieillesse- environ 30.

Pour définir un ensemble mots-clés Pour distinguer un cas d'un autre, vous pouvez utiliser différentes mesures statistiques : chi carré, rapport de vraisemblance (eng. Test du rapport de vraisemblance ) etc.

Voir aussi

Donnez votre avis sur l'article "Dictionnaire de fréquences"

Littérature

  • Adam Kilgarriff// Revue internationale de lexicographie. - 1997. - N° 10(2). - P. 135-155.
  • Lyashevskaya O.N., Sharov S.A.. - M. : Azbukovnik, 2009. - 1087 p. - ISBN978-5-91172-024-7.
  • Dictionnaire des fréquences // Grande Encyclopédie Soviétique : [en 30 volumes] / ch. éd. A.M. Prokhorov. - 3e éd. -M. : Encyclopédie soviétique, 1969-1978.
  • Dictionnaire des fréquences de la langue russe / Ed. L. N. Zasorina. - M. : langue russe, 1977.
  • // Encyclopédie Lermontov / Académie des sciences de l'URSS. Institut de russe allumé. (Pouchkine. Maison) ; Éd. scientifique. Conseil de la maison d'édition "Sov. Encycl." - M. : Sov. Encycl., 1981. - pp. 717-774.
  • Sharov S.A. .
  • Steinfeldt E.A. Dictionnaire des fréquences du russe moderne langue littéraire. - M., 1973.

Links

Un extrait caractérisant le Dictionnaire des Fréquences

Les fantassins arrêtés, entassés dans la boue piétinée près du pont, regardaient les hussards propres et élégants qui passaient devant eux avec ce sentiment particulier d'aliénation et de ridicule que l'on rencontre habituellement dans diverses branches de l'armée.
- Les gars intelligents ! Si seulement c'était à Podnovinskoe !
- A quoi servent-ils ? Ils ne conduisent que pour le spectacle ! - dit un autre.
- Infanterie, n'époussetez pas ! - a plaisanté le hussard, sous lequel le cheval, en jouant, a éclaboussé le fantassin avec de la boue.
« Si je t'avais fait faire deux marches avec ton sac à dos, les lacets auraient été usés », dit le fantassin en essuyant la saleté de son visage avec sa manche ; - sinon ce n'est pas une personne, mais un oiseau posé !
"Si seulement je pouvais te mettre à cheval, Zikin, si tu étais agile", a plaisanté le caporal à propos du soldat maigre, courbé sous le poids de son sac à dos.
« Prends la massue entre tes jambes, et tu auras un cheval », répondit le hussard.

Le reste de l'infanterie se précipita sur le pont, formant un entonnoir à l'entrée. Finalement, toutes les charrettes passèrent, la cohue devint moindre et le dernier bataillon entra sur le pont. Seuls les hussards de l'escadre de Denisov restèrent de l'autre côté du pont contre l'ennemi. L'ennemi, visible au loin depuis la montagne opposée, d'en bas, depuis le pont, n'était pas encore visible, puisque du creux le long duquel coulait la rivière, l'horizon se terminait à l'élévation opposée à moins d'un demi-mille de distance. Devant nous se trouvait un désert le long duquel se déplaçaient ici et là des groupes de nos cosaques itinérants. Soudain, sur la colline opposée de la route, apparurent des troupes en cagoules bleues et de l'artillerie. C'étaient les Français. La patrouille cosaque s'éloigna au trot vers la descente. Tous les officiers et hommes de l'escadron de Denissov, bien qu'ils essayaient de parler des étrangers et de regarder autour d'eux, ne cessaient de penser uniquement à ce qui se trouvait sur la montagne et scrutaient constamment les points de l'horizon qu'ils reconnaissaient comme des troupes ennemies. Le temps s'éclaircit à nouveau dans l'après-midi, le soleil se coucha brillamment sur le Danube et les sombres montagnes qui l'entourent. C'était calme et, depuis cette montagne, on pouvait parfois entendre les sons des klaxons et les cris de l'ennemi. Il n'y avait personne entre l'escadron et les ennemis, à l'exception de petites patrouilles. Un espace vide, trois cents toises, les séparait de lui. L'ennemi cessa de tirer et on sentit plus clairement cette ligne stricte, menaçante, imprenable et insaisissable qui séparait les deux troupes ennemies.
« Un pas au-delà de cette ligne, qui rappelle celle qui sépare les vivants des morts, et - l'inconnu de la souffrance et de la mort. Alors qu'est-ce qu'il y a ? qui est là ? là, au-delà de ce champ, et l'arbre, et le toit éclairé par le soleil ? Personne ne le sait, et je veux le savoir ; et c'est effrayant de franchir cette ligne, et vous voulez la franchir ; et vous savez que tôt ou tard vous devrez la franchir et découvrir ce qu’il y a de l’autre côté de la ligne, tout comme il est inévitable de découvrir ce qu’il y a de l’autre côté de la mort. Et lui-même est fort, en bonne santé, joyeux et irrité, et entouré de gens si sains et si irritables. Même s'il ne réfléchit pas, toute personne qui est en vue de l'ennemi le ressent, et ce sentiment donne un éclat particulier et une joyeuse netteté d'impressions à tout ce qui se passe pendant ces minutes.
La fumée d'un coup de feu apparut sur la butte ennemie, et le boulet de canon, sifflant, survola les têtes de l'escadron de hussards. Les officiers rassemblés se rendirent à leur place. Les hussards commencèrent soigneusement à redresser leurs chevaux. Tout dans l'escadron se tut. Tout le monde regardait devant lui l'ennemi et le commandant de l'escadron, attendant un commandement. Un autre troisième boulet de canon passa. Il est évident qu'ils tiraient sur les hussards ; mais le boulet de canon, sifflant uniformément et rapidement, passa au-dessus des têtes des hussards et frappa quelque part derrière. Les hussards ne se retournaient pas, mais à chaque bruit d'un boulet volant, comme sur commandement, l'escadron tout entier aux visages monotones et variés, retenant son souffle tandis que le boulet volait, se soulevait sur ses étriers et retombait. Les soldats, sans tourner la tête, se regardaient de côté, cherchant curieusement l'impression de leur camarade. Sur tous les visages, de Denisov au clairon, un trait commun de lutte, d'irritation et d'excitation apparaissait près des lèvres et du menton. Le sergent fronça les sourcils, regardant les soldats autour de lui, comme s'il menaçait de les punir. Junker Mironov se penchait à chaque passage du boulet de canon. Rostov, debout sur le flanc gauche sur son Grachik touché mais visible, avait l'air heureux d'un étudiant convoqué devant un large public pour un examen dans lequel il était sûr de exceller. Il regardait clairement et vivement tout le monde, comme pour leur demander de prêter attention au calme avec lequel il se tenait sous les boulets de canon. Mais sur son visage aussi, le même trait de quelque chose de nouveau et de sévère, contre sa volonté, apparaissait près de sa bouche.
-Qui s'incline là ? Yunkeg "Mig"ons ! Hexog, regarde-moi ! - a crié Denisov, incapable de rester immobile et tournant sur son cheval devant l'escadron.
Le visage au nez retroussé et aux cheveux noirs de Vaska Denisov et toute sa petite silhouette battue avec sa main musclée (aux doigts courts couverts de poils), dans laquelle il tenait la poignée d'un sabre tiré, étaient exactement les mêmes que d'habitude, surtout le soir, après avoir bu deux bouteilles. Il était seulement plus rouge que d'habitude et, levant sa tête hirsute, comme les oiseaux quand ils boivent, enfonçant impitoyablement des éperons dans les flancs du bon Bédouin avec ses petits pieds, il, comme s'il tombait à la renverse, galopa vers l'autre flanc du escadron et cria d'une voix rauque pour qu'on examine les pistolets. Il est allé voir Kirsten. Le capitaine du quartier général, sur une jument large et calme, chevauchait au pas vers Denissov. Le capitaine d'état-major, avec sa longue moustache, était sérieux, comme toujours, seuls ses yeux brillaient plus que d'habitude.

DICTIONNAIRE DE FRÉQUENCE
DU CORPS NATIONAL DE LA LANGUE RUSSE : CONCEPT ET TECHNOLOGIE DE CRÉATION

DICTIONNAIRE DE FRÉQUENCES DU CORPUS NATIONAL RUSSE : PRINCIPES ET TECHNOLOGIE

Lyashevskaya O.N. ([email protégé] ) , Institut de langue russe du nom. V.V.Vinogradov, Moscou
Sharov S.A.
([email protégé] ), Université de Leeds, Royaume-Uni

Le dictionnaire contient un vocabulaire de base représentatif de la langue russe moderne (2e moitié XX – début XXI siècles), fourni des informations sur la fréquence d'utilisation, la répartition statistique par texte et genre, et par moment de création des textes. Le dictionnaire est basé sur les textes du Corpus national de la langue russe avec un volume de 100 millions de mots.

1. Présentation

Plusieurs dictionnaires de fréquences ont été développés pour la langue russe. Le pionnier fut le dictionnaire de G..Yosselson, publié en 1953 à Détroit sur le matériel linguistique principalement de la Russie pré-révolutionnaire. Dictionnaires d'E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) et d'autres ont été créés sur la base de recueils de textes relativement petits (400 000 à 1 million de mots) et en dans une large mesure refléter les spécificités de la langue russe de la période soviétique : fréquences des mots camarade Et faire la fête en eux sont comparables à des mots de fonction, et le mot peigne absent. Il y a aussi dictionnaires spécialisés, notamment le dictionnaire d'E.M. Stepanova (1976), dédié au vocabulaire scientifique général. Une branche distincte des dictionnaires statistiques comprend les dictionnaires de la langue de Pouchkine, Dostoïevski, Griboïedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakova et al. 1996), qui décrivent complètement la langue d'un écrivain donné.

Le nouveau dictionnaire de fréquences est universel. Bien que son dernier prédécesseur direct soit sorti il ​​y a 15 ans (Lenngren 1993), il est évident que beaucoup de choses ont changé au cours de cette période - à la fois le langage lui-même et la technologie de préparation des dictionnaires de fréquences. Notre dictionnaire a pour objectif de présenter un tableau statistique de l'usage des mots modernes (1950-2005), comblant notamment le vide des deux dernières décennies, et également de montrer les changements survenus dans la langue depuis 1950.

Le dictionnaire est basé sur un corpus de 100 millions de mots, alors que les dictionnaires précédents reposaient sur du matériel allant de 400 000 à 1 million d'utilisations de mots. Le Corpus national (www.ruscorpora.ru, NKRY 2005) est plus représentatif en termes de couverture matérielle, car il contient une collection équilibrée de textes différents types, genres et styles, y compris des textes des pays russes à l'étranger. Répartition des textes dans le sous-corpus de la langue russe moderne (depuis 1950) par styles fonctionnels indiqué dans le tableau 1. Les textes ne sont pas fiction portent sur plus de 50 domaines (économie et finance, droit, voyages, etc.), et leur typologie va des lois et articles scientifiques aux interviews, instructions et annonces (plus de 100 types au total). Les textes littéraires comprennent les romans, les nouvelles, les nouvelles, les essais, les pièces de théâtre, les contes de fées, les essais, les lettres littéraires, etc.

Fiction

Journalisme

Autres non-fiction

Littérature orale

Tableau 1. Styles fonctionnels du sous-corpus de la langue russe moderne

Grande taille et l'équilibre stylistique du corpus sont une condition préalable pour qu'il donne des résultats statistiques fiables pour les mots les plus fréquents : par exemple, la composition des 20 000 premiers éléments ne changera pas significativement si, tout en maintenant la proportion, ces textes sont remplacés par d'autres ou plusieurs sous-échantillons du corpus sont comparés. Cela montre l'expérience acquise dans la compilation de dictionnaires de fréquences d'autres 100 millions de corpus nationaux, comme celui du Royaume-Uni., tchèque ( Leech et coll. 2001, Čermák & Křen 2004), ainsi que le corpus de langue espagnole ( Davies 2005) . Naturellement, le dictionnaire des fréquences du NKR est guidé à bien des égards, tant en termes technologiques que de contenu, par ces échantillons.

2. Taille du corpus et fiabilité de l’échantillonnage

Les dictionnaires de fréquences existants pour la langue russe étaient construits sur des corpus relativement petits : les ordinateurs des premières générations ne pouvaient pas fonctionner avec des corpus. taille plus grande. Il est intéressant de noter que les recommandations théoriques développées dans les années 1970 (Piotrovsky et al. 1972) ont également prouvé que pour décrire de manière fiable les 1 600 à 1 700 mots les plus fréquents, il suffit d’utiliser un corpus de 400 000 usages de mots. Cet argument reposait sur la notion d'intervalle de confiance, largement utilisée en statistique et en sociologie : si l'on connaît la taille de l'échantillon et la probabilité expérimentale d'un événement dans cet échantillon (c'est-à-dire la fréquence d'un mot dans notre corpus), alors nous pouvons calculer intervalle de confiance la probabilité de cet événement dans l'ensemble de la population (c'est-à-dire la fréquence d'utilisation du même mot dans tout l'espace linguistique).

Le tableau 2 fournit des exemples de fréquences de mots individuels dans les dictionnaires Lenngren, Zasorina et Steinfeld en comparaison avec les fréquences du NKRY et du corpus de 150 millions de personnes de la langue russe collecté sur Internet (pour ce dernier, voir Sharoff 2006). ). Même si les mots penser, tâche, aimer appartiennent certainement au noyau de la langue (ils font partie des 200 à 500 lemmes les plus fréquents) ; dans les petits corpus, même leur fréquence diffère assez sensiblement ; Fréquence des mots relativement moins fréquents ( pollution, étude, mignon) varie dans des limites encore plus grandes. Bien que la composition du corpus Internet diffère assez sensiblement de celle du NCR (avec un plus grand nombre de textes et de forums techniques et moins de fiction), les différences de fréquence de ces unités entre elles ne sont pas si grandes.

Lemme

Lenngren

Zorina

Steinf.

NKRYA

Internet

pouvoir

pense

1094

1058

pollution

tâche

étudier

amour

Mignon

Tableau 2 : Comparaison de la fréquence des mots individuels (moyenne par million d'occurrences).

Comme nous pouvons le constater, les recommandations théoriques concernant une taille de boîtier suffisante dans ce cas ne sont pas très fiables. La raison en réside dans les hypothèses initiales d’une distribution gaussienne normale de la fréquence des mots, selon laquelle chaque mot apparaît avec la même fréquence dans tous les textes. Si un mot apparaît une fois dans le texte, alors distribution normale cela n’affecte pas la probabilité de l’utiliser une deuxième fois. Mais en réalité, ce n’est pas le cas. Chaque texte a son propre thème dont les mots dans ce texte seront utilisés beaucoup plus souvent que la moyenne. Dans le texte sur les Hobbits, le mot hobbit sera utilisé aussi souvent que possible mots de fonction, ce qui augmentera considérablement sa fréquence dans le corpus, qui comprendra au moins un de ces textes. De ce fait, la liste de fréquences construite à partir du corpus reflète les spécificités des textes qui y ont été inclus lors de sa compilation.

Le tableau 2 montre l’imperfection des dictionnaires de fréquences construits sur des corpus relativement petits, mais le simple fait d’augmenter la taille du corpus ne garantit pas non plus la stabilité des résultats. Lors de l’interprétation des listes des dictionnaires de fréquences, il faut se rappeler que tout corpus, quelle que soit sa taille, est un sous-ensemble fini d’un ensemble potentiellement infini de textes dans une langue donnée. Tout autre échantillon de ce sous-ensemble produira une liste légèrement différente, qui différera par ses éléments de fréquence inférieure. Corps plus grand, réfléchissant plus thèmes et styles fonctionnels (type boîtier BNC ou NKRYA), offre une bonne fiabilité pour les éléments les plus fréquents. Cependant, une nouvelle augmentation du volume des textes se fait au détriment de leur diversité (voir par exemple les projets de création de Giga-corpus d'anglais et langues chinoises, contenant plus d'un milliard d'utilisations de mots de textes d'actualité, Cieri & Liberman 2002), peut conduire à une moindre fiabilité de la liste de fréquences sur ces corpus en raison d'un déplacement de leur vocabulaire vers le vocabulaire d'actualité.

Puisque la tâche d'un dictionnaire de fréquences n'est pas simplement de classer les mots selon leur fréquence dans un corpus distinct, mais aussi de déterminer le noyau lexical d'une langue, il est nécessaire de séparer les mots qui apparaissent fréquemment dans de nombreux textes de ceux dont le comportement lexical est différent. semblable aux mots Noriega, qui à son tour apparaît 100 fois plus souvent que des mots aussi ordinaires que hobbit, et qui s'est retrouvé accidentellement à une position ou une autre dans la liste des fréquences. Ainsi, le Corpus national tchèque utilise le concept de fréquence moyenne réduite (ARF), dans lequel la fréquence d'un mot est pondérée par la distance entre les occurrences de mots individuels (Čermak & Křen 2005). De nombreux dictionnaires de fréquences (Lenngren, British National Corpus, French Business Dictionary) utilisent le coefficient D introduit par A. Juilland (Juilland et al. 1970), qui prend en compte à la fois le nombre de documents dans lesquels un mot apparaît et sa fréquence relative dans ces documents :


où μ est la fréquence moyenne des mots dans l'ensemble du corpus, σ est l'écart type de cette fréquence dans les documents individuels,n– le nombre de documents dans lesquels ce mot apparaît.

La valeur D des mots qui apparaissent dans la majorité des documents est proche de 100, et pour les mots qui apparaissent fréquemment dans un petit nombre de documents seulement, elle est proche de 0. La liste de fréquences du dictionnaire de Lenngren est même triée selon la valeur de le produit de ce coefficient et de la fréquence moyenne du mot. Etant donné que le statut théorique de ce travail n’est pas clair, nous n’avons pas jugé approprié de trier notre dictionnaire en fonction de celui-ci. Cependant, son indication pour chaque mot permet d'évaluer sa spécificité pour chaque mot. domaines. Par exemple, les mots effrayant, particulier et cru ont environ fréquence égale(21 occurrences par million de mots), mais le coefficient D pour spécifique est de 66, brut est de 18 et effrayant est de 78, ce qui signifie que dernier mot significatif pour un plus grand nombre de domaines et (avec d’autres conditions égales) a de grandes chances de trouver sa place dans un dictionnaire généraliste.

3. Structure du dictionnaire

Le concept du dictionnaire implique la publication d'une version « papier » accompagnée d'une version électronique, représentant le dictionnaire des fréquences dans un volume plus complet. La partie vocabulaire contient les sections suivantes :

I. Vocabulaire général

liste alphabétique des lemmes

liste de fréquences des lemmes

répartition des lemmes par styles fonctionnels :

Ø dictionnaire des fréquences de fiction,

Dictionnaire du vocabulaire significatif de la fiction

Ø dictionnaire des fréquences du journalisme,

dictionnaire du vocabulaire important des journaux et de l'actualité

Ø dictionnaire de fréquences d'autres ouvrages de non-fiction,

dictionnaire de vocabulaire significatif

Ø dictionnaire des fréquences du discours oral en direct,

dictionnaire en direct de vocabulaire significatif discours oral

liste alphabétique des formes de mots

II. Parties du discours

liste de fréquence des noms

liste des verbes de fréquence

liste de fréquence des adjectifs

liste de fréquence des adverbes et des prédicats

liste de fréquence des pronoms (pronoms nominaux, adjectifs, adverbes, prédicats)

liste de fréquences des lemmes unités de service discours

III. Tableaux auxiliaires

données sur la fréquence des cours de parole partielle et autres informations statistiques

IV . Noms propres et abréviations

liste alphabétique des lemmes

La liste alphabétique des lemmes contient le nom du lemme, la partie du discours, la fréquence globale du lemme, le nombre de documents dans lesquels il est apparu et le coefficient de variation D. La fréquence globale caractérise le nombre d'occurrences par million. mots du corpus, ou ipm (instances par million de mots). Ceci afin de faciliter la comparaison des fréquences de mots dans différents corpus, dont la taille peut varier considérablement. Par exemple, si le mot pouvoir apparaît 55 fois dans un corpus de 400 000 mots, 364 fois dans un corpus d'un million de mots et 40 598 fois dans un corpus de 100 millions de mots de la langue russe moderne, et 55 673 fois dans un grand corpus. de 135 millions de mots du NKR, alors sa fréquence en ipm sera respectivement de 137,5, 364,0, 372,06 et 412,39. La liste alphabétique de la publication électronique comprend 60 000 lemmes les plus fréquents.

La liste des lemmes, classées par fréquence, montre le nom du lemme, la partie du discours, la fréquence globale du lemme, le nombre de documents, le facteur D et la distribution des fréquences par décennie. La liste des fréquences comprend les 20 000 lemmes les plus fréquents.

Les dictionnaires de fréquence des styles fonctionnels sont compilés sur la base des sous-corpus de fiction, de journalisme, d'autres ouvrages de non-fiction et de discours oral. La liste comprend les 5 000 lemmes les plus fréquents de ces sous-corpus. Une liste des lemmes les plus typiques pour chaque type de texte a été identifiée sur la base d'une comparaison de la fréquence des lemmes dans ces textes et dans le reste du corpus. Comme mesure de comparaison, le critère du rapport de vraisemblance (log-vraisemblance) a été utilisé, calculé sur la base de la matrice suivante :

Sous-corps

Autres textes

Corps entier

Fréquence

une + b

Taille


À partir de cette matrice, la valeur du rapport de vraisemblance G2 peut être calculée à l'aide de la formule suivante (Rayson & Garside 2000) :

Les dictionnaires de vocabulaire significatif pour différents styles fonctionnels comprennent 500 lemmes.

La liste alphabétique des formes de mots comprend toutes les formes de mots du corpus avec une fréquence supérieure à 0,1 ipm (environ 15 000 au total) ; La fréquence générale de la forme du mot est donnée. Les formes de mots homonymes sont marquées d'un *.

Dans la section « Parties du discours », la liste de fréquences des lemmes est divisée en six sous-listes : noms, verbes, adjectifs, adverbes et prédicats, pronoms et parties fonctionnelles du discours. Pour chaque lemme, sa fréquence globale et son rang (numéro ordinal) dans la liste générale sont indiqués. Chaque liste contient 1 000 lemmes les plus fréquents.

Les tableaux auxiliaires comprennent des données sur la fréquence des classes de discours partiel, d'autres catégories grammaticales, ainsi que des informations sur la couverture du texte par lexèmes, la longueur moyenne d'un mot, la forme du mot et la phrase.

Le dictionnaire se termine par une liste alphabétique de noms propres et d'abréviations. Les noms propres sont séparés de la partie principale du dictionnaire, car ils forment un groupe beaucoup moins stable statistiquement, et leur fréquence dépend largement du choix des textes du corpus et de leur chronotope. Lenngren 1993 a exprimé l'opinion que l'inclusion de noms propres dans le dictionnaire des fréquences sur une base générale conduit inévitablement à son obsolescence prématurée.

Pour obtenir une liste de noms propres et d'abréviations de la concordance du corpus, on a identifié des noms et des abréviations dont l'orthographe dans les textes avec lettres majuscules dépassé le seuil de 95 pour cent, cf. Russie, Smirnov, centrale électrique du district d'État, ministère des Affaires étrangères, Code du travail. Le dictionnaire reprend la partie nucléaire de cette liste, regroupant les 3 000 unités les plus fréquentes.

Selon la tradition qui s'est développée pour les publications de ce genre, la rubrique « Faits intéressants » est présentée sur les pages du dictionnaire : listes des mots les plus populaires de divers groupes lexicaux (jours de la semaine, phénomènes météorologiques, couleurs, verbes de mouvement, etc.) sont publiés, ainsi que les formes de mots les plus longues et une liste de fréquences des signes de ponctuation.

6429

costume

2288

manteau

4890

botte

2179

jupe

3696

manteau

1904

pardessus

3696

chemise

1894

tenue*

3410

veste

1822

chaussure

3396

capuchon

1668

chemise

3126

botte

1633

jeans

3041

mouchoir

1585

gant

2962

blazer

1522

manteau de fourrure

2955

pantalon

1356

uniforme

2840

pantalon

1251

capuchon

2686

chapeau

1235

pull-over

2617

béret

1134

bottes en feutre

Tableau 3 : Liste de fréquence des désignations de vêtements et de chaussures.

A titre d'exemple, dans le tableau 3, nous présentons les fréquences des noms désignant des vêtements et des chaussures. Comme on pouvait s'y attendre, la liste reflète, d'une part, les éléments « typiques » de la garde-robe ( bottes en feutre n'occupent que la 26e place de la liste), et d'autre part, leur « importance » pour décrire l'apparence d'une personne dans les textes ( costume- une chose plus perceptuellement distinguée que bottes).

4. Préparation du matériel de vocabulaire

Les listes de dictionnaires de fréquences de base ont été obtenues automatiquement, en utilisant le balisage métatextuel et lexico-grammatical du corpus. Sur la base des informations métatextes, des listes de fréquences ont été construites et comparées les unes aux autres sur des échantillons distincts du corpus (par styles fonctionnels, par moment de création du texte). Un autre type de marquage, lexical-grammatical, permet d'établir la forme originale d'un mot (lemme), sa partie du discours et des caractéristiques grammaticales telles que le cas, le nombre, le temps, etc. fréquence non seulement des formes de mots individuelles, mais aussi des lexèmes, ainsi que de l'utilisation de certaines catégories grammaticales. Lors de la création de ce dictionnaire, une variante du marquage lexical-grammatical du corpus avec résolution automatique de l'homonymie morphologique a été utilisée.

Le russe, en tant que langue à flexion riche, crée des difficultés supplémentaires pour les compilateurs de dictionnaires de fréquences, car de nombreuses formes de mots dans les textes sont homonymes (cf. forme de mot acier comme forme verbale devenir et nom acier, forme de mot pot, représentant les lemmes banque Et pot, des mots comme foi Et Foi). Cependant, dans un dictionnaire de fréquences, la forme originale d'un mot, ou lemme, doit être attribuée de manière unique à n'importe quelle forme de mot.

Dans les dictionnaires de la génération précédente (Zasorina 1977, Lenngren 1993), l'homonymie était résolue manuellement, le volume du corpus traité étant insignifiant. Évidemment, cette solution n’est pas adaptée à un cas de 100 millions de personnes. Lors de l'élaboration de ce dictionnaire, l'expérience de collègues tchèques a été prise en compte, qui ont dû modifier l'analyseur morphologique, élargir le dictionnaire et effectuer une édition manuelle. Initialement, le corpus NCRY a été marqué avec l'analyseur morphologique Mystem (Segalovich, Maslov 1998). L'ambiguïté dans le marquage lexico-grammatical a été résolue à l'aide du programme A.V. Sokirko, en utilisant le modèle du trigramme et un sous-corpus de formation avec homonymie supprimée manuellement (Sokirko, Toldova 2005).

Les mots hors dictionnaire posent également un problème important pour la lemmatisation (Lyashevskaya et al. 2007). Si un mot ne figure pas dans le dictionnaire grammatical de l'analyseur morphologique, alors une ou plusieurs hypothèses le concernant lui sont assignées. forme originale les mots et les siens caractéristiques grammaticales. En conséquence, le dictionnaire des fréquences inclut des « lemmes » tels que reconnaissant(cf. forme de mot gratitude), Jansny(cf. Jansen), Barclay(cf. Barclay). Pendant ce temps, la part des formes de mots hors dictionnaire dans le NCRL représente 3 % de tous les usages de mots et 45 % de la liste des formes de mots du corpus. Pour les formes de mots fréquents hors dictionnaire, des programmes de post-traitement pour le marquage morphologique du NKRJ, compilés par B.P., ont été utilisés. Kobritsov et G.K. Bronnikov, ainsi que les résultats de validation des travaux de ces programmes obtenus par O.N. Lyashevskaya et D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Deux approches de lemmatisation de mots non-dictionnaires se sont révélées les plus efficaces : le regroupement d'hypothèses sur le lemme et le type de paradigme (l'analyse la plus probable pour une forme de mot est considérée comme celle que l'on trouve également dans d'autres formes de mots non-dictionnaires). formes de mots du dictionnaire, donc les formes de mots « recherchent » leurs voisins dans le paradigme flexionnel) et identifient les consoles les plus productives.

Étant donné que la résolution automatique des homonymes et l'interprétation des formes non-dictionnaires permettent une certaine erreur, quoique mineure, les homonymes inclus dans les 20 000 premiers mots de fréquence ont été soumis à une vérification manuelle supplémentaire.

***

Les auteurs expriment leur gratitude à V.A. Plungeanu, A.Ya. Shaikevich, ainsi que E.A. Grishina, B.P. Kobritsova, E.V. Rakhilina, D.V. Sichinava et d'autres participants du séminaire NCRY qui ont pris part à la discussion sur les principes de création du dictionnaire. Nous remercions O. Uryupina, D. et G. Bronnikovs, B. Kobritsov, les employés de Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko pour leur aide dans la collecte et le traitement du matériel.

O.G. (comp.). Dictionnaire du langage poétique de Marina Tsvetaeva. En 4 tomes. M : Maison-Musée de Marina Tsvetaeva, 1996.

Vinogradov V.V. (éditeur responsable). Dictionnaire de la langue de Pouchkine. T. I–IV. M., 1956-1961.

Zalizniak Les AA Dictionnaire de grammaire de la langue russe : Inflexion. M., 197 7 ; 4e éd. : M. : Dictionnaires russes, 2003.

Zorina L.N. (éd.). Dictionnaire des fréquences de la langue russe. Moscou : langue russe, 1977 .

Lönngren Dirigé.). Dictionnaire des fréquences de la langue russe moderne [ Lö nngren, Lennart. Le dictionnaire des fréquences du russe moderne. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Uppsala, 1993.

Liachevskaïa O.N.. Sur le problème de la lemmatisation des mots hors dictionnaire // Linguistique informatique et technologies intellectuelles : Actes de la conférence internationale « Dialogue 2007 ». M., 2007.

Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automatisation de la construction de dictionnaires basée sur un ensemble de formes de mots non-dictionnaires // Internet Mathematics 2007. Ekaterinbourg, 2007.

NKRY : Corpus national de la langue russe 2003-2005 : résultats et perspectives. M. : Indrik, 2005.

Piotrovsky R.G., Bektaev K.B., PiotrovskayaLes AA. Linguistique mathématique. M. : lycée, 1972.

Polyakov A.E.. Dictionnaire électronique la langue de l'écrivain (en utilisant l'exemple de la langue d'A.S. Griboïedov) // Actes du séminaire international Dialogue-99 sur la linguistique informatique et ses applications. Taroussa, 1999. M., 1999.

T. 2. pp. 230-236. Segalovitch I., Maslov M.. Analyse et synthèse morphologique russe avec génération de modèles d'inflexion pour des mots non décrits dans le dictionnaire // Actes séminaire international

Dialogue"98 sur la linguistique informatique et ses applications. Kazan, 1998. T.2. pp. 547-552. Sokirko A.V., Toldova S. Yu. Comparaison de l'efficacité de deux méthodes pour lever l'ambiguïté lexicale et morphologique pour la langue russe // Conférence internationale. , 2004.

"Linguistique de Corpus 2004". S.-Pb Stepanova, 1976 .

E.M. Dictionnaire fréquentiel du vocabulaire scientifique général. M. Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya, 2003.

N / A. Dictionnaire statistique de la langue de Dostoïevski. M. : Langues de la culture slave Steinfeld E.A. Dictionnaire des fréquences de la langue littéraire russe moderne., 1963 .

Tallinn Čermák F. , Křen, 2004 .

M. (éd.). Frekvenční slovník češtiny (Dictionnaire des fréquences du tchèque). Prague : NLN Čermák F., Křen M. Dictionnaires de fréquences nouvelle génération basés sur des corpus : Le cas du tchèque //

Journal international de linguistique de corpus, 10, 2005, pp. 453-467.Église K.W. Estimations empiriques de l'adaptation : la chance de deux Noriegas est plus proche de p/2 que de p 2 // Actes du 18e AVEC

conférence sur la linguistique computationnelle (COLING). Sarrebruck, Allemagne, 2000. Vol. 1. P. 180-186.

Cieri Ch., Liberman M. Création et distribution de ressources linguistiques au Consortium de données linguistiques // Actes du LREC 02. Las Palmas, Espagne, 2002. pp. Davies M., 2005.

Un dictionnaire de fréquence de l'espagnol : vocabulaire de base pour les apprenants. Londres – New York : Routledge Josselson H.H. Le nombre de mots russes et l'analyse de la fréquence des catégories grammaticales du russe littéraire standard. Détroit : Wayne, 1953.

Presse universitaire Juilland A., Brodin D., Davidovitch C. Dictionnaire fréquentiel des mots français. La Haye

- Paris : Mouton, 1970.

Kilgarriff A. Mettre les fréquences dans le dictionnaire // International Journal of Lexicography, 10 (2), 1997. P. 135-155. Leech G., Rayson P., Wilson, 2001.

A. Fréquences des mots en anglais écrit et parlé : basées sur le British National Corpus. Londres : Longman Rayson P., Garside R. Comparaison de corpus à l'aide du profilage de fréquence // Actes de l'atelier de comparaison de corpus à l'ACL 2000. Hong Kong

, 2000. P. 1-6.

Dans lequel les mots les plus couramment utilisés dans le discours sont sélectionnés (généralement parmi plusieurs milliers). Le « Dictionnaire des fréquences de la langue littéraire russe moderne » de E. A. Steinfeldt (1963) a été publié comme manuel destiné aux enseignants. Le dictionnaire, contenant 2 500 mots, fournit une liste de mots par fréquence, des listes de mots par partie du discours, indiquant la fréquence de certaines formes, et une liste générale de mots par alphabet. En 1968, le dictionnaire « 2 380 mots les plus courants dans le langage familier russe » a été publié, préparé par les professeurs de langue russe de l'Université de l'Amitié des Peuples. Patrice Lumumba. Le dictionnaire des fréquences publié aux États-Unis par G.G. est plus complet dans sa composition. Yosselson (1953), construit sur du matériel de genres divers avec un nombre total de mots d'environ un million et contenant 5 230 mots, répartis en deux listes ; dans le premier, le nombre de mots spécifié est divisé en six groupes par ordre de fréquence d'utilisation décroissante, dans le second, les mots sont classés en ordre alphabétique, indiquant le numéro du groupe dans lequel le mot est présenté dans la première liste. Lors de l'évaluation et de l'utilisation de ce dictionnaire, il convient de garder à l'esprit que près de la moitié des textes examinés appartiennent à la période pré-révolutionnaire (25 % d'entre eux appartiennent à la période 1830-1900). de nombreux cas ne reflètent pas l’usage moderne des mots. Une sélection spéciale de matériel est disponible dans deux dictionnaires de fréquences du Fr. Malirja. L'un d'eux (1951) a été créé sur le matériau Journaux soviétiques et des magazines de 1948, un autre (1961) est basé sur l'analyse de textes de lettres d'écoliers soviétiques aux Tchécoslovaques ; les deux poursuivent objectifs d'apprentissage. En 1970, le « Dictionnaire des fréquences du vocabulaire scientifique général » a été publié, édité par E. M. Stepanova, et en 1971, le « Dictionnaire des fréquences du langage des journaux » par G. P. Polyakova et G. Ya Solganik. Dictionnaire étymologique. Un dictionnaire contenant des mots avec une explication de leur origine. Le premier dictionnaire étymologique russe était « Korneslov de la langue russe, comparé à tous les principaux dialectes slaves et à vingt-quatre langues étrangères» F. S. Chimkevitch (1842). Le dictionnaire contient 1378 racines de mots russes courants, dans de nombreux cas il y a des comparaisons arbitraires et des déclarations erronées. Suivant dans ordre chronologiqueétait « L'expérience d'un dictionnaire de la langue russe par rapport aux langues indo-européennes » de M. Ieyumov (1880), qui se situait également à un faible niveau niveau théorique. De meilleure qualité, bien que non exempt d'explications incorrectes, était le « Dictionnaire étymologique comparé de la langue russe » de N.V. Goryaev (1892). La plus célèbre des publications pré-révolutionnaires est le « Dictionnaire étymologique de la langue russe » de A. G. Preobrazhensky (du vivant de l'auteur, 14 numéros ont été publiés en 1910-1916, combinés en deux volumes ; la version finale a été publiée en 1949 dans « Actes de l'Institut de la langue russe de l'Académie des sciences de l'URSS » ; le dictionnaire a été entièrement réimprimé de manière photomécanique). Le dictionnaire contient une explication de l'étymologie de nombreux mots russes couramment utilisés et de certains mots empruntés. Ceux-ci et d’autres sont regroupés selon des mots ou des racines primitives. Pour les mots rares, des références à des écrivains sont généralement fournies. Bien que le dictionnaire soit loin d'être complet et contienne de nombreuses explications dépassées pour notre époque ou tout simplement incorrectes, il constitue néanmoins un guide important pour l'étymologie. En 1961, « Un bref dictionnaire étymologique de la langue russe » a été publié par N. M. Shansky, V. V. Ivanov et T. V. Shanskaya, édité par S. G. Barkhudarov. Dictionnaire publié comme guide scientifique populaire pour les enseignants lycée, contient une interprétation étymologique des mots couramment utilisés de la langue littéraire russe moderne inclus dans son actions actives. Lors de l'explication des mots russes, la séquence du processus de formation des mots est généralement indiquée (la deuxième édition a été publiée en 1971, la troisième, corrigée et augmentée, en 1975). Pour pratique scolaire destiné à l'essai « Dictionnaire étymologique scolaire », créé par une équipe de linguistes de l'État de Kalinin institut pédagogique sous la direction de G. M. Mileikovskaya et en considérant 180 racines (1957), et le dictionnaire « Pourquoi pas autrement ? L. V. Uspensky, contenant des histoires divertissantes sur la vie des mots (1967). En 1970, paraît le « Dictionnaire étymologique de la langue russe » de G. P. Tsyganenko, publié à Kiev. Le dictionnaire est à caractère scientifique populaire et se veut un outil de référence pour les professeurs de littérature et les élèves du secondaire. Depuis 1963, le « Dictionnaire étymologique de la langue russe » a commencé à être publié dans des numéros séparés, dont les travaux sont en cours au bureau étymologique du Bureau d'étymologie de Moscou. université d'état sous la direction de N. M. Shansky. Le dictionnaire, destiné aux philologues spécialisés, devrait être publié en huit volumes principaux et deux volumes supplémentaires, dans lesquels l'étymologie des dialectismes et mots dépassés. Études étymologiques dans le domaine de la langue russe sont également réalisés à l'étranger. En 1950-1958 Un livre en trois volumes a été publié dans des éditions séparées à Heidelberg. « Dictionnaire étymologique russe » de M. Vasmer (en 1964-1973, sous le titre « Dictionnaire étymologique de la langue russe » avec des ajouts par le traducteur O. N. Trubatchev, il a été publié en russe en quatre volumes à Moscou). Ce dictionnaire est le plus complet des dictionnaires de ce type et contient, en plus de noms communs, un assez grand nombre de noms de personnes et noms géographiques. Cependant, le dictionnaire n’est pas exempt d’inexactitudes, d’erreurs et de comparaisons injustifiées. Actuellement, la publication du « Dictionnaire étymologique » en plusieurs volumes a commencé. Langues slaves. Proto-slave fonds lexical», édité par O. N. Trubachev. Le premier numéro (1974) contient une préface décrivant les principes de reconstruction du vocabulaire proto-slave, des listes de références et du dictionnaire lui-même. Pour taper dictionnaires étymologiques est adjacent au « Concise Toponymic Dictionary » de V. A. Nikonov, contenant des informations sur l'origine et le sort d'environ 4 000 noms des plus grands objets géographiques URSS et pays étrangers (1966), ainsi que

"Dictionnaire des noms de personnes russes" de N. A. Petrovsky, qui comprend environ 2 600 noms de personnes et fournit des informations sur leur origine (1967), et "Dictionnaire des noms de résidents (RSFSR)" (édité par A. M. Babkin), dans lequel environ 6 000 noms des résidents ont été collectés colonies de la Fédération de Russie et les noms des résidents des capitales des républiques fédérées (1964), « Dictionnaire des noms des résidents de l'URSS » (édité par A. M. Babkin et E. A. Levashov), dont l'annexe fournit également la première expérience de recueillir les noms des habitants des villes de pays étrangers (1975).

Les dictionnaires de fréquence sont des dictionnaires qui contiennent des caractéristiques numériques de la fréquence des mots ; les mots qu'ils contiennent sont classés en fonction de la fréquence d'utilisation des mots dans des textes d'une certaine longueur. Celui-ci est comparativement nouveau type publications lexicographiques en dernières années a commencé à se développer particulièrement activement en relation avec l'introduction de nouvelles technologies dans la lexicographie.

Les dictionnaires de fréquences fournissent une richesse de matériel pour résoudre un certain nombre de problèmes théoriques et appliqués généraux. problèmes linguistiques, ils sont nécessaires à l'élaboration de dictionnaires pédagogiques, à l'élaboration de manuels scolaires et à l'adaptation linguistique et méthodologique des textes.

Le premier dictionnaire de fréquences en linguistique russe était le « Dictionnaire de fréquences de la langue littéraire russe moderne » d'E.A. Steinfeldt, compilé à partir de matériaux littérature moderne, presse, émissions de radio (années 50-60 du XXe siècle) et s'adressant principalement aux professeurs de russe langue seconde. Il présente des données sur la fréquence des mots obtenues à partir du traitement de 400 000 mots de texte. Le dictionnaire contient des mots couvrant jusqu'à 80 % de textes différents. Outre les indications habituelles sur le nombre d'usages, est donné le nombre de textes dans lesquels un mot donné est noté. Sont donnés caractéristiques statistiques quelques catégories morphologiques. Dictionnaire d'E.A. Steinfeldt a servi de base à la compilation de nombreux dictionnaires explicatifs pédagogiques et dictionnaires minimaux.

« Dictionnaire des fréquences de la langue russe » édité par L.N. Zasorina est une collection de données statistiques sur la composition lexicale de la langue russe moderne. Le dictionnaire a été compilé sur la base d'un traitement au moyen technologie informatique 1 million d'utilisations de mots ; il couvre non seulement le langage de la fiction, mais aussi le langage journalistique et discours d'affaires, qui existait dans le domaine de la communication de masse. Le cadre chronologique du dictionnaire, comme le notent les compilateurs, « embrasse l'époque des œuvres de Lénine et Gorki jusqu'aux années 60 », de sorte que les chercheurs reçoivent du matériel précieux pour étudier le vocabulaire. ère soviétique. Le dictionnaire des fréquences alphabétiques comprend tous les lexèmes présents dans les textes, chaque unité lexicale est dotée de caractéristiques quantitatives. Le dictionnaire de fréquences contient des mots avec une fréquence de 10 et plus, soit un total de 9 044 unités, classées par ordre décroissant de fréquence. Diverses caractéristiques statistiques des unités de vocabulaire créent la base pour étudier la structure statistique du vocabulaire de la langue russe et pour déterminer les limites du vocabulaire principal. L'annexe contient un grand signification pratique liste des homographes et homonymes grammaticaux.

Les bases de données modernes ont donné une impulsion puissante au développement de dictionnaires de fréquences. Le « Dictionnaire des fréquences de la langue russe moderne » d'O. N. Lyashevskaya et S. A. Sharov est basé sur une collection de textes du Corpus national de la langue russe, représentant la langue russe moderne de la période 1950-2007. La taille de l’échantillon sur lequel sont basées la plupart des sections du dictionnaire est de 92 millions d’utilisations de mots. Le dictionnaire contient diverses informations statistiques sur 50 000 noms communs et 3 000 noms propres et abréviations. Des listes de fréquences de vocabulaire caractéristiques du journalisme, du discours oral et d'autres styles fonctionnels sont fournies, ainsi que des listes des noms, adjectifs, verbes et mots les plus courants d'autres parties du discours. La version électronique du dictionnaire est publiée sur le site Internet de l'Institut de la langue russe. Académie russe des sciences V. V. Vinogradov (http://dict.ruslang.ru).

Le projet « Dictionnaire fréquentiel des formes de mots de la langue russe » de A. V. Ventsov et E. V. Grudeva représente la première tentative dans l'histoire de compilation de dictionnaires fréquentiels de la langue russe pour organiser non pas des lexèmes, mais des formes de mots accentuées par fréquence d'occurrence. Le dictionnaire est élaboré sur la base du Corpus de la langue littéraire russe, qui compte un million de personnes (www.narusco.ru). Le projet présente description complète le dictionnaire et ses principales sections sous forme de sélections limitées.

Dans le "Dictionnaire thématique des fréquences" Urban transports en commun 44 » A.G. Martinovich présente les résultats d'une analyse statistique distributionnelle d'un domaine conceptuel - 74 521 000 utilisations de mots extraites du corpus Journaux russes Département du Fonds des machines de la langue russe, Institut de la langue russe. V.V. Vinogradov et 29 500 exemples tirés des textes de 9 journaux russes pour 1997.

De nombreux dictionnaires de fréquences sont de nature appliquée et s'adressent principalement aux compilateurs de programmes, de dictionnaires minimaux et de manuels de langue russe. Certains d'entre eux enregistrent le vocabulaire couramment utilisé, d'autres sont associés à une partie particulière ou stylistiquement fixée du vocabulaire.

« Dictionnaire des fréquences de la langue russe moderne » P.I. Charakose se compose de deux parties, qui sont deux dictionnaires de fréquences différents, réalisés dans des formats différents. matériel de discours: l'un sur les textes des manuels scolaires primaires, l'autre sur le matériel du discours familier des enfants. La première partie présente 5 025 mots, soit 91,6 % de tous les usages de mots dans 15 manuels. Les mots sont présentés sous forme de listes de fréquence et alphabétiques. La deuxième partie présente 2830 mots du langage courant des enfants, classés par fréquence et par ordre alphabétique.

Le dictionnaire « 2830 mots les plus couramment utilisés dans le discours familier russe » reflète l'essentiel des mots les plus courants dans le discours familier moderne ; il a été compilé sur la base de l'analyse de discours parlés en direct enregistrés sur bande magnétique (en 1964-1966). Le volume total du matériel collecté est de 400 000 utilisations de mots. La liste est présentée en deux versions – par ordre alphabétique et par popularité.

"Liste des mots les plus courants de la langue russe" éditée par Z.P. Daunene comprend des mots des mille 13 premiers dictionnaires de fréquence et des listes de la langue russe, compilées sur la base d'une variété de matériaux. La liste contient 3917 mots, y compris des mots significatifs et fonctionnels. A côté de chaque mot, sont indiqués les sources dans lesquelles il est enregistré et le nombre de ces sources, ce qui permet de mettre en valeur le vocabulaire le plus courant.

Dans « Dictionnaire des fréquences du langage des journaux », G.P. Polyakova et G.Ya. Il s'est avéré que Solganik incluait 1 997 mots avec une fréquence d'au moins 12 dans des fils de journaux d'une longueur de 200 000 utilisations de mots. Le dictionnaire présente une liste générale de mots par fréquence décroissante, couvrant en moyenne 80 à 83 % du texte du journal.

« Dictionnaire fréquentiel complet du vocabulaire scientifique et technique russe » P.N. Denisova et al. contiennent des listes de 3047 des mots les plus courants dans la littérature scientifique et technique russe (fréquence, alphabétique, inversion, regroupés par parties du discours), ainsi que des tableaux permettant de juger de la prévalence de certains phénomènes grammaticaux dans le langage de la littérature scientifique et technique.

Le « Dictionnaire fréquentiel du vocabulaire scientifique général » comprend 2074 mots. Le dictionnaire est basé sur un texte de 400 000 mots (formes de mots). Les sources étaient des manuels destinés aux universités dans six branches du savoir : mathématiques, physique, chimie, biologie, médecine, géologie et géographie. Un passage contenant 2 000 formes de mots a été extrait de chaque source. 200 de ces échantillons ont été examinés. Les mots sont présentés sous forme de listes de fréquence et alphabétiques.

Une publication de type consolidé et généralisant est le livre « Les minima lexicaux de la langue russe », créé sous la direction de V. V. Morkovkin. Le dictionnaire s'ouvre sur la liste « Unités lexicales structurelles de base de la langue russe », qui combine des mots et des phrases incomplets qui assurent le fonctionnement de mots complets et former la structure modale du texte (par exemple, être, sous la forme de, en vue de, juste, dès que, en plus, effectivement, de cette manière, bien que tout etc.). Voici des listes de mots de volume croissant, couvrant le noyau lexical de la langue russe moderne : 1) 500 mots russes les plus courants, 2) 1 000 mots russes les plus courants, 3) 1 500 mots, 4) 2 000 mots, 5) 2 500 mots. , 6) 3000 mots, 7) 3500 mots. La troisième partie du livre est dictionnaire de sujets- un minimum de langue russe moderne, dont le but est d'organiser et de présenter de manière opportune un ensemble de mots russes les plus importants nécessaires pour assurer des types productifs d'activité de parole - parler et écrire. Une partie importante du livre est une section présentant la valeur comparative et généralisée des mots les plus courants de la langue russe selon 8 dictionnaires de fréquences. Ainsi, le dictionnaire est un outil précieux pour les méthodologistes et les enseignants de langue russe qui participent à la compilation de manuels scolaires, à la lecture de livres et à la préparation de matériel pratique pour le travail pédagogique.

Une place particulière parmi les dictionnaires de fréquences est occupée par les dictionnaires pouvant être utilisés dans les systèmes de recherche automatique d'informations. Ainsi, le « Dictionnaire d'indexation de fréquence » (édité par L.V. Sakharny) a été compilé pour résoudre les problèmes de recherche d'informations. Le matériel du dictionnaire était constitué de 1 660 résumés sur les instruments de mesure électriques (environ 105 000 utilisations de mots au total). Les principes de rédaction d'un dictionnaire sont applicables à n'importe quelle branche de la connaissance. Le dictionnaire est basé sur une nouvelle unité de lexicographie - un hyperlexème (un certain ensemble de lexèmes avec la même racine d'une ou de différentes parties du discours, interconnectés par des relations de transformation et de dérivation : inertie, inertie, inertie ; dent, dent, dentelée, dentée). Dans le dictionnaire, les hyperlexèmes sont classés selon leur fréquence.

"Dictionnaire fréquentiel des facteurs sémantiques de la langue russe" Yu.N. Karaulova a été compilée sur la base des définitions des dictionnaires explicatifs de la langue littéraire russe moderne. Les unités de comptage sont des facteurs sémantiques, apparaissant sous la forme de segments de mots à pleine valeur qui sont des composants de définitions. Reflétant les statistiques et structure sémantique sur le côté droit des dictionnaires explicatifs, le dictionnaire des fréquences peut être utilisé pour la recherche dans le domaine de la sémantique lexicale, ainsi que dans la pratique de la lexicographie et de la recherche d'informations. L'article d'introduction montre les possibilités d'utiliser un dictionnaire pour trouver la connexion sémantique des mots lors de la construction automatique d'un thésaurus russe.

« Dictionnaire de fréquences du langage de communication de masse » de B.V. Krivenko est la première tentative de dictionnaire de fréquences basé non seulement sur des textes écrits (journal Komsomolskaya Pravda, journaux régionaux), mais également sur des discours parlés (radio, télévision, actualités cinématographiques). ). Le dictionnaire fournit un instantané synchrone du niveau lexical de la langue des journaux, de la radio et de la télévision pour la période 1965-1985. La longueur totale de l’échantillon de texte est de 71 164 occurrences de mots. Le dictionnaire contient des listes de mots par ordre décroissant de fréquence, des listes de mots par ordre alphabétique. Les premières places de la liste des mots les plus fréquents (à l'exception des mots de fonction et des pronoms) sont occupées par les mots année, travail, pays, jour, ferme collective, entreprise, temps, fête, nouveau, conseil, ouvrier, soviétique, gens, district, aujourd'hui, ville, organisation, personne, président, secrétaire, grand, région, nom, monde, république , plan. Fréquence des mots dans la langue des moyens médias de masse reflète parfaitement les caractéristiques du discours politique soviétique, l'ensemble des idéologies de l'ère soviétique. "Dictionnaire statistique du journal russe" A.Ya. Shaikevich et al. donnent une idée de la fréquence du vocabulaire dans les journaux des années 90. XXe siècle Le dictionnaire d'O. V. Golovan poursuit les mêmes objectifs.

Etude de fréquence unités lexicales vous permet de tirer des conclusions importantes sur les caractéristiques du langage et du style de l’écrivain. Ce n’est pas un hasard si un grand nombre de dictionnaires de fréquences linguistiques ont été publiés ces dernières années. oeuvres d'artÉcrivains et poètes russes (voir rubrique « Dictionnaires d'auteurs »).

Ventsov L.V., Grudeva E.V. Dictionnaire fréquentiel des formes de mots de la langue russe : projet. Tcherepovets : Tcherepovets, état. univ., 2008. 204 p.

Golovan O.V. Dictionnaire de fréquence langue moderne médias: manuel de formation. Barnaoul : Maison d'édition Alt. État technologie. Université nommée d'après I.I. Polzunova, 2006. 622 p.

Graudina L.K., Itskovich V.A., Katlinskaya L.P. Variations grammaticales: expérience du dictionnaire de fréquences / Ros. acad. Sciences, Institut de Linguistique, Recherche. M. : Nauka, 1971. 102 p.

Denisov P.N., Morkovkin V.V., Safyan Yu.A. Dictionnaire fréquentiel complet du vocabulaire scientifique et technique russe. M. : Langue russe, 1978. 406 p.

Karaulov Yu.N. Dictionnaire de fréquence des facteurs sémantiques de la langue russe / resp. éd. S.G. Barkhudarov. M. : Nauka, 1980. 207 p.

Complexe dictionnaire pédagogique. Base lexicale de la langue russe : / V.V. Morkovkin, N.O. Boehme, I.A. Dorogonova, T.F. Ivanova, I.D. Ouspenskaïa ; édité par V.V. Morkovkina. M. : ACT, 2004. 880 p. .

Krivenko B.V. Dictionnaire des fréquences du langage de communication de masse. Voronej : Maison d'édition de Voronej, Université, 1992. 218 p.

Kudasheva M.A., Levina R.I. Dictionnaire fréquentiel des participes les plus courants en géologie, minéralogie, cristallographie, géodésie : manuel. L. : Leningr. Institut des Mines nommé d'après G.V. Plekhanova, 1974. 29 p.

Minima lexicaux de la langue russe moderne / V.V. Morkovkin, Yu.A. Safyan, E.M. Stepanova, I.V. Dorofeeva; édité par V.V. Morkovkina ; Institut russe. langue eux. COMME. Pouchkine. M. : Langue russe, 1985. 608 p.

Minimum lexical pour le russe comme langue étrangère : niveau de base: propriété commune / comp. N.P. Andryouchina, T.V. Kozlova.

4e éd., rév. et supplémentaire Saint-Pétersbourg : Zlatooust, 2004. 111 p. (Test de russe comme langue étrangère). [Idem en 2001].

Minimum lexical en russe langue étrangère : deuxième niveau de certification : compétence générale / comp. N.P. Andryushina (éditeur responsable) [et autres]. 3e éd. Saint-Pétersbourg : Zlatooust, 2011. 162 p. (Russe système gouvernemental tester les citoyens de pays étrangers en langue russe). [Idem en 2009].

Minimum lexical en russe langue étrangère : premier niveau de certification : compétence générale / comp. N.P. Andryushina (éditeur responsable) [et autres]. 5e éd., rév. et supplémentaire SPb.: Zlatooust,

2011. 195 p. (Système d'État russe consistant à tester les citoyens de pays étrangers en langue russe). [Le même en 2002, 2005].

Minimum lexical pour le russe langue étrangère : niveau élémentaire : maîtrise générale / comp. N.P. Andryouchina, T.V. Kozlova. 4e éd., rév. Saint-Pétersbourg : Zlatooust, 2012. 79 p. (Test de russe comme langue étrangère). [Le même en 2000, 2004].

Lyashevskaya O.N., Sharov S.A. Dictionnaire des fréquences de la langue russe moderne (basé sur des matériaux du Corpus national de la langue russe) [informations statistiques sur 50 000 noms communs et 3 000 noms propres et abréviations] / Ros. acad. Sciences, Institut de Russie. langue eux. V.V. Vinogradova. M. : Azbukovnik, 2009. 1087 p.

Martinovitch G.A. Dictionnaire thématique des fréquences « Transports publics urbains ». Saint-Pétersbourg : Philol. faux. Saint-Pétersbourg État université

Polyakova G.P., Solganik G.Ya. Dictionnaire des fréquences du langage des journaux. M. : Maison d'édition Moek. État Université, 1971. 281 p.

Safyan Yu.A. Dictionnaire fréquentiel du vocabulaire technique russe. Erevan : Bartsraguyn dprots, 1971. 128 p.

Système de minimums lexicaux de la langue russe moderne : 10 listes lexicales : de 500 à 5000 des mots russes/État les plus importants. int rus. langue eux. COMME. Pouchkine ; comp. T.F. Bogacheva, N.M. Lutskaya, V.V. Morkovkine, Z.P. Popova; édité par V.V. Morkovkina. M. : Astrel : ACT, 2003. 768 p.

Liste des mots les plus courants de la langue russe / comp. L.G. Vishnyakova, Z.P. Daunene, T.P. Ishanova, R.M. Néfiodova ; sous général éd. Z.P. Daunené. M. : Académicien. péd. Sciences de l'URSS, Institut de recherche, professeur. russe. langue en national école, 1974. 160 p.

Ter-Misakyants 3. T. Dictionnaire fréquentiel du vocabulaire mathématique / éd. V.M. Grigorian, R.S. Manucharyan. Erevan : Erevan, état. Université, 1973. 67 p.

Kharacoz P.I. Dictionnaire des fréquences de la langue russe moderne. Frunze : Mektep, 1971. 180 p.

Dictionnaire fréquentiel du vocabulaire géologique : manuel / comp. V.I. Rubkaleva, M.A. Kudasheva, E.M. Val [etc.]; scientifique éd. V.I. Rubkaleva. L. : Leningr. Institut des Mines nommé d'après G.V. Plekhanova, 1973. 64 p.

Dictionnaire d'indexation fréquentielle / sous général. éd. L.V. Sakharny.

Perm : Maison d'édition de Perm. Université, 1974. 828 p.

Dictionnaire fréquentiel du vocabulaire scientifique général / comp. MI. Zykina, V.I. Kroupchanova, M.M. Nakhabina [id.]; édité par E.M. Stepanova. M. : Maison d'édition Moek. État Université, 1970. 87 p. Dictionnaire des fréquences de la langue russe [environ 40 000 mots] / éd. L.N. Zasorine ; comp. VIRGINIE. Agraev, V.V. Borodine, L.N. Zasorina, V.M. Muratova, E.V. Tissenko ; spécialiste. scientifique éd. MI. Privalova. M. : Langue russe, 1977. 934 p.

Shaikevich L.Ya., Andryushchenko V.I., Rebetskaya N.A. Dictionnaire statistique du journal russe : (années 1990) / Ros. acad. Sciences, Institut de Russie. langue eux. V.V. Vinogradova. M. : Langues de la culture slave : éditeur A. Koshelev, 2008. T. 1. 578 p. (Studia philologique).

Shilova G.E., Sternin I.A. Dictionnaire de fréquence mots étrangers: (basé sur des documents journalistiques) / Voronej, état. Université, Interrégion, Centre de Communication. recherche Voronej : Istoki, 2005. 126 p. Steinfeldt E.A. Dictionnaire des fréquences de la langue littéraire russe moderne : un ouvrage de référence pour les professeurs de langue russe / éd. VIRGINIE. Itskovitch. M. : Progrès, 1973. 228 p. .

Shurpaeva M.I. Dictionnaire minimum différencié de la langue russe par types d'activité vocale pour les classes primaires de l'école nationale du Daghestan. Makhatchkala : Daguchpedgiz, 1982. 153 p.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Actes de la conférence internationale « Dialogue 2008 » DICTIONNAIRE DE FRÉQUENCES DU CORPS NATIONAL DE LA LANGUE RUSSE : CONCEPT ET TECHNOLOGIE DE CRÉATION DU DICTIONNAIRE DE FRÉQUENCES DU CORPUS NATIONAL RUSSE : PRINCIPES ET TECHNOLOGIE Lyashevskaya O.N. ( [email protégé]), Institut de langue russe du nom. V.V. Vinogradov RAS Sharov S.A. ( [email protégé]), Université de Leeds, Royaume-Uni Le dictionnaire contient un dictionnaire de base représentatif de la langue russe moderne (2e moitié du 20e - début du 21e siècle), doté d'informations sur la fréquence d'utilisation, distribution statistique par textes et genres, par époque de création des textes. Le dictionnaire est basé sur les textes du Corpus national de la langue russe avec un volume de 100 millions de mots. Styles fonctionnels du sous-corpus de la langue russe moderne La grande taille et l'équilibre stylistique du corpus sont une condition préalable pour qu'il donne des résultats statistiques fiables pour les mots les plus fréquents : par exemple, la composition des 20 000 premiers éléments ne changera pas de manière significative si , tout en conservant la proportion, ces textes sont remplacés par d'autres ou comparent plusieurs sous-échantillons du corpus. Ceci est démontré par l'expérience de compilation de dictionnaires de fréquences de 100 millions d'autres 345 053-Ljashevskaja-SharovSA:_Layout 1 05/13/2008 22:07 Page 346 Lyashevskaya O.N., Sharov S.A. Lemme Lenngren Zasorina Steinf. NKRY Internet puissance 202 364 138 422 428 pense 609 1094 1058 865 818 pollution 69 1 0 9 11 tâche 499 421 250 228 292 étude 193 110 0 63 78 amour 415 632 595 549 650 mignon 5 8 242 135 129 110 Tableau 2. Comparaison des fréquences de mots individuels (moyenne par million de mots utilisés). Puisque la tâche d'un dictionnaire de fréquences n'est pas simplement de classer les mots selon leur fréquence dans un corpus particulier, mais aussi de déterminer le noyau lexical d'une langue, il est nécessaire de séparer les mots qui apparaissent fréquemment dans de nombreux textes de ceux dont le comportement lexical est différent. similaire à Noriega ou Hobbit, et qui s'est retrouvé accidentellement à l'une ou l'autre position dans la liste des fréquences. Ainsi, le Corpus national tchèque utilise le concept de fréquence moyenne réduite (ARF), dans lequel la fréquence d'un mot est pondérée par la distance entre les occurrences de mots individuels (Čermak & Křen 2005). De nombreux dictionnaires fréquentiels (Lenngren, British National Corpus, French Business Dictionary) utilisent le coefficient D introduit par A. Juilland (Juilland et al. 1970), qui prend en compte à la fois le nombre de documents dans lesquels un mot apparaît et sa fréquence relative. dans ces documents : où µ est la fréquence moyenne d'un mot dans l'ensemble du corpus, σ est l'écart type de cette fréquence dans les documents individuels, n est le nombre de documents dans lesquels ce mot apparaît. grandes chancesà une place dans un dictionnaire non spécialisé. 3. Structure du dictionnaire Le concept de dictionnaire implique la publication d'une version « papier » accompagnée d'une version électronique, représentant le dictionnaire des fréquences dans un volume plus complet. La partie vocabulaire contient les sections suivantes : I. ● liste alphabétique des lemmes ● liste de fréquences des lemmes ● répartition des lemmes par styles fonctionnels : dictionnaire de fréquences de fiction, dictionnaire de vocabulaire significatif de fiction, dictionnaire de fréquences de journalisme, dictionnaire de vocabulaire significatif de journaux et d'actualités, dictionnaire de fréquences d'autres non-fictions littérature, dictionnaire du vocabulaire significatif, dictionnaire des fréquences du discours oral vivant, dictionnaire du vocabulaire significatif du discours oral vivant ● liste alphabétique des formes de mots II. Parties du discours ● liste de fréquence des noms ● liste de fréquence des verbes ● liste de fréquence des adjectifs ● liste de fréquence des adverbes et des prédicats ● liste de fréquence des pronoms (pronoms nominaux, adjectifs, adverbes, prédicats) ● liste de fréquence des lemmes des parties auxiliaires du discours III. Tableaux auxiliaires 347 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Page 348 Lyashevskaya O.N., Sharov S.A. La liste alphabétique des formes de mots comprend toutes les formes de mots du corpus avec une fréquence supérieure à 0,1 ipm (environ 15 000 au total) ; La fréquence générale de la forme du mot est donnée. Les formes de mots homonymes sont marquées d'un *. Comme on pouvait s'y attendre, la liste reflète, d'une part, la « typicité » des éléments de la garde-robe (les bottes en feutre n'occupent que la 26e place dans la liste), et d'autre part, leur « importance » dans la description de l'apparence d'une personne dans les textes. (un costume est un article distinct plus perceptuel que des bottes). En conséquence, en fréquence - 3 Les principes de lemmatisation et de composition des parties du discours sont déterminés par la norme morphologique du corpus (NCRY 2005), qui correspond en général aux principes du Dictionnaire de grammaire de la langue russe (Zaliznyak 1977 ). Certaines caractéristiques de la lemmatisation sont liées au fait que la collecte des données se fait principalement automatiquement. Notez que seul le balisage mot à mot est pris en compte : Vocabulaire général vitesse stable , les prépositions composées et autres unités lexicales ne comportant pas un seul mot (cf., cependant les uns dans les autres) ne sont pas inclus dans le dictionnaire. 349 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Page 350 Lyashevskaya O.N., Sharov S.A. Langue russe : Inflexion. M., 1977 ; 4e éd. : M. : Dictionnaires russes, 2003. 5. Zasorina L.N. (éd.). Dictionnaire des fréquences de la langue russe. Moscou : langue russe, 1977. 6. Lönngren L. (éd.). Dictionnaire des fréquences de la langue russe moderne. Uppsala, 1993. 7. Lyashevskaya O.N. Sur le problème de la lemmatisation des mots hors dictionnaire // Linguistique informatique et technologies intelligentes : Actes de la conférence internationale « Dialogue 2007 ». M, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automatisation de la construction d'un dictionnaire basé sur un ensemble de formes de mots non dictionnaires // Mathématiques Internet 2007. Ekaterinbourg, 2007. 9. NKRY : Corpus national de la langue russe 2003-2005 : résultats et perspectives. M. : Indrik, 2005. 10. Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A.. Linguistique mathématique. M. : École supérieure, 1972. 11. Polyakov A.E. Dictionnaire électronique de la langue de l'écrivain (en utilisant l'exemple de la langue d'A.S. Griboïedov) // Actes du Séminaire international Dialogue-99 sur la linguistique informatique et ses applications. Tarusa, 1999. M., 1999. T. 2. P. 230-236. pages 1327-1333.



Le dictionnaire comprend des « lemmes » tels que reconnaissant (cf. le mot forme gratitude), Jansny (cf. Jansen), Barclay (cf. Barclay). Pendant ce temps, la part des formes de mots hors dictionnaire dans le NCRL représente 3 % de tous les usages de mots et 45 % de la liste des formes de mots du corpus. Pour les formes de mots fréquents hors dictionnaire, nous avons utilisé des programmes de post-traitement pour le marquage morphologique de NKRYA, compilés par B.P. Kobritsov et G.K. Bronnikov, ainsi que les résultats de validation des travaux de ces programmes obtenus par O.N. Lyashevskaya et D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Deux approches de lemmatisation de mots non-dictionnaires se sont révélées les plus efficaces : le regroupement d'hypothèses sur le lemme et le type de paradigme (l'analyse la plus probable pour une forme de mot est considérée comme celle que l'on trouve également dans d'autres formes de mots non-dictionnaires). formes de mots du dictionnaire, ainsi, les formes de mots « recherchent » des voisins dans le paradigme flexionnel ) et mettent en évidence les consoles les plus productives. Étant donné que la résolution automatique des homonymes et l'interprétation des formes non-dictionnaires permettent une certaine erreur, quoique insignifiante, les homonymes inclus dans les 20 000 premiers mots de fréquence ont été soumis à une vérification manuelle supplémentaire.