I.V. Danilevsky, Loi Zipf-Pareto, nouvelles technologies quantiques et philosophie de l'inconscient

Au cours du siècle dernier, un mystérieux phénomène mathématique appelé loi de Zipf a permis de prédire avec une grande précision l'évolution de la taille des villes géantes à travers le monde. Le problème est que personne ne comprend comment et pourquoi cette loi fonctionne...

Revenons à 1949. Le linguiste George Zipf (Zipf) a remarqué une tendance étrange dans l'utilisation de certains mots dans le langage. Il a constaté qu’un petit nombre de mots étaient utilisés constamment et que la grande majorité était utilisée très rarement. Si vous évaluez les mots par popularité, une chose étonnante se révèle : un mot de la première catégorie est toujours utilisé deux fois plus souvent qu'un mot de la deuxième catégorie et trois fois plus souvent qu'un mot de la troisième catégorie.
Zipf a découvert que la même règle s'applique à la répartition des revenus des individus dans un pays : la personne la plus riche a deux fois plus d'argent que la personne la plus riche suivante, et ainsi de suite.
Il est apparu plus tard que cette loi s’appliquait également à la taille des villes. La ville la plus peuplée de n'importe quel pays est deux fois plus grande que la ville suivante, et ainsi de suite. Incroyablement, la loi Zipf a été en vigueur dans absolument tous les pays du monde au cours du siècle dernier.

Il suffit de regarder la population des plus grandes villes de Russie. La population de Moscou est environ 2 fois supérieure à celle de Saint-Pétersbourg.
Paul Krugman, écrivant sur l'application de la loi de Zipf aux villes, a fait valoir un excellent argument : la théorie économique est souvent accusée de créer des modèles grossièrement simplifiés d'une réalité complexe et désordonnée. La loi de Zipf montre que le contraire est vrai : nous utilisons des modèles trop complexes et désordonnés, mais la réalité est étonnamment claire et simple.

Loi de la force

En 1999, l'économiste Xavier Gabet a écrit un ouvrage scientifique dans lequel il qualifie la loi de Zipf de « loi de la force ».
Gabe a noté que cette loi persiste même si les villes se développent de manière chaotique. Mais cette structure fluide s’effondre dès que l’on s’installe dans des villes qui ne sont pas des zones métropolitaines. Les petites villes comptant une population d'environ cent mille habitants semblent suivre une loi différente et présentent une répartition par taille plus explicable.

On peut se demander ce qu’on entend par le terme « ville » ? Après tout, par exemple, Boston et Cambridge sont considérées comme deux villes différentes, tout comme San Francisco et Oakland, séparées par l'eau. Deux géographes suédois se sont également posé cette question et ont commencé à considérer des villes dites « naturelles », unies par la population et les liaisons routières, et non par des motivations politiques. Et ils ont découvert que même ces villes « naturelles » obéissent à la loi de Zipf.

Pourquoi la loi de Zipf fonctionne-t-elle dans les villes ?

Alors, pourquoi les villes sont-elles si prévisibles en termes de taille de population ? Personne ne peut expliquer cela avec certitude. Nous savons que les villes se développent en raison de l'immigration, les immigrants affluent vers les grandes zones métropolitaines parce qu'il y a plus d'opportunités là-bas. Mais l'immigration ne suffit pas à expliquer cette loi.
Il existe également des motivations économiques, car les grandes villes gagnent beaucoup d’argent et la loi de Zipf fonctionne également en faveur de la répartition des revenus. Toutefois, cela ne fournit toujours pas de réponse claire à la question.
L'année dernière, un groupe de chercheurs a découvert que la loi de Zipf comportait encore des exceptions : la loi ne fonctionne que si les villes en question sont économiquement connectées. Cela explique pourquoi la loi s'applique, par exemple, à un pays européen individuel, mais pas à l'ensemble de l'UE.

Comment les villes se développent-elles ?

Il existe une autre règle étrange qui s’applique aux villes : elle concerne la façon dont les villes consomment les ressources à mesure qu’elles se développent. À mesure que les villes se développent, elles deviennent plus stables. Par exemple, si une ville double de taille, le nombre de stations-service dont elle a besoin ne double pas.
La ville sera assez confortable à vivre si le nombre de stations-service augmente d'environ 77 %. Même si la loi de Zipf suit certaines lois sociales, cette loi est plus étroitement liée aux lois naturelles, comme la façon dont les animaux consomment de l'énergie en vieillissant.

Le mathématicien Stephen Strogatz le décrit ainsi :
De combien de calories une souris a-t-elle besoin par jour par rapport à un éléphant ? Ce sont tous deux des mammifères, on pourrait donc supposer qu’au niveau cellulaire, ils ne devraient pas être très différents. En effet, si vous cultivez des cellules de dix mammifères différents en laboratoire, toutes ces cellules auront le même taux métabolique ; elles ne se souviennent pas au niveau génétique de la taille réelle de leur propriétaire ;
Mais si vous prenez un éléphant ou une souris comme un animal à part entière, une accumulation fonctionnelle de milliards de cellules, alors les cellules de l'éléphant dépenseront beaucoup moins d'énergie pour la même action que les cellules de la souris. La loi du métabolisme, appelée loi de Kleiber, stipule que les besoins métaboliques d'un mammifère augmentent proportionnellement à son poids corporel d'un facteur de 0,74. Ce 0,74 est très proche du 0,77 observé pour la loi régissant le nombre de stations-service dans une ville.
Coïncidence? Peut-être, mais probablement pas.
Tout cela est terriblement excitant, mais peut-être moins mystérieux que la loi de Zipf. Il n’est pas si difficile de comprendre pourquoi une ville, qui est essentiellement un écosystème, bien que construite par l’homme, devrait obéir aux lois naturelles de la nature. Mais la loi de Zipf n’a pas d’analogue. Il s’agit d’un phénomène social qui ne s’est produit qu’au cours des cent dernières années.
Tout ce que nous savons, c'est que la loi de Zipf s'applique également à d'autres systèmes sociaux, notamment aux systèmes économiques et linguistiques. Alors peut-être existe-t-il des règles sociales générales qui créent cette étrange loi, et un jour nous pourrons les comprendre. Celui qui résoudra cette énigme trouvera peut-être la clé pour prédire des choses bien plus importantes que la croissance des villes. La loi de Zipf n’est peut-être qu’un petit aspect d’une règle mondiale de dynamique sociale qui façonne la façon dont nous communiquons, commerçons, formons des communautés et bien plus encore.

Parmi les critères d'évaluation de la qualité d'un texte, son naturel est considéré comme le principal. Cet indicateur peut être testé grâce à une méthode mathématique découverte par le linguiste américain George Zipf.

Vérification selon la loi de Zipf est une méthode pour évaluer le caractère naturel d'un texte, déterminant le modèle de disposition des mots, où la fréquence d'un mot est inversement proportionnelle à sa place dans le texte.

Première loi de Zipf "rang - fréquence"

C = (Fréquence d'apparition d'un mot x Rang de fréquence) / Nombre de mots.

Si nous prenons le rapport d'un mot à son rang de fréquence, alors la valeur (C) sera constante, et cela est vrai pour un document dans n'importe quelle langue, au sein de chaque groupe linguistique, la valeur sera constante.

Les mots significatifs pour le document et définissant son sujet se trouvent au milieu de l'hyperbole. Les mots les plus fréquemment utilisés, ainsi que ceux à faible fréquence, n'ont pas de signification sémantique décisive.

Deuxième loi de Zipf "quantité - fréquence"

La fréquence d'un mot et son numéro dans un texte sont également liés les uns aux autres. Si vous construisez un graphique où X est la fréquence d'un mot, Y est le nombre de mots d'une fréquence donnée, la forme de la courbe restera inchangée.

Le principe de la rédaction d’un bon texte est de le rendre aussi clair que possible en utilisant le moins de mots possible.

La loi montre une propriété générale pour toute langue, car Il y aura toujours un certain nombre de mots les plus fréquents.

Il est nécessaire de vérifier le naturel du texte SEO si des mots-clés ont été utilisés par écrit, afin qu'il soit intéressant et compréhensible pour un large public de lecteurs. Cet indicateur est également important lors du classement des sites par les moteurs de recherche, qui déterminent la correspondance du texte avec les requêtes clés, en répartissant les mots en groupes importants, aléatoires et auxiliaires.

Plus de détails:

La relation entre la fréquence d'apparition d'un mot dans le texte f, et sa place dans le dictionnaire des fréquences (rang) r, est inversement proportionnelle. Plus le rang d'un mot est élevé (plus il est éloigné du début du dictionnaire), plus sa fréquence d'apparition dans le texte est faible.
Le graphique d'une telle dépendance est une hyperbole qui, à de petites valeurs de rangs, diminue très fortement, puis, dans la région des faibles valeurs de fréquence d'apparition, f, s'étend très loin, progressivement, mais très imperceptiblement , décroissant à mesure que le rang r augmente.
Si la fréquence d’un mot est de 4 par million et celle d’un autre de 3 par million, peu importe que les rangs de ces mots diffèrent mille fois. Ces mots sont si rarement utilisés que de nombreux locuteurs natifs ne les ont même jamais entendus.
Cependant, cette région éloignée est remarquable dans la mesure où un mot situé ici peut très facilement réduire sa valeur de rang plusieurs fois. Même la plus petite augmentation de la fréquence d'apparition d'un mot déplace brusquement sa position vers le début du dictionnaire des fréquences.
Selon cette loi, la mesure de la popularité d’un mot est sa position dans le dictionnaire fréquentiel de la langue. Un mot plus populaire est plus proche du début du dictionnaire qu’un mot moins populaire.
Il reflète la dépendance de la fréquence d'utilisation d'un mot dans une langue à sa place dans le dictionnaire des fréquences. Les mots populaires de la langue sont utilisés plus souvent. D'un point de vue mathématique, le graphique de cette dépendance est une hyperbole avec une forte montée à l'approche de l'origine et une « queue » longue, plate, presque horizontale. La plupart des mots de la langue se trouvent dans cette « queue ». Ici, la place d'un mot dans le dictionnaire des fréquences, si elle change la fréquence d'utilisation de ce mot dans la langue, ne le change pas beaucoup.
Mais dès que la position du mot dans le dictionnaire des fréquences atteint cet endroit de l'hyperbole où, à mesure qu'il se rapproche de l'origine des coordonnées, commence une montée significative de la courbe, la situation change. Désormais, un petit changement dans la fréquence d'apparition d'un mot n'entraîne plus de changements significatifs dans son rang, c'est-à-dire que la position du mot dans le dictionnaire des fréquences cesse de changer. Cela signifie que la croissance de la popularité du mot a ralenti. Pour que cela continue, des mesures spéciales doivent être prises pour augmenter la fréquence d’apparition du mot. Par exemple, si le mot est le nom d'un produit, vous devez dépenser de l'argent pour une campagne publicitaire (

Bonjour, chers lecteurs ! La loi de Zipf aidera à vérifier le naturel du texte. Donc, du moins, on le croit. Quel genre de « naturel » avons-nous sur la tête ? Est-il également nécessaire de surveiller cet indicateur, quelle est son importance pour la promotion d'un site Web ? Est-il correctement détecté par les services en ligne ? Ce serait bien de régler toutes ces questions. Des opinions diverses, parfois très contradictoires, circulent à ce sujet sur Internet. Permettez-moi de mettre mon grain de sel et d'essayer de décrire mes propres approches de ce Zipf.

Pourquoi tout à coup parler de la loi - au féminin ? Oui, parce que je veux vraiment comparer l'idée originale du linguiste et philologue George Kingsley Zipf avec un renard rusé qui, par crochet ou par escroc, pénètre dans notre « hutte libérienne » - rédaction et commence à y télécharger les droits. Mais d’abord, un peu de contexte sur les mathématiques et les statistiques. Mais ne vous inquiétez pas, mes amis, je ne suis pas moi-même un bon calculateur, donc je ne vous torturerai pas, ni moi-même.

La loi de Zipf et les modèles mondiaux

J.C. Zipf se disait spécialiste de l'écologie sociale et statistique. Une combinaison intéressante, n'est-ce pas ? Il a tenté d'explorer les schémas des phénomènes sociaux du point de vue des statistiques et des mathématiques des grands nombres. Et il a réussi dans une certaine mesure. Ainsi, en utilisant l'exemple de la comparaison de la fréquence d'utilisation des mots de la langue anglaise avec leur nombre dans le « tableau des rangs », le scientifique a découvert qu'une relation inversement proportionnelle est observée. En gros, le mot qui se classe deuxième dans la liste en termes de fréquence d'utilisation est utilisé deux fois moins souvent que le premier ; le troisième - trois fois et ainsi de suite. D'un point de vue mathématique, cette relation fonctionnelle est décrite par la distribution de Pareto. Bien entendu, pour chaque langue, ses propres constantes et coefficients sont introduits.

Le même schéma peut être observé dans certaines catégories économiques, par exemple répartition des revenus des personnes les plus riches du monde. De plus, la population des plus grandes villes de la plupart des pays du monde est également disposée selon une ligne désignée par le même Zipf. Avec quelques écarts, compte tenu de toutes sortes de facteurs perturbateurs, mais la loi fonctionne d'une manière incompréhensible. Je ne veux pas m’attarder longtemps sur ce phénomène. Nous sommes toujours intéressés par la bête mystérieuse de Zipf, même pas du point de vue de la linguistique, mais du point de vue de son applicabilité à de petits échantillons de mots, comme nos articles.

Vaut-il la peine de vérifier des textes en utilisant la loi de Zipf ?

Attention, mes amis, dans la section précédente, nous avons parlé de mégalopoles en croissance ou de capitale des riches, en utilisant des superlatifs. Sur l'un des sites, j'ai même trouvé des informations selon lesquelles les calculs de Zipf ne fonctionnent pas même pour les villes à population moyenne. C’est la même chose en économie : pour les entreprises dont le chiffre d’affaires est inférieur à 10 millions de dollars/an, la loi rang/fréquence ne fonctionne pas non plus. En ce qui concerne la recherche linguistique, l’ensemble du groupe linguistique constitue une assez bonne sélection. L'anglais, par exemple, compte environ un million de mots. Et là, oui, le rapport entre fréquence et usage de ces mots construit idéalement une hyperbole. Mais je n’ai trouvé aucune restriction nulle part pour appliquer Zipf à de petits échantillons de mots.

Cependant, un simple sens de la logique suggère que si les villes de taille moyenne (avec une population de centaines de milliers d'habitants) ou les entreprises avec des revenus inférieurs à 10 millions (les pauvres !) ne peuvent pas faire l'apologie des calculs de Zipof, alors pourquoi torturer nos textes ? . Après tout, ils contiennent rarement mille mots. Ainsi, un article moyen de 3 000 caractères contient environ 400 à 500 mots. Et quel modèle essayons-nous de trouver parmi un tel groupe ?

Non, il est possible que les développeurs de services en ligne permettant de vérifier les textes selon la loi de Zipf aient tenté d'une manière ou d'une autre de prendre en compte le fait que nos articles peuvent difficilement être qualifiés de méga-échantillons sémantiques. Mais s’ils y parvenaient, l’affaire sentirait le prix Nobel ! Une telle modification de la découverte du célèbre scientifique nécessiterait certainement au moins l’ajout du nom de famille de l’enfant prodige, à l’instar de la loi Zipf-Pupkin. Ça a l'air bien? Mais nous n’avons pas entendu de bruit de fanfare.

Et encore une fois, la logique, couplée à une certaine expérience de vie, le suggère : les développeurs d’algorithmes de classement de recherche ont joué un peu trop fort. Je comprends leur tâche difficile : chaque membre de l'équipe doit constamment prouver son efficacité, sa créativité et être plein d'idées. Alors ils sont tombés sur nos têtes.

Expériences réalisées par des optimiseurs zélés

Bon, inutile de tirer au canon sur nos articles moineaux : nos opus ne sont pas adaptés à vos expérimentations avec Zipf, chers développeurs. Dans de petits échantillons, ces modèles sont tirés par les cheveux. Bien entendu, ceci n’est que mon opinion. J’ai aussi constaté le contraire sur Internet : la loi de Zipf était censée améliorer la position du site dans les résultats de recherche, les textes devenaient sensiblement plus intéressants, et ainsi de suite, dans le même esprit. De nombreuses personnes tentent d'analyser la conformité du TOP avec la distribution Zipf et tirent des conclusions sur cette base. Arrêtez, messieurs ! Avec environ huit cents facteurs pris en compte par les moteurs de recherche lors du classement, essayez-vous de suivre l’impact d’un seul ? Eh bien, ce n'est pas bon ! La recherche n'est pas menée de cette manière et ses résultats ne peuvent être considérés comme corrects.

Malgré toute mon attitude négative non pas envers Zipf (je respecte la science), mais envers les tentatives injustifiées de croire à nouveau en l'harmonie avec l'algèbre, j'ai plus d'une fois analysé mon travail pour le naturel dans les services en ligne. A la demande des clients, bien sûr. Je peux dire qu'un langage humain vivant, sans clichés bureaucratiques, sans clichés ni tautologie, aide très facilement à surmonter les barrières zipofiennes. Atteindre 70 à 80 % de naturel du texte n'est pas du tout difficile. Ceux qui le souhaitent peuvent consulter leurs textes par exemple. Je ne pense pas qu’il soit nécessaire de faire ça tout le temps. De plus, vous ne devriez pas compter sur le renard Zipf pour la promotion. Honnêtement, mes amis, ne perdez pas votre temps et votre énergie dans des expériences non scientifiques.

Ce texte est naturel à 87%. Assez. Je pense que même si je rattrape 98%, cela n'affectera en rien la position dans les résultats de recherche. Selon mes prévisions, cet article ne sera pas classé dans le TOP. Bon, d'accord, mais elle a dit ce qu'elle voulait.

Au revoir les amis.

Votre guide du pays Copywriting GALANT.

La première fois que je suis tombé sur la description de la loi de Zipf, c’était en lisant. L'essence de la loi : si les mots d'un texte sont classés par fréquence d'utilisation, alors le produit du rang et de la fréquence est une valeur constante :

F*R =C, Où:

F – fréquence d'apparition d'un mot dans le texte ;

R – rang du mot (le mot le plus fréquemment utilisé obtient le rang 1, le suivant obtient le rang 2, etc.) ;

C est une constante.

Pour ceux qui se souviennent encore au moins d'un peu d'algèbre :), dans la formule ci-dessus, vous pouvez facilement reconnaître l'équation d'une hyperbole. Zipf a déterminé expérimentalement que C ≈ 0,1. La représentation graphique de la loi de Zipf est donc approximativement la suivante :

Riz. 1. Hyperbole de la loi de Zipf.

Téléchargez la note au format, les exemples au format

Les hyperboles ont une propriété merveilleuse. Si nous prenons une échelle logarithmique pour les deux axes, alors l'hyperbole ressemblera à une ligne droite :

Riz. 2. La même hyperbole, mais sur un graphique à échelles logarithmiques

La question peut se poser : qu’est-ce que l’optimisation des moteurs de recherche a à voir là-dedans ? Ainsi, il s'avère que les textes spécialement générés contenant un nombre accru de mots-clés ne rentrent pas dans le cadre de la loi. Les moteurs de recherche (Google, Yandex) vérifient le « naturel » des textes, c’est-à-dire leur conformité à la loi Zipf, et soit diminuent la note des sites contenant des textes « suspects », soit même interdisent ces sites.

La deuxième fois que je suis tombé sur la loi de Zipf, c'était dans le livre de Benoît Mandelbrot. Et j’ai tellement aimé cette petite section que je me suis permis de la citer dans son intégralité.

Loi de puissance inattendue

En 1950, j'étais un jeune étudiant en mathématiques à l'Université de Paris, à la recherche d'un sujet de thèse. Mon oncle Zolem était l’exemple typique du professeur de mathématiques local : un théoricien profond, très conservateur et, bien qu’il soit né en Pologne, un pilier de la communauté scientifique française. Déjà à 31 ans, il est élu professeur à temps plein au prestigieux Collège français.

C'était l'époque de Nicolas Bourbaki ; derrière ce pseudonyme collectif se cachait un « club » mathématique qui, comme Dada en art ou l’existentialisme en littérature, s’est répandu depuis la France et est devenu pendant quelque temps extrêmement influent sur la scène mondiale. L'abstraction et les mathématiques pures, les mathématiques pour les mathématiques, furent élevées au rang de culte ; les membres du « club » méprisaient le pragmatisme, les mathématiques appliquées et même les mathématiques en tant qu’outil scientifique. Cette approche était un dogme pour les mathématiciens français, et pour moi, peut-être, une raison pour quitter la France et aller travailler chez IBM. J'étais, au grand désarroi de mon oncle, un jeune rebelle. Lors de la préparation de ma thèse de doctorat, j'allais souvent dans son bureau en fin de journée pour discuter, et souvent ces conversations se transformaient en discussions. Un jour, essayant d'égayer d'une manière ou d'une autre le long et ennuyeux trajet en métro pour rentrer chez moi, je lui ai demandé quelque chose à lire en chemin. Il fouilla dans la poubelle et en sortit plusieurs morceaux de papier froissés.

« Tiens, prends ça », marmonna mon oncle. - L'article le plus stupide, un de ceux que tu aimes.

Il s'agissait d'une critique d'un livre du sociologue George Kingsley Zipf. Zipf, un homme assez riche pour ne pas se soucier d’un morceau de pain quotidien, enseignait à l’Université Harvard une discipline de sa propre invention, qu’il appelait l’écologie humaine statistique. Son livre Human Behaviour and the Principle of Least Effort explore les lois de pouvoir en tant que structures omniprésentes dans les sciences sociales. Dans la puce, les lois de puissance sont assez courantes et agissent comme une forme de ce que j'appelle maintenant l'auto-répétition fractale à une échelle. Les sismologues disposent d'une formule mathématique pour la dépendance, selon la loi de puissance, du nombre de séismes à leur intensité sur la célèbre échelle de Richter. Ou, en d’autres termes : les tremblements de terre faibles sont courants, tandis que les tremblements de terre forts sont rares, et la fréquence et la force des tremblements de terre sont liées par une formule exacte. À cette époque, il y avait peu d’exemples de ce type et ils n’étaient connus que de quelques personnes. Zipf, un encyclopédiste, était obsédé par l'idée que les lois de puissance ne fonctionnent pas seulement dans les sciences physiques ; Toutes les manifestations du comportement humain, de l'organisation et de l'anatomie y sont soumises, même la taille des organes génitaux.

Heureusement, la critique de livre que mon oncle m'a donnée se limitait à un seul exemple inhabituellement intéressant : la fréquence des mots. Dans le texte ou le discours, certains mots, comme l'anglais the (article défini) ou this (« this »), apparaissent fréquemment ; d'autres, milreis ou momus, apparaissent rarement ou jamais (pour les plus curieux : la première désigne une ancienne monnaie portugaise, la seconde est synonyme du mot « critique »). Zipf a proposé l'exercice suivant : prenez n'importe quel texte et comptez combien de fois chaque mot y apparaît. Attribuez ensuite un rang à chaque mot : 1 - pour les mots les plus fréquemment utilisés, 2 - pour ceux qui occupent la deuxième place en termes de fréquence d'occurrence, etc. Enfin, construisez un graphique sur lequel, pour chaque rang, indiquez le nombre d'occurrences de ce mot. Nous obtiendrons un dessin incroyable. La courbe ne diminue pas uniformément du mot le plus courant dans un texte donné au plus rare. Au début, il tombe à une vitesse vertigineuse, après quoi il commence à diminuer plus lentement, répétant la trajectoire d'un skieur qui saute d'un tremplin puis atterrit et descend la pente relativement douce d'une montagne aux sommets enneigés. Un exemple d’échelle inégale classique. Zipf, après avoir adapté la courbe à ses diagrammes, a trouvé une formule pour cela.

J'étais abasourdi. À la fin de mon long trajet en métro, j’avais déjà un sujet pour la moitié de ma thèse de doctorat. Je savais exactement comment expliquer la base mathématique de la distribution des fréquences des mots, ce que Zipf, n'étant pas mathématicien, n'aurait pas pu faire. Dans les mois suivants, d’étonnantes découvertes m’attendaient. En utilisant l’équation ci-dessus, un puissant outil de recherche sociale peut être créé. Une version améliorée de la formule de Zipf a permis de quantifier et de classer la richesse du vocabulaire de toute personne : valeur élevée - vocabulaire riche ; faible valeur – médiocre. Avec une telle échelle, il est possible de mesurer les différences de vocabulaire entre textes ou locuteurs. Il devient possible de quantifier l’érudition. Il est vrai que mes amis et conseillers étaient horrifiés par ma détermination à aborder ce sujet étrange. Zipf, m'a-t-on dit, est un homme avec des bizarreries. On m'a montré son livre et j'ai reconnu qu'il était dégoûtant. Compter des mots n’est pas de vraies mathématiques, m’a-t-on dit. En abordant ce sujet, je ne trouverai jamais un bon travail ; et devenir professeur ne sera pas non plus facile pour moi.

Mais je restais sourd aux conseils avisés. De plus, j'ai rédigé ma thèse sans aucun consultant et j'ai même réussi à persuader l'un des bureaucrates de l'université de la certifier avec un sceau. J’étais déterminé à suivre le chemin choisi jusqu’au bout et à appliquer les idées de Zipf en économie, car la parole n’est pas la seule à pouvoir être réduite à une loi de puissance. Que nous soyons riches ou pauvres, prospères ou affamés, tout cela me semblait aussi faire l'objet d'une loi de puissance.

Mandelbrot a légèrement modifié la formule de Zipf :

F = C * R -1/un, Où

a – coefficient caractérisant la richesse du vocabulaire ; plus la valeur de a est grande, plus le vocabulaire du texte est riche, puisque la courbe de dépendance de la fréquence d'apparition de chaque mot sur son rang diminue plus lentement, et, par exemple, les mots rares apparaissent plus souvent qu'avec des valeurs plus petites d'un. C'est cette propriété que Mandelbrot entendait utiliser pour évaluer l'érudition.

Avec la loi de Zipf, tout n'est pas aussi fluide et dans des applications spécifiques, il n'est pas toujours possible de s'appuyer sur le coefficient a déterminé expérimentalement. En même temps, la loi de Zipf n’est rien d’autre que la loi de Pareto « à l’envers », puisque toutes deux sont des cas particuliers de séries de puissances, ou… une manifestation de la nature fractale des systèmes économiques et sociaux.

Pour ma part, j'ai formulé l'essence de la nature fractale des systèmes économiques comme suit. D’un côté, il y a le caractère aléatoire du jeu : roulette, lancer de dés. De l'autre, l'aléatoire technologique/physique : variation du diamètre d'un arbre réalisé au tour, variation de la taille d'un adulte. Tous les phénomènes ci-dessus sont décrits. Il existe donc un certain nombre de phénomènes qui n'obéissent pas à cette répartition : la richesse des pays et des individus, les fluctuations des cours boursiers, des taux de change, la fréquence d'utilisation des mots, la force des tremblements de terre... Ce qui est caractéristique de tels phénomènes est que la valeur moyenne dépend beaucoup de l’échantillon. Par exemple, si vous prenez une centaine de personnes aléatoires de tailles différentes, y ajouter la personne la plus grande de la Terre ne changera pas beaucoup la taille moyenne de ce groupe. Si nous calculons le revenu moyen de cent personnes aléatoires, alors en ajoutant la personne la plus riche de la planète - Carlos Slim Helu (et non Bill Gates, comme beaucoup pourraient le penser :)) augmentera considérablement la richesse moyenne de chacun, à environ 500 millions. des dollars !

Une autre manifestation de la fractalité est une stratification significative de l'échantillon. Considérons, par exemple,

D'accord, le motif présenté est comme deux pois dans une cosse et est similaire à la courbe Zipf !

L'une des propriétés de la fractalité est l'auto-répétition. Ainsi, sur les 192 pays du monde figurant sur la liste, 80 % de la richesse mondiale est concentrée dans seulement 18 pays, soit 9,4 % (18/192). Si l’on considère désormais uniquement ces 18 pays, leur richesse totale s’élève à 46 000 milliards. dollars - répartis de manière également inégale. 80% de ces 46 000 milliards. Concentré dans moins de la moitié des pays, etc.

Vous vous demandez peut-être : quelle est la conclusion pratique de tout cela ? Je dirais ceci :

Les systèmes sociaux et économiques ne sont pas décrits par les Gaussiens. Ces modèles obéissent à des séries de puissances [synonyme : nature fractale].
Les valeurs aberrantes par rapport à la moyenne sont significativement plus probables que ne le prédit la courbe en cloche de Gauss. De plus, les émissions sont inhérentes au système ; ils ne sont pas aléatoires, mais naturels.
Les évaluations des risques ne peuvent pas être basées sur une distribution de probabilité normale d'événements indésirables rares.
... Je ne vais pas mentir, je ne peux encore penser à rien d'autre... mais cela ne veut pas dire qu'il n'y a plus de conclusions pratiques... c'est juste que mes connaissances se limitent à cela...

... mais il faut l'avouer, les motifs sont magnifiques !

Sur la fractalité, voir Benoit Mandelbrot

Il convient de noter que les données provenant de différentes sources varient considérablement, mais cela n’est pas pertinent pour le sujet abordé ici.