I.V. Danilevskis, Zipf-Pareto įstatymas, naujos kvantinės technologijos ir pasąmonės filosofija

Per pastarąjį šimtmetį paslaptingas matematinis reiškinys, vadinamas Zipfo dėsniu, sugebėjo labai tiksliai numatyti besikeičiantį milžiniškų miestų dydį visame pasaulyje. Reikalas tas, kad niekas nesupranta, kaip ir kodėl šis įstatymas veikia...

Grįžkime į 1949 m. Kalbininkas George'as Zipfas (Zipf) pastebėjo keistą tendenciją, kai žmonės kalboje vartoja tam tikrus žodžius. Jis nustatė, kad nedidelis žodžių skaičius buvo vartojamas nuolat, o didžioji dauguma – labai retai. Vertinant žodžius pagal populiarumą, atsiskleidžia nuostabus dalykas: pirmos kategorijos žodis visada vartojamas dvigubai dažniau nei antros ir tris kartus dažniau nei trečios kategorijos žodis.
Zipfas išsiaiškino, kad paskirstant žmonių pajamas šalyje galioja ta pati taisyklė: turtingiausias žmogus turi dvigubai daugiau pinigų nei kitas turtingiausias žmogus ir pan.
Vėliau paaiškėjo, kad šis įstatymas galioja ir miestų dydžiui. Didžiausias gyventojų skaičius bet kurioje šalyje yra dvigubai didesnis už kitą pagal dydį miestą ir pan. Neįtikėtina, bet Zipf įstatymas per pastarąjį šimtmetį galiojo absoliučiai visose pasaulio šalyse.

Pažvelkite į didžiausių Rusijos miestų gyventojų skaičių. Maskvos gyventojų yra maždaug 2 kartus daugiau nei Sankt Peterburge.
Paulas Krugmanas, rašydamas apie Zipfo dėsnio taikymą miestams, puikiai pasakė: ekonomikos teorija dažnai kaltinama kuriant labai supaprastintus sudėtingos, netvarkingos tikrovės modelius. Zipf dėsnis rodo, kad yra priešingai: mes naudojame pernelyg sudėtingus, netvarkingus modelius, tačiau realybė yra nuostabiai tvarkinga ir paprasta.

Jėgos dėsnis

1999 m. ekonomistas Xavier Gabet parašė mokslinį darbą, kuriame Zipfo dėsnį apibūdino kaip „jėgos dėsnį“.
Gabe pažymėjo, kad šis dėsnis išlieka, net jei miestai auga chaotiškai. Tačiau ši sklandi struktūra sugenda, kai tik persikeliate į miestus, kurie nėra didmiesčiai. Atrodo, kad maži miestai, kuriuose gyvena apie šimtą tūkstančių žmonių, laikosi kitokio įstatymo ir labiau paaiškina dydžio pasiskirstymą.

Gali kilti klausimas, ką reiškia terminas „miestas“? Juk, pavyzdžiui, Bostonas ir Kembridžas laikomi dviem skirtingais miestais, kaip ir San Franciskas ir Oklandas, kuriuos skiria vanduo. Toks klausimas iškilo ir dviem švedų geografams, kurie ėmė svarstyti vadinamuosius „natūralius“ miestus, kuriuos vienija gyventojų ir kelių ryšiai, o ne politiniai motyvai. Ir jie nustatė, kad net tokie „natūralūs“ miestai paklūsta Zipfo dėsniams.

Kodėl Zipfo įstatymas veikia miestuose?

Taigi, kas lemia, kad miestų gyventojų skaičius yra toks nuspėjamas? Niekas negali to tiksliai paaiškinti. Žinome, kad miestai plečiasi dėl imigracijos, imigrantai plūsta į didelius didmiesčius, nes ten yra daugiau galimybių. Tačiau šiam įstatymui paaiškinti neužtenka imigracijos.
Taip pat yra ekonominių motyvų, nes dideli miestai uždirba daug pinigų, o Zipf įstatymas taip pat veikia paskirstant pajamas. Tačiau tai vis dar nepateikia aiškaus atsakymo į klausimą.
Praėjusiais metais mokslininkų grupė išsiaiškino, kad Zipfo įstatymas vis dar turi išimčių: įstatymas veikia tik tuo atveju, jei atitinkami miestai yra ekonomiškai sujungti. Tai paaiškina, kodėl įstatymas galioja, pavyzdžiui, atskirai Europos šaliai, bet ne visai ES.

Kaip auga miestai?

Yra dar viena keista taisyklė, kuri galioja miestams, ir ji susijusi su tuo, kaip miestai augdami vartoja išteklius. Didėjant miestams, jie tampa stabilesni. Pavyzdžiui, jei miestas padvigubėja, jam reikalingų degalinių skaičius nepadidėja.
Mieste bus gana patogu gyventi, jei degalinių skaičius padidės apie 77%. Nors Zipfo dėsnis atitinka tam tikrus socialinius įstatymus, šis dėsnis yra labiau susijęs su gamtos dėsniais, pvz., su tuo, kaip gyvūnai vartoja energiją, kai jie sensta.

Matematikas Stephenas Strogatzas tai apibūdina taip:
Kiek kalorijų per dieną reikia pelei, palyginti su drambliu? Jie abu yra žinduoliai, todėl galima manyti, kad ląstelių lygmeniu jie neturėtų labai skirtis. Iš tiesų, jei laboratorijoje auginsite ląsteles iš dešimties skirtingų žinduolių, visų šių ląstelių medžiagų apykaita bus vienoda, jos genetiniu lygmeniu neprisimena, kokio dydžio yra jų savininkas.
Bet jei dramblį ar pelę laikysite visaverčiu gyvūnu, veikiančiu milijardų ląstelių sankaupu, tai dramblio ląstelės tam pačiam veiksmui išleis daug mažiau energijos nei pelės ląstelės. Metabolizmo dėsnis, vadinamas Kleiberio dėsniu, teigia, kad žinduolių medžiagų apykaitos poreikiai proporcingai jo kūno svoriui didėja 0,74 karto. Šis 0,74 yra labai artimas 0,77, kuris laikomas įstatymu, reglamentuojančiu degalinių skaičių mieste.
Sutapimas? Galbūt, bet greičiausiai ne.
Visa tai siaubingai įdomu, bet galbūt mažiau paslaptinga nei Zipfo įstatymas. Nesunku suprasti, kodėl miestas, kuris iš esmės yra ekosistema, nors ir žmonių sukurtas, turėtų paklusti natūraliems gamtos dėsniams. Tačiau Zipfo dėsnis gamtoje neturi analogo. Tai socialinis reiškinys, kuris vyko tik per pastaruosius šimtą metų.
Žinome tik tai, kad Zipfo dėsnis taikomas ir kitoms socialinėms sistemoms, įskaitant ekonomines ir kalbines. Taigi galbūt yra keletas bendrų socialinių taisyklių, kurios sukuria šį keistą dėsnį, ir kada nors mes galėsime jas suprasti. Kas išspręs šį galvosūkį, gali rasti raktą nuspėti daug svarbesnius dalykus nei miestų augimas. Zipfo dėsnis gali būti tik mažas pasaulinės socialinės dinamikos taisyklės, kuri formuoja, kaip bendraujame, prekiaujame, formuojame bendruomenes ir daug daugiau, aspektas.

Tarp kriterijų, pagal kuriuos vertinama teksto kokybė, pagrindiniu laikomas jo natūralumas. Šį rodiklį galima patikrinti matematiniu metodu, kurį atrado amerikiečių kalbininkas George'as Zipfas.

Patikrinkite pagal Zipf dėsnį yra teksto natūralumo vertinimo, žodžių išdėstymo modelio nustatymo metodas, kai žodžio dažnis yra atvirkščiai proporcingas jo vietai tekste.

Pirmasis Zipf dėsnis „rangas – dažnis“

C = (Žodžio atsiradimo dažnis x Dažnio rangas) / Žodžių skaičius.

Jei imsime žodžio santykį su jo dažnio rangu, tada reikšmė (C) bus pastovi, o tai galioja bet kurios kalbos dokumentui kiekvienoje kalbų grupėje.

Žodžiai, kurie yra svarbūs dokumentui ir apibrėžia jo temą, yra hiperbolės viduryje. Žodžiai, kurie vartojami dažniausiai, taip pat tie, kurie vartojami retai, neturi lemiamos semantinės reikšmės.

Antrasis Zipf dėsnis „kiekis – dažnis“

Žodžio dažnis ir jo skaičius tekste taip pat yra susiję vienas su kitu. Jei sukursite grafiką, kuriame X yra žodžio dažnis, Y yra tam tikro dažnio žodžių skaičius, kreivės forma išliks nepakitusi.

Gero teksto rašymo principas yra padaryti jį kuo aiškesnį, naudojant kuo mažiau žodžių.

Įstatymas rodo bendrą bet kurios kalbos savybę, nes Visada bus tam tikras skaičius dažniausiai pasitaikančių žodžių.

Būtina patikrinti SEO teksto natūralumą, jei rašant buvo naudojami raktiniai žodžiai, kad jis būtų įdomus ir suprantamas didelei skaitytojų auditorijai. Šis rodiklis svarbus ir reitinguojant svetaines pagal paieškos sistemas, kurios nustato teksto atitikimą pagrindinėms užklausoms, paskirstydami žodžius į svarbių, atsitiktinių ir pagalbinių grupes.

Daugiau informacijos:

  • Ryšys tarp žodžio dažnio tekste f ir jo vietos dažnių žodyne (rango) r yra atvirkščiai proporcingas. Kuo aukštesnis žodžio rangas (kuo toliau nuo žodyno pradžios), tuo mažesnis jo atsiradimo tekste dažnis.
  • Tokios priklausomybės grafikas yra hiperbolė, kuri labai staigiai krenta esant mažoms rango reikšmėms, o tada žemų pasireiškimo dažnio verčių srityje f nusidriekia labai toli, palaipsniui, bet labai nepastebimai. , mažėja, kai rangas, r, didėja.
  • Jeigu vieno žodžio dažnis yra 4 iš milijono, o kito – 3 iš milijono, nesvarbu, kad šių žodžių eilės skiriasi tūkstantį kartų. Šie žodžiai vartojami taip retai, kad daugelis žmonių, kuriems kalba yra gimtoji, jų net nėra girdėję.
  • Tačiau šis tolimas regionas išsiskiria tuo, kad čia esantis žodis gali labai lengvai sumažinti savo rango vertę daug kartų. Net ir mažiausias žodžio pasikartojimo dažnio padidėjimas smarkiai perkelia jo padėtį į dažnių žodyno pradžią.
  • Pagal šį dėsnį žodžio populiarumo matas yra jo vieta kalbos dažnių žodyne. Populiaresnis žodis yra arčiau žodyno pradžios nei mažiau populiarus.
  • Jis atspindi žodžio vartojimo dažnumo priklausomybę nuo jo vietos dažnių žodyne. Dažniau vartojami populiarūs kalbos žodžiai. Matematiniu požiūriu šios priklausomybės grafikas yra hiperbolė su staigiu pakilimu artėjant prie koordinačių pradžios ir ilgos, plokščios, beveik horizontalios „uodegos“. Dauguma kalbos žodžių yra šioje „uodegoje“. Čia žodžio vieta dažnių žodyne, jei keičia šio žodžio vartojimo dažnumą kalboje, jo nekeičia labai.
  • Bet kai tik žodžio padėtis dažnių žodyne pasiekia tą hiperbolės vietą, kur, artėjant koordinačių pradžiai, prasideda žymus kreivės kilimas, situacija pasikeičia. Dabar nedidelis žodžio pasikartojimo dažnio pokytis nebesukelia reikšmingų jo rango pokyčių, tai yra, žodžio padėtis dažnių žodyne nustoja keistis. Tai reiškia, kad šio žodžio populiarumo augimas sulėtėjo. Kad jis tęstųsi, reikia imtis specialių priemonių žodžio pasikartojimo dažnumui padidinti. Pavyzdžiui, jei žodis yra produkto pavadinimas, turite išleisti pinigus reklamos kampanijai (

Sveiki, mieli skaitytojai! Zipfo įstatymas padės patikrinti teksto natūralumą. Taigi, bent jau tikima. Koks čia „natūralumas“ ant mūsų galvų? Ar taip pat būtina stebėti šį rodiklį, kiek jis svarbus svetainės reklamai? Ar tai tinkamai aptinka internetinės paslaugos? Būtų gerai išsiaiškinti visus šiuos klausimus. Internete sklando įvairios, kartais labai prieštaringos nuomonės šiuo klausimu. Leiskite man įdėti du centus ir pabandyti apibūdinti savo požiūrį į šį „Zipf“.

Kodėl staiga apie įstatymą – moteriškoje lytyje? Taip, nes tikrai noriu palyginti kalbininko ir filologo George'o Kingsley Zipfo mintis su gudria lape, kuri per kabliuką ar sukčiai įsiskverbia į mūsų „bast trobelę“ - tekstų rašymą ir pradeda ten atsisiųsti teises. Bet pirmiausia šiek tiek matematikos ir statistikos žinių. Bet neišsigąskite, draugai, aš pats nesu stiprus skaičiuotojas, todėl nekankinsiu nei jūsų, nei savęs.

Zipf dėsnis ir pasauliniai modeliai

J.C.Zipfas save vadino statistinės socialinės... ekologijos specialistu. Įdomus derinys, ar ne? Jis bandė tyrinėti socialinių reiškinių modelius statistikos ir didelių skaičių matematikos požiūriu. Ir jam tam tikru mastu pavyko. Taigi, naudodamas pavyzdį, lyginant žodžių vartojimo dažnumą anglų kalba su jų skaičiumi „gretų lentelėje“, mokslininkas atrado, kad pastebimas atvirkščiai proporcingas ryšys. Grubiai tariant, antroje vietoje pagal vartojimo dažnumą sąraše esantis žodis vartojamas perpus dažniau nei pirmasis; trečias – tris kartus ir pan. Matematiniu požiūriu šis funkcinis ryšys apibūdinamas Pareto skirstiniu. Žinoma, kiekvienai kalbai pateikiamos jos konstantos ir koeficientai.

Tą patį modelį galima atsekti kai kuriose ekonominėse kategorijose, pavyzdžiui, turtingiausių pasaulio žmonių pajamų paskirstymas. Be to, didžiausių miestų gyventojai daugumoje pasaulio šalių taip pat yra išdėstyti linijoje, pažymėtoje tuo pačiu Zipf. Su tam tikrais nukrypimais, atsižvelgiant į visokius nerimą keliančius veiksnius, bet įstatymas veikia kažkaip nesuprantamai. Nenoriu ilgai svarstyti šio reiškinio. Mes vis dar domimės paslaptingu Zipfo žvėrimi net ne kalbotyros požiūriu, o jo pritaikymo mažiems žodžių pavyzdžiams, pavyzdžiui, mūsų straipsniams, požiūriu.

Ar verta tikrinti tekstus naudojant Zipf dėsnį?

Atkreipkite dėmesį, draugai, ankstesniame skyriuje mes kalbėjome apie augančius megapolius arba turtingųjų sostinę, naudodami superlatyvus. Vienoje iš svetainių netgi radau informacijos, kad Zipf skaičiavimai neveikia net miestuose, kuriuose yra vidutinis gyventojų skaičius. Tas pats ir su ekonomika: įmonėms, kurių pajamos mažesnės nei 10 mln. USD per metus, rango / dažnumo įstatymas taip pat neveikia. Kalbant apie lingvistinį tyrimą, visa kalbų grupė yra gana didelė atranka. Pavyzdžiui, anglų kalba turi apie milijoną žodžių. Ir čia, taip, šių žodžių dažnumo ir vartojimo santykis idealiai sukuria hiperbolę. Bet niekur neradau jokių apribojimų Zipf taikymui mažiems žodžių pavyzdžiams.

Tačiau paprastas logikos pojūtis leidžia manyti, kad jei vidutinio dydžio miestai (kuriuose gyvena šimtai tūkstančių gyventojų) arba įmonės, kurių pajamos nesiekia 10 milijonų (vargšai!), negali būti Zipofo skaičiavimų apologetai, kam tada kankinti mūsų tekstus. . Juk juose retai būna net tūkstantis žodžių. Taigi vidutiniame 3 tūkstančių simbolių straipsnyje yra maždaug 400–500 žodžių. O kokį modelį mes bandome rasti tarp tokios grupės?

Ne, gali būti, kad internetinių paslaugų, skirtų tekstams tikrinti pagal Zipf dėsnį, kūrėjai bandė kažkaip atsižvelgti į tai, kad mūsų straipsniai vargu ar gali būti vadinami semantiniais megapvyzdžiais. Bet jei jiems pavyktų, reikalas kvepėtų Nobelio premija! Tokiai garsaus mokslininko atradimo pataisai tikrai reikėtų pridėti bent jau vunderkindo pavardę, pavyzdžiui, Zipf-Pupkin įstatymas. Skamba gerai? Bet fanfarų garsų negirdėjome.

Ir vėl logika, kartu su tam tikra gyvenimiška patirtimi, rodo: paieškos reitingavimo algoritmų kūrėjai suvaidino kiek per sunkiai. Suprantu jų nelengvą užduotį: kiekvienas komandos narys turi nuolat įrodinėti savo efektyvumą, kūrybiškumą, būti kupinas idėjų. Taigi jie išsiliejo mums ant galvų.

Uolių optimizuotojų eksperimentai

Na, nereikia šaudyti iš patrankos į mūsų straipsnius apie žvirblius: mūsų opusai netinka jūsų eksperimentams su Zipf, mieli kūrėjai. Mažuose pavyzdžiuose šie modeliai yra toli. Tai, žinoma, grynai mano nuomonė. Internete aptikau ir priešingą: Zipf įstatymas neva pagerino svetainės poziciją paieškos rezultatuose, tekstai tapo pastebimai įdomesni ir pan., ta pačia dvasia. Daugelis žmonių bando analizuoti TOP, ar jis atitinka Zipf paskirstymą, ir tuo remdamiesi daro tam tikras išvadas. Sustokite, ponai! Turėdami maždaug aštuonis šimtus veiksnių, į kuriuos paieškos sistemos atsižvelgia reitinguodamos, ar bandote stebėti vieno jų poveikį? Na, tai nieko gero! Tyrimai taip neatliekami, o jų rezultatai negali būti laikomi teisingais.

Turėdamas visą savo neigiamą požiūrį ne į Zipfą (gerbiu mokslą), o į nepagrįstus bandymus dar kartą patikėti harmonija su algebra, ne kartą analizavau savo darbą dėl natūralumo internetinėse paslaugose. Žinoma, klientų pageidavimu. Galiu pasakyti, kad gyva žmogaus kalba be biurokratinių klišių, klišių ir tautologijos labai lengvai padeda įveikti zipofiškus barjerus. Pasiekti 70-80% teksto natūralumo visai nesunku. Norintys gali pasitikrinti savo tekstus, pvz. Nemanau, kad reikia tai daryti nuolat. Be to, reklamuodami neturėtumėte pasikliauti „Zipf“ lape. Sąžiningai, draugai, nešvaistykite savo laiko ir energijos nemoksliniams eksperimentams.

Šis tekstas yra 87% natūralus. Užteks. Manau, kad net jei pasieksiu 98%, tai visai neturės įtakos pozicijai paieškos rezultatuose. Pagal mano prognozes šis straipsnis nepateks į TOP. Na, gerai, bet ji pasakė, ką norėjo.

Iki pasimatymo, draugai.

Jūsų vadovas po šalį Copywriting GALANT.

Pirmą kartą su Zipfo dėsnio aprašymu susidūriau skaitydamas. Įstatymo esmė: jei bet kurio teksto žodžiai surikiuojami pagal vartojimo dažnumą, tai rango ir dažnumo sandauga yra pastovi reikšmė:

F*R =C, Kur:

F – žodžio atsiradimo tekste dažnis;

R – žodžio rangas (dažniausiai vartojamas žodis gauna 1 rangą, kitas – 2 rangą ir pan.);

C yra konstanta.

Tiems, kurie dar atsimena bent šiek tiek algebros :), aukščiau pateiktoje formulėje nesunkiai atpažinsite hiperbolės lygtį. Zipf eksperimentiškai nustatė, kad C ≈ 0,1. Taigi grafinis Zipfo dėsnio vaizdas yra maždaug toks:

Ryžiai. 1. Zipfo dėsnio hiperbolė.

Atsisiųskite užrašą formatu, pavyzdžius formatu

Hiperbolės turi nuostabią savybę. Jei paimsime abiejų ašių logaritminę skalę, tada hiperbolė atrodys kaip tiesi linija:

Ryžiai. 2. Ta pati hiperbolė, bet grafike su logaritminėmis skalėmis

Gali kilti klausimas: ką su tuo turi optimizavimas paieškos sistemoms? Taigi, pasirodo, kad specialiai sukurti tekstai, kuriuose yra padidintas raktinių žodžių skaičius, netelpa į įstatymą. Paieškos sistemos (Google, Yandex) tikrina, ar tekstai yra „natūralūs“, tai yra, ar jie atitinka Zipf įstatymą, ir sumažina svetainių, kuriose yra „įtartinų“ tekstų, reitingą arba net uždraudžia tokias svetaines.

Antrą kartą su Zipfo įstatymu susidūriau Benoit Mandelbroto knygoje. Ir ši nedidelė dalis man taip patiko, kad leiskite pacituoti ją visą.

Netikėtas galios įstatymas

1950 m. buvau jaunas matematikos studentas Paryžiaus universitete ir ieškojau temos savo disertacijai. Mano dėdė Zolemas buvo vietinis matematikos profesoriaus vadovėlinis pavyzdys: gilus teoretikas, labai konservatyvus ir, nepaisant to, kad gimė Lenkijoje, prancūzų mokslo bendruomenės ramstis. Jau būdamas 31 metų jis buvo išrinktas nuolatiniu prestižinio Prancūzijos koledžo profesoriumi.

Tai buvo Nicolas Bourbaki era; už šio kolektyvinio pseudonimo slypėjo matematinis „klubas“, kuris, kaip Dada mene ar egzistencializmas literatūroje, išplito iš Prancūzijos ir kurį laiką tapo itin įtakingu pasaulinėje arenoje. Abstrakcija ir grynoji matematika, matematika dėl matematikos, buvo pakelta į kulto rangą; „klubo“ nariai niekino pragmatizmą, taikomąją matematiką ir net matematiką kaip mokslo įrankį. Šis požiūris buvo prancūzų matematikų dogma, o man, ko gero, priežastis palikti Prancūziją ir dirbti IBM. Dėdės nelaimei buvau jaunas maištininkas. Dirbdamas su daktaro disertacija, dažnai dienos pabaigoje užeidavau į jo kabinetą pabendrauti ir dažnai šie pokalbiai virsdavo diskusijomis. Vieną dieną, bandydamas kažkaip praskaidrinti artėjantį ilgą ir nuobodų kelionę metro namo, pakeliui paprašiau ko nors paskaityti. Jis ištiesė ranką į šiukšliadėžę ir ištraukė keletą suglamžytų popieriaus lapų.

„Štai, imk šitą“, – sumurmėjo mano dėdė. – Kvailiausias straipsnis, vienas iš tų, kuriuos myli.

Tai buvo sociologo George'o Kingsley Zipfo knygos apžvalga. Zipfas, pakankamai turtingas žmogus, kad nesirūpintų savo kasdiene duona, Harvardo universitete skaitė paskaitas apie savo paties išrastą discipliną, kurią pavadino statistine žmogaus ekologija. Jo knygoje „Žmogaus elgesys ir mažiausių pastangų principas“ buvo nagrinėjami galios dėsniai kaip visur paplitusios socialinių mokslų struktūros. Luste galios dėsniai yra gana įprasti ir veikia kaip to, ką dabar vadinu fraktaliniu savęs kartojimu, forma. Seismologai turi matematinę formulę, leidžiančią nustatyti žemės drebėjimų skaičiaus priklausomybę nuo jų stiprumo pagal garsiąją Richterio skalę. Arba, kitaip tariant: silpni žemės drebėjimai yra dažni, o stiprūs – reti, o žemės drebėjimų dažnis ir stiprumas yra susiję su tikslia formule. Tuo metu tokių pavyzdžių buvo nedaug, o juos žinojo vos keli žmonės. Enciklopedistas Zipfas buvo apsėstas minties, kad galios dėsniai veikia ne tik fiziniuose moksluose; Jiems priklauso visos žmogaus elgesio, organizacijos ir anatomijos apraiškos – net ir lytinių organų dydis.

Laimei, mano dėdės pateikta knygos apžvalga apsiribojo tik vienu neįprastai tvarkingu pavyzdžiu: žodžių dažnumu. Tekste ar kalboje kai kurie žodžiai, pvz., angliškas the (apibrėžiamasis artikelis) arba this ("this"), pasirodo dažnai; kiti, milreis arba momus, pasirodo retai arba niekada (smalsesniems: pirmasis reiškia senovinę portugalų monetą, antrasis yra žodžio „kritikas“ sinonimas). Zipf pasiūlė tokį pratimą: paimkite bet kurį tekstą ir suskaičiuokite, kiek kartų jame pasirodo kiekvienas žodis. Tada kiekvienam žodžiui priskirkite reitingą: 1 - dažniausiai vartojamiems žodžiams, 2 - tiems, kurie užima antrąją vietą pagal pasikartojimo dažnumą ir kt. Galiausiai sukurkite grafiką, kuriame kiekvienam rangui nurodykite šio žodžio pasikartojimų skaičių. Gausime nuostabų piešinį. Kreivė nemažėja tolygiai nuo dažniausiai pasitaikančio žodžio tam tikrame tekste iki rečiausio. Iš pradžių krenta svaiginančiu greičiu, po to ima mažėti lėčiau, kartodamas nuo tramplino šokinėjančio slidininko trajektoriją, o po to nusileidžia ir leidžiasi gana švelniu sniegu padengto kalno šlaitu. Klasikinio nelygaus masto pavyzdys. Zipfas, pritaikydamas kreivę savo diagramoms, sugalvojo jos formulę.

buvau apstulbusi. Pasibaigus ilgam važiavimui metro, aš jau turėjau temą pusei savo daktaro disertacijos. Aš tiksliai žinojau, kaip paaiškinti matematinį žodžių pasiskirstymo pagrindą, ko Zipfas, nebūdamas matematikas, negalėjo padaryti. Vėlesniais mėnesiais manęs laukė nuostabūs atradimai. Naudojant aukščiau pateiktą lygtį, galima sukurti galingą socialinio tyrimo įrankį. Patobulinta Zipf formulės versija leido kiekybiškai įvertinti ir reitinguoti bet kurio asmens žodyno turtingumą: didelė vertė – turtingas žodynas; maža vertė – prastas. Su tokia skale galima išmatuoti žodyno skirtumus tarp tekstų ar kalbėtojų. Erudiciją tampa įmanoma kiekybiškai įvertinti. Tiesa, mano draugai ir patarėjai pasibaisėjo mano ryžtu imtis šios keistos temos. Zipfas, jie man pasakė, yra žmogus, turintis keistenybių. Man buvo parodyta jo knyga ir aš sutikau, kad ji šlykšti. Man buvo pasakyta, kad žodžių skaičiavimas nėra tikra matematika. Imdamasis šios temos niekada nerasiu gero darbo; ir tapti profesoriumi man taip pat nebus lengva.

Bet likau kurčia išmintingiems patarimams. Negana to, baigiamąjį darbą rašiau visiškai be konsultantų ir netgi pavyko įtikinti vieną universiteto biurokratą, kad tai patvirtintų antspaudu. Buvau pasiryžęs eiti pasirinktu keliu iki galo ir pritaikyti Zipfo idėjas ekonomikoje, nes ne tik kalba gali būti redukuojama į galios dėsnį. Nesvarbu, ar esame turtingi, ar vargšai, klestintys ar badaujantys – visa tai man taip pat atrodė galios įstatymo objektas.

Mandelbrotas šiek tiek pakeitė Zipf formulę:

F = C * R -1/a, Kur

a – žodyno turtingumą apibūdinantis koeficientas; kuo didesnė a reikšmė, tuo turtingesnis teksto žodynas, nes kiekvieno žodžio atsiradimo dažnio priklausomybės nuo jo rango kreivė mažėja lėčiau, o, pavyzdžiui, reti žodžiai atsiranda dažniau nei su mažesnėmis reikšmėmis. iš a. Būtent šią savybę Mandelbrotas ketino panaudoti vertindamas erudiciją.

Taikant Zipfo dėsnį, ne viskas taip sklandžiai, o konkrečiose programose ne visada galima pasikliauti eksperimentiškai nustatytu koeficientu a. Tuo pačiu metu Zipfo dėsnis yra ne kas kita, kaip Pareto dėsnis „atvirkščiai“, nes abu yra specialūs galių serijų atvejai arba... ekonominių ir socialinių sistemų fraktalinio pobūdžio apraiška.

Sau ekonominių sistemų fraktališkumo esmę suformulavau taip. Viena vertus, yra žaidimo atsitiktinumas: ruletė, kauliukų metimas. Kita vertus, technologinis/fizinis atsitiktinumas: tekinimo staklėmis pagaminto veleno skersmens kitimas, suaugusio žmogaus ūgio kitimas. Visi aukščiau išvardyti reiškiniai yra aprašyti. Taigi, yra nemažai reiškinių, kurie nepaklūsta šiam pasiskirstymui: šalių ir individų turtai, akcijų kainų svyravimai, valiutų kursai, žodžių vartojimo dažnumas, žemės drebėjimų stiprumas... Tokiems reiškiniams būdinga tai, kad kad vidutinė vertė labai priklauso nuo imties. Pavyzdžiui, jei paimsite šimtą atsitiktinių skirtingo ūgio žmonių, tada pridėjus prie jų aukščiausią žmogų Žemėje, vidutinis tos grupės ūgis labai nepasikeis. Jei paskaičiuotume šimto atsitiktinių žmonių vidutines pajamas, tada pridėjus turtingiausią planetos žmogų - Carlosą Slimą Helu (o ne Billą Gatesą, kaip daugelis galėtų pagalvoti:)), kiekvieno turtas gerokai padidės, maždaug iki 500 mln. dolerių!

Kitas fraktalumo pasireiškimas yra reikšmingas imties stratifikavimas. Apsvarstykite, pvz.

Sutikite, pateiktas raštas yra kaip du žirniai ankštyje ir panašus į Zipf kreivę!

Viena iš fraktalumo savybių yra savęs kartojimas. Taigi iš 192 pasaulio šalių, įtrauktų į sąrašą, 80% pasaulio turto sutelkta tik 18 šalių – 9,4% (18/192). Jei dabar atsižvelgsime tik į šias 18 šalių, tai bendras jų turtas yra 46 trilijonai. dolerių – pasiskirstė vienodai netolygiai. 80 % iš šių 46 trln. Sutelkta mažiau nei pusėje šalių ir kt.

Galite paklausti: kokia praktinė viso to išvada? Sakyčiau taip:

  1. Socialinės ir ekonominės sistemos nėra aprašytos Gausų. Šie modeliai paklūsta galios serijoms [sinonimas: fraktalinė prigimtis].
  2. Nukrypimai nuo vidurkio yra daug labiau tikėtini, nei prognozuojama pagal Gauso varpo kreivę. Be to, sistemai būdingi teršalai; jie ne atsitiktiniai, o natūralūs.
  3. Rizikos vertinimai negali būti pagrįsti normaliu retų nepageidaujamų reiškinių pasiskirstymu.
  4. ... nemeluosiu, kol kas nieko daugiau nesugalvoju... bet tai nereiškia, kad nebėra praktinių išvadų... tiesiog mano žinios tuo apsiriboja...

... bet jūs turite pripažinti, kad modeliai yra gražūs!

Apie fraktalumą žr. Benoit Mandelbrot

Pažymėtina, kad duomenys iš skirtingų šaltinių labai skiriasi, tačiau tai nėra aktualu čia aptariamai temai.



Ar jums patiko straipsnis? Pasidalinkite su draugais!