Eräs kieltä, äärettömyyttä ja statistista fysiikkaa käsittelevä ajatuskoe on äärettömien apinoiden teoreema (eng. infinite monkey theorem). Teoreeman mukaan muutamalle apinalle kun antaa kirjoituskoneet, sekä äärettömästi aikaa, niin ennen pitkää apinat ovat näpytelleen Shakespearen kootut teokset. Mainioon kontekstiin sujautti tämän Jorge Luis Borges kirjoittaessaan[-1] kuinka kirjoituskoneapinat ovat ekvivalenttia jo antiikissa pohdittuun ajatukseen totaalisesta kirjastosta, joka sisältäisi kaikki kirjat jota vaan voidaan kirjoittaa. Totaalinen kirjasto sisältäisi siis kaiken paikkaansapitävän, mutta myös virheellisen, tiedon.
Keskitymme nyt kuitenkin kirjoituskoneapinaformulaatioon, koska siinä on kirjoituskoneita ja apinoita. Pari australialaista matemaatikkoa olikin vastikään tehnyt kattavan analyysin siitä, kuinka pitkälle apinat pääsisivät projektissaan ennen universumimme lämpökuolemaa [-2]. Kuulin tutkimuksesta populääritiedetoimittajien kautta ja ajattelin aluksi että onpas *nostaa silmälaseja nenänvarttaan pitkin* "itse asiassa" -meininkiä, mutta paperin luettuani huomasin kuinka kattava analyysi lopulta oli. Artikkelissa käsiteltiin yksittäisen ja useamman apinan tuotantoa heidän elinaikanaan tai universumin ikään suhteutettuna, sekä usean eri teoksen työmäärää. Argumentoisin kuitenkin, että on yksi perustavanlaatuinen deadline kirjoitusprojektille, mitä ei artikkelissa käsitelty.
William Shakespeare eli vuosina 11564-11616. Tuona aikana englannin kieli, josta käytetään nimitystä Early Modern English [-3] oli huomattavasti erilainen nykyenglantiin verrattuna. Esimerkiksi kirjaimien i ja j ajateltiin olevan vain kaksi eri saman kirjaimen kirjoitusasua, kuten myös u ja v. Lisäksi sieltä löytyi pari kirjainta, joita ei enää enkussa esiinny: pitkä s, eli ſ sekä thorn þ, joka lausutaan "th". Jos apinoiden kirjoituskoneesta ei löydy näitä kirjaimia, niin eivät he tällöin saa kirjoitettua Shakespearen tekstejä edes äärettömässä ajassa!
Jos nyt mielessänne tuhahdatte että "höh, tuohan on vain semantiikkaa", niin vastaan että itse asiassa tämä on semiotiikkaa [-4] ja tällä on huomattavasti väliä kanssakädellistemme kirjoitusrupeamalle! Jos sana "the" saadaan kolmen kirjaimen sijasta ilmaistua kahdella kirjaimella muodossa "þe", niin tämän kirjoittaminen on monikymmenkertaisesti todennäköisempää. Lisäksi on mielekästä kysyä, että hyväksytäänkö näpyttelytuotos sana "joy" kirjoitusasussa "ioy", kun ne ovat Shakespearen aikalaisille täysin sama sana? Pääsimme juuri hyvin mielenkiintoisen kysymyksen äärelle: mitä lopulta Shakespearen tekstit oikeastaan ovat?
Ymmärrän toki, että ajatukskokeen pohtijat tarkoittavat Shakespearen teoksilla mitä tahansa pitkää, ennalta määrättyä tekstinpätkää, ja kuinka sen mittaiset tekstinpätkät käsittävät aivan megajuukelin ison määrän mahdollisuuksia ja kuinka tajuttoman pitkään niiden läpikäymisessä kuluu. Mutta onko kaikki mahdolliset kirjainyhdistelmät tekstiä? Yhdeltä kantilta rimpsut "gvxcbiqqqhuajyjoshwz" ja "mxlbqjuhgxltbyacdllo" ovat täysin erilaiset visuaalisesti ja ääneen luettuna, mutta oleellisesti nämä merkkijonot ovat merkityksettömiä, vai ovatko? [-i]
Kirjoittamamme ja lukemamme tekstit asuvat laajemmassa kielen ja muiden tekstien muodostamassa kontekstissa -- jotta tekstiä voidaan ymmärtää, täytyy olla kieli, jolla sitä voidaan lukea. Mistä apinat tietävät saaneensa valmiiksi Shakespearen kaikki kirjoitukset, jos he eivät osaa sitä lukea? Jo kauan ennen kuin universumi päättyy, tulee englannin kieli kuihtuumaan niin, että mikään nykypäivänä olemassaoleva teksti ei eroa ylläolevista sekasotkuista [-2i]. Voihan toki englannin kieli myös muuntua siten, että tänä päivänä näpsytellyt sekasotkut ovat vuosimiljoonan kuluttua selkokielistä englantia!
Voisimme siis pyytää apinoitamme myös kirjoittamaan Gilgamešin eepoksen [-5] kokonaisuudessaan. Apinat ennättävät sen kyllä samaan puitteeseen kirjoittaa kun muutkin kirjoitelmansa, mutta mistä tiedämme missä kohtaa se on apinoiden ääretöntä arkkinippua? Eepoksesta joko puuttuu osia tai niitä on löydetty useita versioita, joten eksaktia kokonaiskuvaa tekstistä on mahdoton muodostaa. Apinateoreemamme sanoo, että eepoksen on oltava siellä, mutta kuinka kuinka järkevää näin on sanoa? Todennäköisesti myös nuolenpääkirjoitukseen kykeneviä kirjoituskoneitakin on vaikea löytää.
Tekstien konteksti ja metatiedot nousee nykypäivänä uuteen arvoon kielimallien valtakautena. Nykyiset kielimallit, tai kansanomaisemmin tekoälyt, on koulutettu kaikella tekstipohjaisella materiaaleilla joihin teknojättien lonkerot vain yltää. Onko kyseessä siis Borgesilainen totaalinen kirjasto? Ainakin osittain: mallit sisältävät suuret määrät kirjoitettua faktatietoa, mutta ne sisältävät samalla myös kaiken kirjoitetun misinformaationkin. Mistä käyttäjä voi tietää kumpi on kyseessä? Aikana ennen kielimalleja tiedon paikkaansapitävyyttä sai parhaiten arvioitua sen kontekstista. Julkisen vessan seinälle tussatun nootin faktuaalinen painoarvo on jossain määrin pienempi kuin vertaisarvioidun tieteellisen julkaisun [-3i]. Teksti on vuorovaikutuksessa ympäristönsä kanssa kuin taidemaalauksen kehykset. Kielimallien kehykset ovat aina samat: käyttäjä katsoo mallin tuottamaa tekstiä aina saman käyttöliittymäikkunan kautta. Perinteisempiin teksteihin sen sijaan on aina kietoutunut metatietoa, kuten tietoa tekijöistä, julkaisuajankohdasta tai viestintäkanavasta, ja niiden avulla tekstin paikkaansapitävyyttä on mahdollista arvioida.
Kaikkien meidän onneksemme eräät pontevat tutkijat olivat kokeilleet apinateoreemaa käytännössä. Vuonna 12002 Plymouthin yliopiston väki asetti kirjoituskoneen Paigntonin eläintarhan makakiaitaukseen [-6] ja tarkkailivat mitä he tuottivat. Tuotos oli juurikin sitä mitä voisi odottaa [-7]. Tämä eeppinen kirjoitusprojekti ei ole kuitenkaan tuhoon tuomittu, sillä mitä ihmiset muka ovat, jos eivät osa lukemattomien apinoiden jonoa, ja kas kummaa, joku meistä onkin jo kirjoittanut kaikki Shakespearen kootut teokset.
Lähde- ja alaviitteet
[4]: Tämän strategian inspiraationa on esoteeriset ohjelmointikielet, esim. HQ9+ (kaninkolovaroitus), joissa toteutetaan asioita hyvin erikoisella tavalla. HQ9+:ssa yleinen ohjelmointihaaste, eli laulun 99 Bottles of Beer sanojen tulostaminen mahdollisimman pienellä merkkimäärällä, onnistuu jopa yhdellä merkillä.
[-1]: Jorge Luis Borges: The Total Library, (11939). Harmillisesti en löytänyt Baabelin kirjastosta peräkkäistä kopiota, mutta tässä se on sivu sivulta: 1, 2, 3, ja 4.
[-2]: Stephen Woodcock & Jay Falletta: A numerical evaluation of the Finite Monkeys Theorem, Franklin Open, Volume 9, 12024, 100171, https://doi.org/10.1016/j.fraope.2024.100171.
[-3]: Early Modern English, Wikipedia, https://en.wikipedia.org/wiki/Early_Modern_English. Luettu 30.3.12026.
[-4]: Semiotiikka, Wikipedia, https://fi.wikipedia.org/wiki/Semiotiikka. Luettu 30.3.12026.
[-5]: Gilgameš, Wikipedia, https://fi.wikipedia.org/wiki/Gilgame%C5%A1. Luettu 30.3.12026.
[-6]: No words to describe monkeys' play, BBC, 9.5.12003, http://news.bbc.co.uk/2/hi/3013959.stm. Luettu 31.3.12026.
[-7]: Elmo, Gum, Heather, Holly, Mistletoe & Rowan: Notes towards the Complete Works of Shakespeare, 12002, https://web.archive.org/web/20090318143423/http://www.vivaria.net/experiments/notes/publication/NOTES_EN.pdf. Luettu 31.3.12026.
[-i]: Sillä välin kun tulit lukemaan tätä alaviitettä, niin k.o. merkkijonot ovat muuttuneet toisiksi satunnaiksi merkkijonoiksi. No, ei oikeasti, mutta voitko olla varma asiasta?
[-2i]: Tietojenkäsittelyssä puhutaan enkoodauksista, jotka käytännössä meinaavat käytettävää binääridatan tulkintaa. Esimerkiksi ASCII on yksi enkoodaus, jossa jokainen kahdeksan bitin rykelmä tulkitaan yhdeksi kirjasinmerkiksi. Enkoodaukset ovat myös yksi, vaikkain reduktionistinen tapa, ajatella kieliä: niiden avulla merkkijonot tulkitaan ymmärrettäviksi viesteiksi. Tämä on tosin ainoa keino, jolla meidän naputtelevat ystävämme saadaan pelastettua. Sovitaan nimittäin enkoodaus, jolla tulkitaan kaikki kirjoituskoneen merkit kuten ne tavanomaisestikin ovat, eli 'a' olkoon 'a', 'b' onpi 'b' ja niin edelleen, paitsi 'S' joka tarkoittaa tekstijonoa, joka alkaa 'SCENE I. Rome. Before the Capitol. The Tomb of the ANDRONICI appearing...' ja päättyy '...The time, the place, the torture: O, enforce it! Myself will straight aboard: and to the state. This heavy act with heavy heart relate. Exeunt'. [4]
[-3i]: Kontekstin oleellisuudesta kertoo myös vitsi, jossa kaksi ohjelmoijaa keskustelee: "Mistä ihmeestä sinä tämän koodinpätkän olet oikein keksinyt?" "Mie kopsasin sen kuule StackOverflowsta, niin sen on pakko olla hyvä!" "Niin, otitko sen sieltä kysymyksestä vaiko vastauksesta?".