Kun puhumme suurista kielimalleista ja tekoälyn kehityksestä, puhumme lähes poikkeuksetta englanninkielisestä maailmasta. Englanti on internetin, tieteen, globaalin talouden ja ohjelmointikielten kiistaton valtakieli. Valtaosa maailman suosituimmista ja tehokkaimmista tekoälymalleista on koulutettu datamassoilla, joista yli 90 prosenttia on englanninkielistä tekstiä. Mutta mitä tapahtuu pienille ja omaleimaisille kielialueille, kuten suomen kielelle, kun tekoälystä tulee arkipäiväinen, näkymätön työkalu tiedonhakuun, viralliseen viestintään, luovaan kirjoittamiseen ja koulutukseen? Uhkaako digitaalinen aalto hukuttaa pienen kielemme, vai voiko koneesta tulla sen uusi pelastaja?
Pienten kielten digitaalinen kuolema ja ajattelun tasapäistyminen
Jos tekoälymallia ei ole erikseen koulutettu ymmärtämään suomen kielen monimutkaista rakennetta, sen rikasta taivutusjärjestelmää ja kulttuurista kontekstia, se alkaa käsitellä suomea pelkän mekaanisen käännöksen kautta. Kone ajattelee englanniksi ja kääntää ajatuksensa suomeksi lennossa. Tämä ilmiö näkyy jo nyt monissa arkipäivän teksteissä outoina, kömpelöinä rakenteina, suorina sanakäännöksinä sekä "anglismien" eli englanninkielisten ilmanpartikkelien ja lausemuotojen lisääntymisenä.
Tätä vaaraa kutsutaan kielitieteessä digitaaliseksi kielen kuolemaksi. Se ei tarkoita sitä, että suomen kielen puhuminen lopetettaisiin seinään. Vaarana on kielen sisäinen köyhtyminen: suomen kielen rikkaat vivahde-erot, synonyymit, murteet, sanonnat ja idiomit alkavat pikkuhiljaa kadota tekstistä, kun tekoälysuositukset tasapäistävät ilmaisumme. Koska kieli ei ole vain viestintäväline vaan myös ajattelun, historian ja kulttuurisen identiteetin koti, kielen köyhtyminen johtaa väistämättä myös ajattelun ja luovuuden tasapäistymiseen. Jos kaikki suomalaiset alkavat kirjoittaa sähköpostinsa ja raporttinsa amerikkalaisen algoritmin suodattaman tekstinperusteen mukaan, jotain hyvin olennaista suomalaisesta mentaliteetista katoaa.
Vastaisku pohjoisesta: Kotimaiset kielimallit ja kulttuurinen omavaraisuus
Suomessa tähän digitaalisen kolonialismin uhkaan on onneksi herätty ajoissa, ja maassamme on tehty uraauurtavaa työtä kielellisen suvereniteetin pelastamiseksi. Turun yliopiston ja suomalaisten tutkimuslaitosten yhteistyönä on kehitetty suuria kielimalleja (kuten FinGPT-perhe), jotka on koulutettu alusta alkaen puhtaalla, laadukkaalla ja laajalla suomenkielisellä materiaalilla. Koulutusdataksi on kerätty suomalaisia sanomalehtiä, tietokirjallisuutta, virallisia asiakirjoja, keskustelufoorumeita ja Ylen arkistoja.
Nämä kotimaiset mallit ymmärtävät suomen kielen logiikkaa, astevaihteluita ja ennen kaikkea suomalaista yhteiskuntaa. Ne tietävät, mikä on "talkoot", mitä tarkoittaa "sisu", miten suomalainen terveydenhuolto tai kuntapolitiikka toimii, ja miksi täällä vitsaillaan ämpäreistä. Tämä kulttuurinen omavaraisuus on kriittistä, sillä tekoälyä käytetään yhä enemmän julkishallinnossa, lakituomioistuimissa ja koululaitoksissa. Emme voi jättää suomalaisen yhteiskunnan pyöriä pyörittävää tekoälyä sellaisen algoritmin varaan, joka on omaksunut arvomaailmansa ja yhteiskuntakäsityksensä puhtaasti kalifornialaisilta keskustelufoorumeilta tai kiinalaisesta valtionvalvonnasta.
