Frequency List of Written Finnish Word Forms

View resource name in all available languages

Kirjoitetun suomen kielen sanojen taajuuksia

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-20140730146

http://islrn.org/resources/245-100-606-282-0

Access location:

A ranked frequency list of Finnish word forms as they appear in the Finnish Parole text corpus of 17 million written tokens. The list is available for download in three different sizes: all tokens, tokens that occur more than once, and tokens that occur more than twice, all in ISO-8859-1 (Latin-1) one entry per line. The five thousand most frequent forms are also available for browsing on the web site.

License EUPL (http://ec.europa.eu/idabc/en/document/7774.html).

Download location: http://kaino.kotus.fi/sanat/taajuuslista/parole.php.

View resource description in all available languages

Tämä sivu sisältää kirjoitetun suomen kielen sanojen taajuuslistan.Taajuuslistaan sisältyvät Parole-tekstikorpuksessa esiintyvät sananmuodot taajuustietoineen. Parole-korpus on yhteiseurooppalaisessa Parole-hankkeessa vuosina 1996-1998 koostettu nykysuomen tekstikorpus. Se sijaitsee CSC:n palvelimella osana Kielipankin tekstikokoelmia. Kielipankin käyttöön tarvitaan käyttölupa, jota voi hakea täyttämällä kayttölupahakemuksen.

Teksti on käsitelty ennen sananmuotojen laskemista siten, että isot kirjaimet on muutettu pieniksi, välilyönneillä erotetut numerosarjat on yhdistetty '_'-merkeillä, välimerkit on poistettu (poikkeuksena ':' ja '-', jotka on säilytetty sanojen sisällä) ja tekstistä on poistettu kaikki ne merkkijonot, jotka eivät sisällä yhtäkään numeroa tai kirjainta. Rivin lopussa jaettuja sanoja ei ole yhdistetty. Laskettuja saneita on 17 604 995 kappaletta. Listat on järjestetty siten, että yleisin sananmuoto on listassa ensimmäisenä.

Sivun alalaidasta ladattavissa pakatuissa taajuuslistoissa jokaiseen sananmuotoon liittyy sen esiintymien lukumäärä aineistossa ja sananmuodon esiintymien suhteellinen osuus prosentteina aineiston kaikista saneista. Sananmuodon esiintymien suhteellinen osuus aineiston saneista saattaa olla niin pieni, että sen suuruusluokka esitetään negatiivisella eksponentilla (esimerkiksi e-06). Luvut on leikattu poikki neljännen desimaalin jälkeen, ei pyöristetty. Muun muassa alla olevat sanat esiintyvät Parole-korpuksessa yhden kerran.
1 ääniefektinä (5.6802e-06 %)
1 genetzistä (5.6802e-06 %)
1 emalikulho (5.6802e-06 %)

Listasta on ladattavissa kolme versiota. Laajimmassa on kaikki Parole-korpuksen sananmuodot. Koska tämä lista on varsin kookas (1 339 787 sananmuotoa), olemme lisänneet sen rinnalle keskilaajan listan, josta on poistettu kaikki sananmuodot, jotka esiintyvät vain kerran (tämä lista sisältää 542 521 sananmuotoa) ja suppean listan, josta on poistettu kaikki ne sananmuodot, jotka esiintyvät yhden tai kaksi kertaa (lista sisältää 362 514 sananmuotoa). Suppea lista lienee riittävä useimpiin käyttötarkoituksiin.

Lisenssi EUPL (http://ec.europa.eu/idabc/en/document/7774.html).

You don’t have the permission to edit this resource.