Psycholinguistic Descriptives

View resource name in all available languages

Psykolingvistiset tunnusluvut

psychlingdesc

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2018081601

Access location:

The material is available at the Language Bank of Finland (Kielipankki) download service, access location http://urn.fi/urn:nbn:fi:lb-2018081602.

This material comprises a dataset of word frequencies from six different text corpora and simple query tool for extracting often used psycholinguistic descriptives for given words. The word frequency tables have been filtered to better reflect actual word frequencies. More information on the filtering and the query tool can be found in the readme file.

The combined datasets for lemmas and surface forms comprise around 2500M words/lemmas and 1.5M unique words and 0.7M unique lemmas.

The corpora used in making the word frequency tables:
The Suomi24 Corpus: http://urn.fi/urn:nbn:fi:lb-2017021630

Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version (KLK,
only from 1980 onwards): http://urn.fi/urn:nbn:fi:lb-2016050302

Finnish Magazines and Newspapers from the 1990s and 2000s, , Version 2:
http://urn.fi/urn:nbn:fi:lb-2017091901

Finnish Wikipedia 2017: http://urn.fi/urn:nbn:fi:lb-2018060401

Finnish Opensubtitles 2017: http://urn.fi/urn:nbn:fi:lb-2018060403

Data retrieved from the website in making the word frequency tables:

Comments made to the Finnish discussions of the Reddit forum https://old.reddit.com/r/Suomi/ between January 2012 and December 2017

View resource description in all available languages

Tämä aineisto on saatavilla Kielipankin latauspalvelussa, sijaintipaikka http://urn.fi/urn:nbn:fi:lb-2018081602.

Aineisto käsittää kuudesta eri tekstikorpuksesta kerättyjen sanojen frekvenssit sekä yksinkertaisen hakutyökalun, jolla sanoille voidaan laskea usein käytettyjä psykolingvistisiä tunnuslukuja. Sanafrekvenssitaulukoita on suodatettu, jotta ne vastaisivat paremmin sanojen todellisia taajuuksia. Tarkemmat tiedot suodatuksesta ja hakutyökalusta löytyvät readme-tiedostosta.

Lemmojen (perusmuotojen) ja pintamuotojen aineistot yhdessä kattavat noin 2500 miljoonaa sanetta/lemmaa, 1,5 miljoonaa uniikkia sanaa ja 0,7 miljoonaa uniikkia lemmaa.

Aineistot, joihin sanafrekvenssitaulukot perustuvat:

Suomi 24 -korpus: http://urn.fi/urn:nbn:fi:lb-2017021630

Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio (KLK, vain vuodesta 1980 eteenpäin):
http://urn.fi/urn:nbn:fi:lb-2016050302

1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2: http://urn.fi/urn:nbn:fi:lb-2017091901

Suomenkielinen Wikipedia 2017: http://urn.fi/urn:nbn:fi:lb-2018060401

Suomenkielinen Opensubtitles 2017: http://urn.fi/urn:nbn:fi:lb-2018060403

Lisäksi sanafrekvenssitaulukoiden tekemistä varten on haettu data seuraavalta verkkosivustolta:

Suomenkieliseen Reddit-palveluun https://old.reddit.com/r/Suomi/ lähetetyt kommentit (tammikuu 2012 – joulukuu 2017)

You don’t have the permission to edit this resource.