The Magazine Corpus of the Institute for the Languages of Finland

View resource name in all available languages

Kotimaisten kielten keskuksen aikakauslehtikorpus

ID:

http://urn.fi/urn:nbn:fi:lb-201407301

http://islrn.org/resources/992-157-634-698-6

The corpus contains different volumes of four magazines (Suomen Kuvalehti, Historiallinen aikakauskirja, Lakimies and Suomi) and will be published in Korp (https://korp.csc.fi/).

Suomen Kuvalehti's volumes: 1917, 1925, 1935, 1945, 1955, 1965, 1972 (approximately 5,4 million tokens).

Historiallinen Aikakauskirja's volumes : 1917, 1920, 1925, 1935, 1945.

Lakimies' volumes: 1917, 1920, 1925, 1935, 1945, 1955, 1965, 1972.

Suomi's volumes: 1917, 1920, 1923, 1935, 1938.

The corpus is made up of two parts: one whose OCR (optical character recognition) has been checked and another one whose OCR hasn't been checked. The former part's size is 670 000 tokens and contains one 1935 issue from Historiallinen Aikakauskirja, Lakimies and Suomi, as well as 4 issues of Suomen Kuvalehti from each of the years mentioned above (1917, 1925, 1935, 1945, 1955, 1965 and 1972). These issues were chosen so that there would be an equal amount of texts from all year round.

For detailed information on the license of the resource see https://kitwiki.csc.fi/twiki/bin/view/FinCLARIN/ClarinEulaEngACANc

View resource description in all available languages

Korpus sisältää neljän aikakauslehden (Suomen Kuvalehti, Historiallinen aikakauskirja, Lakimies ja Suomi) eri vuosikertoja. Aineisto julkaistaan Korpissa (https://korp.csc.fi/).

Korpuksessa on neljän 1900‐luvulla ilmestyneen aikakauslehden vuosikertoja:


Historiallisen Aikakauskirjan, Lakimiehen, Suomen Kuvalehden ja Suomen. Aikakauslehtiä on yhteensä 385, sivuja noin 25 000 ja sanoja noin 8 000 000.

Korpuksen selkäranka on Suomen Kuvalehti. Lehteä on korpuksessa seitsemän vuosikerrallista (1917, 1925, 1935, 1945, 1955, 1965 ja 1972), yhteensä 5,4 miljoonaa sanaa. Historiallisesta Aikakauskirjasta mukana ovat vuosikerrat 1917, 1920, 1925, 1935 ja 1945. Lakimiehestä 1917, 1920, 1925, 1935, 1945, 1955, 1965 ja 1972 sekä Suomesta 1917, 1920, 1923, 1935 ja 1938.

Korpuksessa on kaksi osaa: täysin automaattisesti laadittu perusaineisto ja puoliautomaattisesti laadittu ydinaineisto. Ydinaineistossa on 670 000 sanaa. Se sisältää kustakin korpukseen valitusta Suomen Kuvalehden vuosikerrasta neljä numeroa, yhteensä 450 000 sanaa. Lehtien numerot valittiin vuosikerroittain siten, että aineistoa on tasaisesti pitkin vuotta. Muista lehdistä ydinaineistossa on yksi vuonna 1935 ilmestynyt numero kutakin.

Lisätietoa kielivaran lisenssistä: https://kitwiki.csc.fi/twiki/bin/view/FinCLARIN/ClarinEulaFinACANc

You don’t have the permission to edit this resource.