Finnish Corpus (Literature) (UHLCS)

View resource name in all available languages

Suomen korpus (kirjallisuutta) (UHLCS)

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2014032622

http://islrn.org/resources/640-204-024-555-6

The corpus is available in Kielipankki - the Language Bank of Finland (taito-shell.csc.fi, access rights instructions: http://www.kielipankki.fi/access).

Contents:

1. HKV corpus: consists of samples of the Finnish literature representing various text types. The corpus is documented in the following publication: Auli Hakulinen & Fred Karlsson & Maria Vilkuna Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki, 1980. The morpho-syntactic encoding is documented in the following publication: Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985. The file is an encoded version, in which the classes of parts of speech are marked: The corpus is in the ASCII-format. The size of the tagged corpus is 68.425 words and 837.373 characters. The creator of the HKV corpus is Kristiina Jokinen.

2. Le Parole
This electronic language resource was compiled out of several languages spoken in Europe during the international project Le Parole. The corpus includes structure analysis and TEI information in SGML form. It contains subcorpora that have been analysed in a variety of manners. The corpus is in Latin-1 form (ISO 8859-1).
Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985.
The corpus is in ASCII form. The size of the syntactically coded corpus is 68 425 words and 837 373 characters. The corpus contains 10 149 sentences.

3. Helsinki Region Spoken Language Corpora (1972-1974)
The corpus consists of material collected during the project “Nykysuomen murros” (‘Change of modern Finnish’). The director of the project was Heikki Paunonen and the project, led by the Committee of Humanistic Research in Finland, took place mainly between 1977 and 1980. The description of the project, which is available to researchers, was drawn up by Pirkko Kukkonen. The corpus was transcribed from recorded spoken language material. The size of the corpus is 127 times 30 minutes and it is in ASCII form.

4. Issues of Suomen Kuvalehti published in 1975 and 1976
The corpus includes some issues of the Finnish weekly news magazine Suomen Kuvalehti that were published in 1975 and 1976. The publisher of the magazine Yhtyneet Kuvalehdet Oy gave the material to the department of General Linguistics of the University of Helsinki to be used as research and teaching material. The size of the corpus is 840 762 words and 9 693 042 characters and it is in ASCII form.

5.All issues of Suomen Kuvalehti published in 1987
The corpus includes all the issues of the Finnish weekly news magazine Suomen Kuvalehti that were published in 1987. The publisher of the magazine Yhtyneet Kuvalehdet Oy gave the material to the department of General Linguistics of the University of Helsinki to be used as research and teaching material. The size of the corpus is 1 730 597 words and 12 520 546 characters and it is in ASCII form.

6. Tiede 2000
The corpus includes material from the Finnish science magazine Tiede 2000 that was published in 1990: Tiede 2000, 1990: 1, 39-43. The size of the corpus is 68 067 words and 464 792 characters and it is in ASCII form.

7. WSOY
The corpus includes portions of books published by the Finnish publishing company Werner Söderström Osakeyhtiö (WSOY, Helsinki and Porvoo). The size of the corpus is 979 516 words and 7 086 335 characters and it is in ASCII form.

The Finnish Corpus is a part of the UHLCS corpus collection.

UHLCS has many different IPR holders. Should you have any questions regarding the collection, please contact Pirkko Suihkonen (suihkonen.pirkko@gmail.com).

License details: http://urn.fi/urn:nbn:fi:lb-20150304124

Detailed information:http://urn.fi/urn:nbn:fi:lb-2014060210

The purpose of the resource use must be outlined in a research plan.

View resource description in all available languages

Aineisto on saatavilla Kielipankin sovelluspalvelimella (taito-shell.csc.fi, käyttöoikeuksien hakemisesta ks. https://www.kielipankki.fi/kayttajaksi/).

Sisältö:

1. HKV-korpus koostuu eri kirjallisuuden lajeja edustavista teksteistä. Korpus on dokumentoitu seuraavassa julkaisussa:
Auli Hakulinen & Fred Karlsson & Maria Vilkuna. 1980. Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki. HKV-korpuksen on koostanut Kristiina Jokinen.

2. LE PAROLE:
Kansainvälisen hankkeen "LE PAROLE" yhteydessä laadittiin sähköisessä muodossa olevia kieliaineistoja useista Euroopassa puhuttavista kielistä. Suomesta laadittu LE PAROLE -korpus on käytettävissä CSC:llä, Kotimaisten kielten tutkimuskeskuksessa (http://www.kotus.fi/) ja UHLCS:ssa. Korpus sisältää SGML-muodossa olevan rakenneanalyysin ja TEI-informaation. Korpukseen kuuluu eri tavoin analysoituja alikorpuksia. Korpus on Latin-1-muodossa (ISO 8859-1).
Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985.
Korpus on ASCII-muodossa. Syntaktisesti koodatun korpuksen koko on 68 425 sanaa ja 837 373 merkkiä. Lauseita korpuksessa on 10,149.

3. Helsingin alueen puhekielen korpus (1972-1974):
Korpus koostuu aineistoista, jotka on koottu hankkeen "Nykysuomen murros" aikana. Hankkeen johtaja oli Heikki Paunonen ja hankkeen Valtion humanistisen toimikunta (the Committee of humanistic research in Finland) ja pääosa hankkeesta oli käynnissä vuosien 1977-1980 aikana. Korpuksen kuvauksen, joka on tutkijoiden käytettävissä, on laatinut Pirkko Kukkonen. Korpus on transkriboitu puhekielen aineistoista, jotka on nauhoitettu. Korpuksen koko on 127 x 30 min. Korpus on ASCII-muodossa.

4. Suomen Kuvalehti, vuosina 1975 ja 1976 julkaistuja numeroita:
Korpus sisältää Suomen Kuvalehden numeroita vuosilta 1975 ja 1976. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 840 672 sanaa ja 9 693 042 merkkiä. Korpus on ASCII-muodossa.

5. Suomen Kuvalehti, kaikki vuonna 1987 julkaistut numerot:
Korpus sisältää kaikki vuonna 1987 julkaistut Suomen Kuvalehden numerot. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 1 730 597 sanaa ja 12 520 546 merkkiä. Korpus on ASCII-muodossa.

6. Tiede 2000:
Korpus sisältää aikakauslehden Tiede 2000 vuonna 1990 julkaistua materiaalia: Tiede 2000,1990: 1, 39-43. Korpuksen koko on 68 067 sanaa ja 464 792 merkkiä. Korpus on ASCII-muodossa.

7. WSOY:
Korpus sisältää osia Werner Söderström Osakeyhtiön (Helsinki ja Porvoo) julkaisemista kirjoista. Korpuksen koko on 979 516 sanaa ja 7 086 335 merkkiä. Korpus on ASCII-muodossa.
Suomen kielen korpusten lähdetiedot on mainittava kaikissa niissä dokumenteissa, joissa niitä on käytetty lähdeaineistona.

Suomen korpus on osa UHLCS-kokoelmaa.

UHLCS:llä on monta eri omistajaa. Kokoelmaan liittyvistä asioista voi tiedustella Pirkko Suihkoselta (suihkonen.pirkko@gmail.com).

Käyttöehdot: http://www.csc.fi/english/research/software/dma
Lisenssitiedot: http://urn.fi/urn:nbn:fi:lb-20150304124

Lataaminen: https://sui.csc.fi/group/sui/language-bank-rights.

Kielivaran käyttötarkoitus tulee määritellä tutkimussuunnitelmassa.

You don’t have the permission to edit this resource.