Plenary Sessions of the Parliament of Finland, Kielipankki Korp Version 1.5

View resource name in all available languages

Eduskunnan täysistunnot, Kielipankin Korp-versio 1.5

eduskunta-v1.5-korp

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2019101621

This updated corpus version is currently being tested and will soon be made available in Kielipankki, the Language Bank of Finland (Korp service), see Access location.

The corpus contains the first version of the transcriptions of of the plenary sessions of the Parliament of Finland from 10.09.2008 to 1.7.2016. The transcripts have been aligned with the audio tracks of the video recordings of the original sessions. Each speaker's speech has been separately aligned. The alignment is based on the output of a set of automatic tools and it was provided by Aalto University.

In this updated version, links have been added from each utterance in the transcript to the corresponding portion of the video recording. Video links can be found from the search results in Korp. In addition, for backward compatibility, some search results in Korp have a link to the LAT version of the session in case it exists. Please note that the LAT version may not be available in future versions of the corpus. However, the original transcription files will continue to be available in the downloadable version of the corpus (see Relation for the link to the download version).

Please note that the aligned transcript may contain errors and some superfluous tags may have been inserted in the text due to the automatic alignment and speech recognition process. For portions where the original audio track did not have matching text in the transcript, the speech signal was recognized automatically using a Finnish language model, and such portions may contain strange or erroneous content.

The text in the transcripts has been parsed automatically using a Finnish language model. This is why the part-of-speech of word tokens in the Swedish portions within the transcripts has usually been marked as 'foreign word'.

In the search results of this corpus version in Korp, there are links to the original authoritative session transcripts as well as to the original video streams that are provided by the Parliament of Finland.

View resource description in all available languages

Tätä korpuksen päivitettyä versiota testataan parhaillaan ja se on tulossa saataville Kielipankin Korp-palveluun (tarkista sijainti kohdasta Access location).

Aineisto sisältää ajalla 10.09.2008 - 1.7.2016 pidettyjen eduskunnan täysistuntojen videotallenteisiin kohdistettujen keskustelupöytäkirjojen ensimmäisen version. Tekstimuotoinen aineisto on saatavilla Kielipankin Korp-palvelussa, ks. Access location. Eduskunnan tuottamat pöytäkirjat on kohdistettu istuntojen videotallenteiden ääniraitaan siten, että kukin puhuja on kohdistettu erikseen. Kohdistus on tehty automaattisin menetelmin Aalto-yliopistossa.

Tässä päivitetyssä korpusversiossa on mukana myös linkit jokaisen tekstissä esiintyvän virkkeen tai puhunnoksen kohdalta vastaavaan kohtaan alkuperäisessä videossa. Videolinkit löytyvät Korpin hakutuloksista. Lisäksi joistakin hakutuloksista on linkki kyseisen istunnon tallenteeseen LAT-alustalla, jotta korpus olisi edelleen yhteensopiva aiemman version kanssa. Jatkossa LAT-aineistoon johtavat linkit tullaan todennäköisesti poistamaan. LATissa näkyvät annotaatiotiedostot ovat kuitenkin myös tulevaisuudessa saatavilla latauspalvelun kautta (linkki latausversion tietoihin löytyy kohdasta Relation).

Huomaa, että kohdistetussa pöytäkirjaversiossa voi esiintyä virheitä ja siihen on saattanut syntyä ylimääräisiä merkkauksia automaattisen tunnistusprosessin yhteydessä. Ne kohdat äänitteessä, joille ei ole automaattisessa kohdistuksessa löytynyt hyvää vastinetta pöytäkirjan tekstistä, on tunnistettu kokonaan automaattisesti suomen kielen mallia käyttäen, joten tällaisissa kohdissa saattaa olla kummallista tai virheellistä sisältöä.

Tekstiaineiston automaattisessa jäsentämisessä on käytetty suomen kielen mallia. Tästä syystä alkuperäisten pöytäkirjojen ruotsinkieliset kohdat on yleensä merkitty sanaluokaltaan vierassanoiksi.

Korpin hakutuloksista on tässä versiossa myös linkit eduskunnan tarjoamiin alkuperäisiin, virallisiin täysistuntojen pöytäkirjoihin sekä alkuperäisiin videotallenteisiin.

Muita huomautuksia:

* VRT-tiedostot on nimetty istunnon päivämäärän mukaan, mutta niiden Korpissa näkyvät päivämääräattribuutit pöytäkirjan/videon julkaisuajankohdan mukaan. Joissakin tapauksissa päivämääräattribuutin päiväys on yhden päivän myöhäisempi kuin tiedoston nimessä näkyvä päiväys.

* Korpissa näkyvän aineiston numeroilla kirjoitettujen lukusanojen perässä on tällä hetkellä mukana ylimääräisiä morfologisia merkkauksia (esim. INE, ILL, ADE tms.). Merkinnät ovat peräisin automaattisesta kohdistusprosessista eikä niitä ole alkuperäisissä pöytäkirjoissa. Käyttäjän kannattaa huomioida tämä hakuja tehdessään.

You don’t have the permission to edit this resource.
  • ELAN