ProGram data. The stories Snowman and Frog, where are you?

View resource name in all available languages

ProGram-aineisto, lumiukko- ja sammakkotarinat

Snowfrog

ID:

http://urn.fi/urn:nbn:fi:lb-2016031101

Finnish Sign Language material collected in the ProGram project. The material consists of video files and their annotations in ELAN format.

This corpus has been published in Kielipankki - the Language Bank of Finland, at http://urn.fi/urn:nbn:fi:lb-1001100113005.

Reference: University of Jyväskylä, Sign Language Centre (2016). ProGram data. The stories Snowman and Frog, where are you? [speech corpus]. Kielipankki. Retrieved from http://urn.fi/urn:nbn:fi:lb-2016031101

View resource description in all available languages

"ProGram-aineisto, lumiukko- ja sammakkotarinat" (tässä lyh. ProGramin tarina-aineisto) on kokoelma Suomen viittomakielten korpusprojektissa (CFINSL, aiemmin FinSLs) kerättyä materiaalia, joka on käsitelty suomalaisen viittomakielen kielioppia ja prosodiaa tarkastelevassa ProGram-projektissa (Suomen Akatemian vuosille 2013-2018 rahoittama akatemiatutkijan projekti "Aspects of the grammar and prosody of Finnish Sign Language – Näkökulmia suomalaisen viittomakielen kielioppiin ja prosodiaan", vastuullinen tutkija FT, dos. Tommi Jantunen). Materiaali koostuu suomalaisella viittomakielellä viitotuista tarinoista "Lumiukko" ("Snowman") ja "Sammakko, missä olet?" ("Frog, where are you?"). Tarinat on elisitoitu vuoden 2013 alussa tekstittömien kuvakirjojen avulla tilanteessa, jossa viittojat istuivat pareittain toisiaan vasten kuvausstudiossa ja suorittivat erilaisia CFINSL-aineiston keruuseen suunniteltuja kielellisiä tehtäviä. Parien kuvaus on toteutettu samanaikaisesti kuuden Full HD -kameran (1920x1080, 25-50 ruutua sekunnissa) avulla eri kuvakulmista (yleiskuva, kaksi erilaista yksilökuvaa molemmista viittojista ja kattokameran kuva); jokaisen parin toista viittojaa on kuvattu myös Kinect-sensorilla. Videomateriaali on annotoitu ELAN-ohjelmassa viittomien, lausetasoisten käännösten, lauseiden rakenteen, semanttisten roolien, konstruoidun toiminnan sekä pään ja kehon liikkeiden ja asentojen osalta. Materiaalin erikoispiirre on, että se sisältää myös videolta tietokonenäköä hyödyntävän SLMotion-ohjelman avulla tuotettua numeerista tietoa jokaisen viittojan pään liikkumisesta ja viittojan silmien ja suun avonaisuusasteesta.

ProGramin tarina-aineiston kokonaiskesto on 45 minuuttia ja se sisältää viittomista yhteensä 12 äidinkieliseltä henkilöltä (8 naista, 4 miestä; ikähaarukka 20–60 -vuotta). Tämä Kielipankin LAT-alustalla julkaistu aineisto koostuu kuitenkin vain tutkimuslupien sallimasta osasta, mikä tarkoittaa noin 21 minuuttia videota yhteensä kuudelta viittojalta (4 naista, 2 miestä; ikähaarukka samat 20-60 vuotta). Tässä julkaistu materiaali on vajaa myös sikäli, että se ei sisällä lauseiden rakenteen, semanttisten roolien eikä konstruoidun toiminnan annotaatioita, joita suunnitellaan julkaistavaksi myöhemmin. Myös aineiston videomateriaali on kokonaisaineistoon verrattuna kevyempilaatuista.

Aineiston perusannotaatio koostuu viittomia edustavista S-glosseista ja viittomisen lausetasoisista S-käännöksistä. Glossauksessa merkitykseltään ja muodoltaan suhteellisen vakioiset viittomat on erotettu merkitys-muoto -suhteeltaan hankalammin yksilöitävistä viittomista siten, että ensinmainitut on annotoitu niin kutsutuilla merkitysglosseilla (jotka on listattu myös erillisessä luettelossa) ja jälkimmäiset kuvailuglosseilla (nämä on osoitettu etuliitteellä k sekä siten, että glossin pääosa on kirjoitettu pienaakkosin lainausmerkkien sisään). Lisäksi viittomat on jaettu pääsanaluokkiin (nominaali n ja verbaali v; määrittämätön x), ja jos kahta tai useampaa viittomaa on käytetty yhden käsitteen ilmaisuun, niin tämä on osoitettu etuliitteellä y (yhdiste). Osoitukset (OS) ja kämmenet ylös -ele (PALM-UP) on glossattu itsenäisinä merkitys-muoto pareina. Kaikkien glossien lopussa voi olla viittoman muotoa (käsimuoto, paikka, liike) tai merkitystä täsmentävää lisäinformaatiota.

S-käännös on suomenkielinen käännös, joka pyrkii noudattamaan lähtötekstiä mahdollisimman tarkasti. Kaarisuluilla on merkitty käännökseen ellipsi ja muut viittomisesta puuttuvat, mutta suomen kieleen kuuluvat yksiköt. Hakasuluilla on ilmoitettu kontekstin tai ei-manuaalisen toiminnan kautta ilmenevä merkitys.

Lausetasoisessa annotaatiossa viittomat on ryhmitelty predikoivien yksiköiden ympärille muodostuviksi (yksinkertaisiksi) lauseiksi. Pään ja kehon liikkeet on annotoitu karkeisiin analyyttisiin luokkiin, kuten nyökkäys ja työntö sekä kehon taivutus.

Tietokonenäköpohjainen analyysi jokaisen viittojan pään ja kasvojen sekä niiden eri osien liikkeistä ja asennoista on toteutettu SLMotion-ohjelmalla. Pään liikkumista on mitattu kääntö- (yaw), nyökkäys- (pitch) ja kallistusulottuvuudessa (roll). Silmien ja suun avonaisuusasteen analyysissa on käytetty pientä määrää luokkia (esim. silmien avonaisuusaste on analysoitu luokilla kiinni, sirillään, neutraali ja laajennettu). Kaikki SLMotionilla tuotettu mittaustieto on numeerista, ja se voidaan esittää visuaalisina kuvaajina ELAN-ohjelmassa.

Videoaineiston kuvausprosessia on dokumentoitu seuraavassa julkaisussa:

Puupponen, A.; Jantunen, T.; Takkinen, R.; Wainio, T. & Pippuri, O. (2014). Taking non-manuality into account in collecting and analyzing Finnish Sign Language video data. In "Proceedings of the 6th Workshop on the Representation and Processing of Sign Languages: Beyond the Manual Channel" [organized as a part of LREC 2014 in Reykjavik, Iceland, May 31, 2014], pp. 143-148. Paris: European Language Resources Association (ELRA).

Aineiston annotaatioperiaatteet on dokumentoitu seuraavassa julkaisussa:

Jantunen, T.; Pippuri, O.; Wainio, T. & Puupponen, A. (2016). Annotated video corpus of FinSL with Kinect and computer-vision data. In "Proceedings of 7th Workshop on the Representation and Processing of Sign Languages: Corpus Mining" [organized as a part of LREC 2016 in Portoroz, Slovenia, May 28, 2016], pp. 93–100. Paris: European Language Resources Association (ELRA).

Yllä mainitut artikkelit sekä lisätietoa aineistosta ja sen käsittelystä on saatavilla ProGram-projektin kotisivuilta verkko-osoitteesta http://users.jyu.fi/~tojantun/ProGram.

ProGramin tarina-aineiston teko on rahoitettu Suomen Akatemian projekteista 269089 ja 273408 (ProGram) sekä SLMotion-käsittelyn osalta myös projekteista 140245 (CoBaSiL) ja 251170 (COIN). Lisäksi aineiston videoiden valmistamista on rahoitettu opetus- ja kulttuuriministeriön Jyväskylän yliopistolle myöntämästä viittomakielenkeskuksen erityistehtävämäärärahasta.

Tässä julkaistut ProGramin tarina-aineiston videotiedostot, ELAN-tiedostot ja SLMotionilla tuotetut csv-tiedostot ovat saatavilla Creative Commons BY NC SA -lisenssin uusimmalla versiolla.

BY: Nimeä — Sinun on mainittava lähde asianmukaisesti, tarjottava linkki lisenssiin sekä merkittävä, mikäli olet tehnyt muutoksia. Voit tehdä yllä olevan millä tahansa kohtuullisella tavalla, mutta et siten, että annat ymmärtää lisenssinantajan suosittelevan sinua tai teoksen käyttöäsi.

NC: EiKaupallinen — Et voi käyttää aineistoa kaupallisiin tarkoituksiin.

SA: JaaSamoin — Jos remiksaat tai muokkaat aineistoa taikka luot sen pohjalta uusia aineistoja, sinun on jaettava muutoksiasi samalla lisenssillä kuin alkuperäistä aineistoa.

http://creativecommons.org/licenses/by-nc-sa/4.0/legalcode.fi
https://creativecommons.org/licenses/by-nc-sa/4.0/deed.fi

Yhteenveto julkaistun ProGramin tarina-aineiston tiedostoista:
- 18 videotiedostoa tallennusmuodossa MPEG 4 (H.264-koodekki, resoluutio 640 x 360; yht. n. 1,1 Gt)
- 12 ELAN-ohjelman annotointi- ja konfiguraatiotiedostoa (eaf, pfsx, svg, _tsconf.xml; yht. n. 2,3 Mt)
- 12 csv-muotoista tekstitiedostoa (sisältävät SLMotionilla tuotetun lisäaineiston; n. 8 Mt)
- ProGram-aineiston S-glossit.pdf

Viittauskäytäntö

Julkaistuun aineistoon viitataan seuraavasti:

Jyväskylän yliopisto, viittomakielen keskus (2016). ProGram-aineisto. Lumiukko- ja sammakkotarinat [puhekorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2016031101

University of Jyväskylä, Sign Language Centre (2016). ProGram data. The stories Snowman and Frog, where are you? [speech corpus]. Kielipankki. Retrieved from http://urn.fi/urn:nbn:fi:lb-2016031101

You don’t have the permission to edit this resource.
  • ELAN