DigiTala: L2 Finnish data from upper secondary schools, spring 2021

View resource name in all available languages

DigiTala: lukioissa kerätty S2-aineisto, kevät 2021

digitala-spring2021

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2023012621

This resource will be made available via Kielipankki – The Language Bank of Finland.

This resource includes speech samples from L2 Finnish speakers, transcripts, human ratings, the learners' responses to post-test surveys and the raters' responses to post-rating surveys. The data was collected by the DigiTala research project (2019–2023) during spring 2021 from upper secondary school students learning Finnish as a second language.

The main goal for DigiTala (2019–2023) research project is to develop a digital tool that uses automatic speech recognition and automatic scoring to assess L2 Finnish and Swedish learners' oral skills. The tool also provides automated feedback on learners' speaking performances. The purpose of the digital tool developed in the project is to make assessment of oral language skills possible in high-stakes language tests. Furthermore, students can practice their pronunciation and speech production in foreign languages independently outside the school or without the teacher’s guidance at language classes.

During the project, material was collected from upper secondary school students and university students learning Finnish as a second language. In addition to the resource described here and the data from spring 2021 (http://urn.fi/urn:nbn:fi:lb-2023012621), the project made use of the speech material collected in a previous DigiTala project (by Svenska folkskolans vänner in 2015-2017) from upper secondary school students learning Swedish (see http://urn.fi/urn:nbn:fi:lb-2017081502) and speech from Finnish and Swedish tests (see http://urn.fi/urn:nbn:fi:lb-2023012629).

Part of the speech material was transcribed during the project. Ratings were organized in four rounds where human raters evaluated a number of speech samples by using the rating criteria developed in the project.

The project is funded by the Academy of Finland 2019–2023, and combines expertise in speech and language processing, language education and phonetics at the University of Helsinki (grant number 322619), Aalto University (grant number 322625) and the University of Jyväskylä (grant number 322965). The current project builds on lessons learned during a pilot project, see DigiTala (2015–2017).

Authors of this resource:
Anna von Zansen, Yaroslav Getman, Milla Sneck, Heini Kallio, Ragheb Al-Ghezi, Ekaterina Voskoboinik, Maria Kautonen, Ari Huhta, Mikko Kuronen, Mikko Kurimo, Raili Hildén

The tasks, the surveys and the rating criteria are available via https://zenodo.org/communities/digitala/.

For information about the Moodle plugin that was developed by IT students during the project, see von Zansen, A., Alanen, T., Al-Ghezi, R., Erkkilä, J., Harjunpää, T., Heijala, M., Kallio, H. (2022). DigiTala Moodle plugin. https://github.com/aalto-speech/moodle-mod_digitala

More information:
Kautonen, M. & von Zansen, A. (2020). DigiTala research project: Automatic speech recognition in assessing L2 speaking. Kieli, koulutus ja yhteiskunta, 11(4). https://www.kieliverkosto.fi/fi/journals/kieli-koulutus-ja-yhteiskunta-kesakuu-2020/digitala-research-project-automatic-speech-recognition-in-assessing-l2-speakingFinnish Lukio spring 2021 (freeform + readaloud) 1055 recordings, mean duration 15.95 sec, total duration 4.67h, 69 unique speakers



View resource description in all available languages

Digitala-aineisto on tulossa Kielipankkiin.

Aineisto sisältää suomi toisena kielenä ja suomi toisena kotimaisena kielenä -oppimäärää opiskelleiden lukiolaisten puhenäytteitä, puhenäytteiden litteraatit sekä puhenäytteille annetut asiantuntija-arviot. Lisäksi kielivara sisältää puhujien ja arvioijien taustatiedot ja kyselyvastaukset. Aineisto on kerätty keväällä 2021 osana DigiTala-tutkimushanketta (Suomen Akatemia 2019–2023).

DigiTala-tutkimushankkeen ensisijainen tavoite oli kehittää automaattiseen puheentunnistukseen ja automaattiseen arviointiin perustuva digitaalinen sovellus, joka antaa automaattista palautetta kielen oppijan puheesta. Ensimmäiset kohdekielet olivat ruotsi ja suomi toisena/ toisena kotimaisena kielenä. Sovelluksia kehitettiin kahteen käyttötarkoitukseen. Ensinnäkin automatiikkaa hyödyntävät sovellukset mahdollistavat suullisen kielitaidon arvioimisen suurissa ja tärkeissä kielikokeissa, kuten ylioppilastutkinnon kielikokeissa. Toiseksi kielen oppijat voivat sovellusten avulla harjoitella vieraan kielen ääntämistä ja puheen tuottamista itsenäisesti koulun ulkopuolella tai opettajan ohjaamana kielten oppitunneilla.

Tutkimushankkeen aikana kerättiin suomen oppijoiden puhetta lukiolaisilta ja aikuisilta. Tässä kuvatun aineiston sekä syksyn 2021 aineiston (http://urn.fi/urn:nbn:fi:lb-2023012625) lisäksi hankkeessa käytettiin aiemman DigiTala-hankkeen (Svenska folkskolans vänner 2015-2017) lukiolaisilta keräämää ruotsin puheaineistoa (ks. http://urn.fi/urn:nbn:fi:lb-2017081502) sekä Yleisten kielitutkintojen suomen ja ruotsin kokeisiin osallistuneiden puhetta (ks. http://urn.fi/urn:nbn:fi:lb-2023012629).

Osa puheaineistosta litteroitiin. Projekti järjesti yhteensä neljä arviointikierrosta, jossa ihmisarvioijat arvioivat puhenäytteitä käyttäen hankkeen laatimia kriteerejä.

Kolmen yliopiston tutkijatiimeissä työskenteli niin kielten opetuksen, puheen- ja kielenkäsittelyn kuin fonetiikan asiantuntijoita Helsingin yliopistosta (apurahanumero 322619), Aalto-yliopistosta (apurahanumero 322625) ja Jyväskylän yliopistosta (apurahanumero 322965).

Aineiston tekijät:
Anna von Zansen, Yaroslav Getman, Milla Sneck, Heini Kallio, Ragheb Al-Ghezi, Ekaterina Voskoboinik, Maria Kautonen, Ari Huhta, Mikko Kuronen, Mikko Kurimo, Raili Hildén

Kyselylomakkeet, käytetyt tehtävät ja arviointikriteerit on julkaistu Zenodossa (https://zenodo.org/communities/digitala/).

Tietojenkäsittelytieteen opiskelijat kehittivät tilauksestamme Moodle-pluginin, joka on dokumentoituna Githubissa (https://github.com/aalto-speech/moodle-mod_digitala).

You don’t have the permission to edit this resource.