Citation Database of Fennistic Dialect Dissertations

View resource name in all available languages

Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta

fedidi

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2018092801

Access location:

The citation database will be published in the Download service in Kielipankki, the Language Bank of Finland korp.csc.fi/download.

The citation database consists of 41 bibliographies of dissertations on dialects in the field of Finnish language. The database contains the following information about each reference: author; publication year; title, publishing information such as publisher and edition information; dissertation identification number (pointing to the dissertations the reference is from). Also some metadata of the author has been manually added to the database: information about gender (male/female) and nationality (domestic/non-domestic). Compiling the data had numerous stages: scanning the bibliographies, text regocnition by ABBYY FineReader 12, modifying the textfiles to csv-files, modifying the csv-files to xls-files, merging the 41 xls-files into one file, and refining the data with OpenRefine and finally manually checking the data.

The database comprises 9783 entries (rows). It includes 2657 unique authors and 5520 unique titles.

View resource description in all available languages

Lähdetietokanta tullaan julkaisemaan Kielipankin latauspalvelussa korp.csc.fi/download.

Lähdetietokanta koostuu 41 suomen kielen alalla ilmestyneen murteita käsittelevän väitöskirjan lähdeluetteloista. Tietokanta sisältää jokaisesta lähdeluetteloviitteestä seuraavat tiedot: tekijä; julkaisuvuosi; nimike; julkaisutiedot kuten painos- ja kustantajatiedot; väitöskirjan tunnistenumero (joka kertoo, mistä väitöskirjasta lähderivi on). Lisäksi tietokantaan on manuaalisesti lisätty tiedot tekijän sukupuolesta (mies/nainen) että kansallisuudesta (kotimainen/ei-kotimainen). Aineiston koostaminen sisälsi seuraavat työvaiheet: lähdeluetteloiden skannaus, tekstintunnistus ABBYY FineReader 12 -ohjelmistolla, tekstitiedostojen muokkaaminen csv-tiedostoiksi, csv-tiedostojen muokkaaminen xls-tiedostoksi, 41 xls-tiedoston yhdistäminen yhdeksi tiedostoksi, datan yhdenmukaistaminen OpenRefine -ohjelmistolla sekä tarkistaminen manuaalisesti.

Tietokannassa on 9783 riviä. Se sisältää tiedot 2657 uniikista tekijästä ja 5520 uniikista nimikkeestä.

You don’t have the permission to edit this resource.