Text reuse clusters in the Swedish-language press 1645-1918

View resource name in all available languages

Tekstin uudelleenkäyttöklusterit ruotsinkielisessä lehdistössä 1645-1918

textreuse-sv-src

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2023092721

This resource will be made available in the Language Bank of Finland.

The resource is based on a study of overlaps and repetitions of texts in the Swedish-language newspaper and magazine material that has been digitised by the national libraries of Finland and Sweden. The idea was to locate all texts or text fragments longer than 300 characters that had been repeated or copied at least once. More than 101 million of these similarities or overlaps were found. When the same texts were clustered together, there were almost 22 million clusters. The study covered the years 1645-1918, starting with the first newspaper printed in Sweden. In total, 7.5 million pages of digitised newspaper material were included in the study. In addition to the aforementioned newspapers printed in Finland and Sweden, the database includes Swedish-language immigrant newspapers published in North America.

The resource was produced by the project "Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare", funded by Society of Swedish Literature in Finland (Svenska Litteratursällskapet i Finland). The digitised material was compiled in November 2022.

View resource description in all available languages

Tämä aineisto on tulossa saataville Kielipankkiin.

Aineisto perustuu tutkimukseen, jossa etsittiin Suomen ja Ruotsin kansalliskirjastojen digitoimista ruotsinkielisistä sanoma- ja aikakauslehtiaineistoista päällekkäisyyksiä, tekstien toistoja. Ajatuksena oli paikantaa kaikki vähintään kerran toistetut tai kopioidut, yli 300 merkkiä pitkät tekstit tai tekstifragmentit. Näitä samuuksia tai päällekkäisyyksiä löytyi yli 101 miljoonaa. Kun samat tekstit yhdistettiin klustereiksi, klustereita muodostui lähes 22 miljoonaa. Tutkimus kattoi vuodet 1645-1918. Aikarajauksen alkuna oli ensimmäinen Ruotsissa painettu sanomalehti. Yhteensä digitoitua sanomalehtiaineistoa oli käytössä 7,5 miljoonaa sivua. Suomessa ja Ruotsissa painetun lehdistön lisäksi aineisto sisälsi Pohjois-Amerikassa julkaistuja ruotsinkielisiä siirtolaislehtiä.

Aineiston on tuottanut Svenska Litteratursällskapet i Finlandin rahoittama hanke "Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare". Digitoitu aineisto koottiin marraskuussa 2022.

You don’t have the permission to edit this resource.