Finnish Dark Web Marketplace Corpus

View resource name in all available languages

Suomenkielisen pimeän verkon kauppapaikka-aineisto

findarc

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2022062221

The resource is available for restricted use via Kielipankki - the Language Bank of Finland. Instructions on applying for access are available on the resource group page (see Documentation).

This Finnish dataset consists of 3 104 515 messages posted on the Torilauta discussion board operating in the dark web in the years 2017-2020. The data were collected and submitted by the site administrator in order to be archived for research use. The data set was received by the ENNCODE project at the University of Tampere.

In addition to the message title and text, the posts contain the following metadata: time stamps of sending and deletion, sender's nickname, subject area, and the message and thread identifiers. The data was provided as a JSONLINES text file, each line of which corresponds to one message and its metadata in JSON format. Individual messages have been removed from the data for data protection reasons.

View resource description in all available languages

Tämä aineisto on saatavilla rajoitettuun käyttöön Kielipankin kautta. Ohjeet käyttöoikeuksien hakemiseen löytyvät aineistoryhmän sivulta (ks. Documentation).

Tämä suomenkielinen aineisto koostuu 3 104 515 viestistä, jotka on lähetetty pimeässä verkossa toimineelle Torilauta-keskustelupalstalle vuosina 2017–2020. Aineiston keräsi ja luovutti arkistoitavaksi tutkimuskäyttöä varten sivuston ylläpitäjä. Aineiston vastaanotti Tampereen yliopiston ENNCODE-hanke.

Viestit sisältävät otsikon ja tekstin lisäksi seuraavat metatiedot: lähetys- ja poistoaikaleima, lähettäjän nimimerkki, aihealue sekä viesti- ja ketjutunniste. Aineisto on toimitettu JSONLINES-tekstitiedostona, jonka jokainen rivi vastaa yhtä viestiä metatietoineen JSON-muodossa. Tietosuojasyistä aineistosta on poistettu henkilö- ja tunnistetietoja ja kokonaisia viestejä.

You don’t have the permission to edit this resource.