Finnish Wikipedia 2017, source

View resource name in all available languages

Suomenkielinen Wikipedia 2017, lähdemateriaali

wikipedia-fi-2017-src

Persistent Identifier of this resource:

http://urn.fi/urn:nbn:fi:lb-2019110803

The Finnish Wikipedia 2017 source material corpus will be available in the download service korp.csc.fi/download

The corpus contains all the Finnish articles from the online encyclopedia Wikipedia available in 1 January 2018. The text parts of the articles have been extracted from [Wikipedia Dumps](https://dumps.wikimedia.org/) with [WikiExtractor](https://github.com/attardi/wikiextractor).

The corpus has been tokenized and annotated with morpho-syntactic analysis produced with the [Turku Dependency Parser](http://turkunlp.github.io/Finnish-dep-parser/)

License: CC BY https://creativecommons.org/licenses/by/4.0/

View resource description in all available languages

Suomenkielinen Wikipedia 2017 lähdemateriaali julkaistaan Kielipankin latauspalvelussa korp.csc.fi/download

Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku Dependenssi jäsennintä (http://turkunlp.github.io/Finnish-dep-parser/).

Lisenssi: CC BY https://creativecommons.org/licenses/by/4.0/

You don’t have the permission to edit this resource.