š±š» Latvian
This is an overview of all the datasets used in the Latvian part of EuroEval. The datasets are grouped by their task - see the task overview for more information about what these constitute.
Sentiment Classification
Latvian Twitter Sentiment
This dataset was published in this paper and consists of sentiment-annotated Latvian tweets from the food and drinks domain, collected over an 8-year period.
The original dataset contains 5,059 / 743 samples for the training and test splits, respectively. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively. Our test split includes all 743 original test samples plus 1,305 additional samples drawn from the original training data to reach 2,048 total test samples. Both the validation split and final training split are sampled exclusively from the original training data.
Here are a few examples from the training split:
{
"text": "@ChiuljuPussala @nahimovs Tu Äd savus konservatÄ«vos draugus?",
"label": "neutral"
}
{
"text": "@komako66 @elitaveidemane NÄ. Nav. ViÅam ir Ätisks pienÄkums Äst sardeli iepriekÅ”ÄjÄ ieslodzÄ«juma vietnÄ, sauktÄ \"septÄ«tÄs Debesis\". Bez matraÄa. Ar plÄnu sedziÅu.",
"label": "neutral"
}
{
"text": "@selmuushh @GMeluskans Es kÄdu laiku gaļu Ädu ļoti reti, bet no Ŕī gada sÄkuma pÄrstÄju Äst pavisam. LabprÄt pamÄÄ£inÄtu sojÅ”liku.",
"label": "positive"
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 12
- Prefix prompt:
TÄlÄk ir dokumenti un to noskaÅojums, kas var bÅ«t 'pozitÄ«vs', 'neitrÄls' vai 'negatÄ«vs'.
- Base prompt template:
Dokuments: {text} NoskaÅojums: {label}
- Instruction-tuned prompt template:
Dokuments: {text} KlasificÄjiet noskaÅojumu dokumentÄ. Atbildiet ar 'pozitÄ«vs', 'neitrÄls' vai 'negatÄ«vs', un neko citu.
- Label mapping:
positive
ā”ļøpozitÄ«vs
neutral
ā”ļøneitrÄls
negative
ā”ļønegatÄ«vs
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset latvian-twitter-sentiment
Named Entity Recognition
FullStack-NER-lv
This dataset was published in this paper and is part of a multilayered syntactically and semantically annotated text corpus for Latvian. The corpus text sources include approximately 60% news, 20% fiction, 10% legal texts, 5% spoken language transcripts, and 5% miscellaneous content from a balanced 10-million-word corpus.
The original full dataset consists of 11,425 samples. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively.
Here are a few examples from the training split:
{
"tokens": array(["'", "TÄrvetes", "AL", "'", "reÄ£istrÄts", "2012.", "gadÄ", "KroÅaucÄ", ",", "pÄrÅemot", "Å”o", "biznesu", "no", "AS", "'", "Agrofirma", "TÄrvete", "'", "ar", "mÄrÄ·i", "modernizÄt", "ražoÅ”anu", ",", "ieguldot", "attÄ«stÄ«bÄ", "vairÄk", "nekÄ", "piecus", "miljonus", "eiro", "."], dtype=object),
"labels": ["B-ORG", "I-ORG", "I-ORG", "I-ORG", "O", "B-MISC", "I-MISC", "B-LOC", "O", "O", "O", "O", "O", "B-ORG", "I-ORG", "I-ORG", "I-ORG", "I-ORG", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-MISC", "I-MISC", "I-MISC", "O"],
}
{
"tokens": array(["Lieldienas", "aktrise", "Torija", "Spelinga", "pavadÄ«ja", "kopÄ", "ar", "Ä£imeni", "ĶīnieÅ”u", "restorÄnÄ", ",", "svÄtki", "tika", "izbojÄti", "mirklÄ«", ",", "kad", "viÅa", "darbinieku", "nevīžības", "dÄļ", "paslÄ«dÄja", "un", "iekrita", "grilÄ", "."], dtype=object),
"labels": ["B-MISC", "O", "B-PER", "I-PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
}
{
"tokens": array(["Mani", "pamodinÄjis", "PatrÄ«cijas", "zvans", "."], dtype=object),
"labels": ["O", "O", "B-PER", "O", "O"],
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 8
- Prefix prompt:
TÄlÄk ir teikumi un JSON vÄrdnÄ«cas ar nosauktajiem objektiem, kas parÄdÄs dotajÄ teikumÄ.
- Base prompt template:
Teikums: {text} Nosauktie objekti: {label}
- Instruction-tuned prompt template:
Teikums: {text} IdentificÄjiet nosauktos objektus teikumÄ. Jums jÄizvada Ŕī informÄcija kÄ JSON vÄrdnÄ«cu ar atslÄgÄm 'persona', 'vieta', 'organizÄcija' un 'dažÄdi'. VÄrtÄ«bÄm jÄbÅ«t Ŕī tipa nosaukto objektu sarakstiem, tieÅ”i tÄ, kÄ tie parÄdÄs teikumÄ.
- Label mapping:
B-PER
ā”ļøpersona
I-PER
ā”ļøpersona
B-LOC
ā”ļøvieta
I-LOC
ā”ļøvieta
B-ORG
ā”ļøorganizÄcija
I-ORG
ā”ļøorganizÄcija
B-MISC
ā”ļødažÄdi
I-MISC
ā”ļødažÄdi
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset fullstack-ner-lv
Unofficial: WikiANN-lv
This dataset was published in this paper and is part of a cross-lingual named entity recognition framework for 282 languages from Wikipedia. It uses silver-standard annotations transferred from English through cross-lingual links and performs both name tagging and linking to an english Knowledge Base.
The original full dataset consists of 10,000 / 10,000 / 10,000 samples for the training, validation and test splits, respectively. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively. All the new splits are subsets of the original splits.
Here are a few examples from the training split:
{
"tokens": array(["IezÄ«mÄ", "robežu", "starp", "Greiema", "Zemi", "ziemeļos", "un",
"PÄlmera", "Zemi", "AntarktÄ«das", "pussalas", "dienvidos", ",",
"kÄ", "arÄ«", "starp", "FaljÄra", "krastu", "ziemeļos", "un",
"Raimila", "krastu", "dienvidos", "."], dtype=object),
"labels": ["O", "O", "O", "B-LOC", "I-LOC", "O", "O", "B-LOC", "I-LOC", "B-LOC", "I-LOC", "O", "O", "O", "O", "O", "B-LOC", "I-LOC", "O", "O", "B-LOC", "I-LOC", "O", "O"]
}
{
"tokens": array(["'", "''", "x-", "''", "Detroitas", "``", "Pistons", "''"],
dtype=object),
"labels": ["O", "O", "O", "O", "B-ORG", "I-ORG", "I-ORG", "I-ORG"]
}
{
"tokens": array(["KÄrlis", "Gustavs", "JÄkabs", "Jakobi"], dtype=object),
"labels": ["B-PER", "I-PER", "I-PER", "I-PER"]
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 8
- Prefix prompt:
TÄlÄk ir teikumi un JSON vÄrdnÄ«cas ar nosauktajiem objektiem, kas parÄdÄs dotajÄ teikumÄ.
- Base prompt template:
Teikums: {text} Nosauktie objekti: {label}
- Instruction-tuned prompt template:
Teikums: {text} IdentificÄjiet nosauktos objektus teikumÄ. Jums jÄizvada Ŕī informÄcija kÄ JSON vÄrdnÄ«cu ar atslÄgÄm 'persona', 'vieta', 'organizÄcija' un 'dažÄdi'. VÄrtÄ«bÄm jÄbÅ«t Ŕī tipa nosaukto objektu sarakstiem, tieÅ”i tÄ, kÄ tie parÄdÄs teikumÄ.
- Label mapping:
B-PER
ā”ļøpersona
I-PER
ā”ļøpersona
B-LOC
ā”ļøvieta
I-LOC
ā”ļøvieta
B-ORG
ā”ļøorganizÄcija
I-ORG
ā”ļøorganizÄcija
B-MISC
ā”ļødažÄdi
I-MISC
ā”ļødažÄdi
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset wikiann-lv
Linguistic Acceptability
ScaLA-lv
This dataset was published in this paper and was automatically created from the Latvian Universal Dependencies treebank by assuming that the documents in the treebank are correct, and corrupting the samples to create grammatically incorrect samples. The corruptions were done by either removing a word from a sentence, or by swapping two neighbouring words in a sentence. To ensure that this does indeed break the grammaticality of the sentence, a set of rules were used on the part-of-speech tags of the words in the sentence.
The original full dataset consists of 1,024 / 256 / 2,048 samples for training, validation and testing, respectively (so 3,328 samples used in total). These splits are used as-is in the framework.
Here are a few examples from the training split:
{
"text": "GultÄ viÅam nav jÄdara pilnÄ«gi nekas, lai es nonÄktu lÄ«dz orgasmam.",
"label": "correct"
}
{
"text": "Ar savu puiku, kurÅ” parasts.",
"label": "incorrect"
}
{
"text": "1992. vÄl gadÄ LatvijÄ atradÄs no 50 000 lÄ«dz 80 000 padomju militÄrpersonu.",
"label": "incorrect"
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 12
- Prefix prompt:
Å ie ir teikumi un to gramatiskie pareizumi.
- Base prompt template:
Teikums: {text} Gramatiski pareizs: {label}
- Instruction-tuned prompt template:
Teikums: {text} Noteiciet, vai teikums ir gramatiski pareizs vai nÄ. Atbildiet ar 'jÄ', ja teikums ir pareizs, un 'nÄ', ja tas nav.
- Label mapping:
correct
ā”ļøjÄ
incorrect
ā”ļønÄ
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset scala-lv
Reading Comprehension
MultiWikiQA-lv
This dataset was published in this paper and contains Wikipedia articles with LLM-generated questions and answers in 300+ languages.
The original full dataset consists of 5,000 samples in a single split. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
Here are a few examples from the training split:
{
"context": "Zvjaheļa (, lÄ«dz 2022. gadam ā Novohrada-Volinska) ir pilsÄta Ukrainas ziemeļrietumos, Žitomiras apgabala rietumos, SluÄas upes krastÄ. TÄ ir Zvjaheļas rajona administratÄ«vais centrs. AttÄlums lÄ«dz apgabala centram Žitomirai ir .\n\nZvjaheļa ir ukraiÅu tautas dzejnieces Lesjas Ukrainkas dzimtÄ pilsÄta.\nÅ eit ir dzimis Ukrainas armijas virspavÄlnieks Ä£enerÄlis Valerijs Zalužnijs.\n\nVÄsture \nVÄstures avtos apdzÄ«votÄ vieta pirmoreiz minÄta 1256. gadÄ SluÄas labajÄ krastÄ kÄ Vozvjaheļa (ŠŠ¾Š·Š²ŃгелŃ) GalÄ«cijas-VolÄ«nijas hronikÄ. Gadu vÄlÄk to par nepaklausÄ«bu nodedzinÄja GalÄ«cijas karalis Danila. NÄkamo reizi apdzÄ«votÄ vieta minÄta 1432. gadÄ jau SluÄas kreisajÄ krastÄ kÄ Vzvjahoļas (ŠŠ·Š²ŃголŃ) miests, bet 1499. gadÄ\xa0ā Zvjahoļa (ŠŠ²ŃголŃ). 1507. gadÄ miests ieguva tiesÄ«bas bÅ«vÄt pili un veidot pilsÄtu. PÄc Ä»ubļinas Å«nijas 1569. gadÄ miests saukts par Zvjaheļu (ŠŠ²ŃгелŃ, ).\n\n1793. gadÄ Zvjaheļa nonÄca Krievijas ImpÄrijas sastÄvÄ. 1795. gadÄ miests ieguva Novohradas-Volinskas nosaukumu un pilsÄtas tiesÄ«bas, un kļuva par jaunizveidotÄs VolÄ«nijas guberÅas centru (lÄ«dz 1804. gadam).\n\n2022. gada 16. jÅ«nijÄ Novohradas-Volinskas domes deputÄti nobalsoja par pilsÄtas pÄrdÄvÄÅ”anu tÄs vÄsturiskajÄ nosaukumÄ ā Zvjaheļa. VÄlÄk Å”o lÄmumu apstiprinÄja Žitomiras apgabala dome. Ar Ukrainas AugstÄkÄs Radas dekrÄtu 2022. gada 16. novembrÄ« pilsÄta tika pÄrdÄvÄta par Zvjaheļu.\n\nAtsauces\n\nÄrÄjÄs saites",
"question": "KÄds Ukrainas bruÅoto spÄku komandieris nÄk no Zvjaheļas?",
"answers": {
"answer_start": array([349]),
"text": array(["Ä£enerÄlis Valerijs Zalužnijs"], dtype=object)
}
}
{
"context": "Bogota (), saukta arÄ« Santafe de Bogota (Santa Fe de BogotĆ”), ir pilsÄta Kolumbijas centrÄlajÄ daļÄ, 2640 metri virs jÅ«ras lÄ«meÅa. Kolumbijas galvaspilsÄta, galvenais valsts politiskais, ekonomiskais un kultÅ«ras centrs. Kaut arÄ« pilsÄta atrodas tropiskajÄ joslÄ, augstkalnu apstÄkļu dÄļ pilsÄtÄ nav karsts (vidÄjÄ gaisa temperatÅ«ra visu gadu - apmÄram +15 grÄdi).\n\nVÄsture \n\nPirms konkistadoru ieraÅ”anÄs Bogotas vietÄ bija ÄibÄu indiÄÅu galvenais centrs, kuru sauca par Bakatu (BacatĆ”).\n\nMÅ«sdienu pilsÄtu nodibinÄja konkistadors Gonsalo Himeness de Kvesada (Gonzalo JimĆ©nez de Quesada) 1538. gadÄ.\n\n1718. gadÄ Bogota kļuva par spÄÅu JaunÄs GranÄdas vicekaralistes (Virreinato de Nueva Granada) centru.\n\n1810. gadÄ iedzÄ«votÄji sacÄlÄs pret spÄÅu varu, tomÄr sacelÅ”anÄs tika apspiesta. 1819. gadÄ Bogotu ieÅÄma Simona BolivÄra karaspÄks.\n\n1819. gadÄ vicekaraliste ieguva neatkarÄ«bu no SpÄnijas un Bogota kļuva par Lielkolumbijas (Gran Colombia) galvaspilsÄtu. TomÄr 1830. gadÄ Lielkolumbija sabruka un izveidojÄs JaunÄ GranÄda (mÅ«sdienu Kolumbija), Ekvadora un VenecuÄla. 1903. gadÄ ar ASV atbalstu pret solÄ«jumiem atļaut bÅ«vÄt Panamas kanÄlu, neatkarÄ«bu no Kolumbijas ieguva Panama.\n\n1948. gadÄ BogotÄ tika nogalinÄts populÄrais kolumbieÅ”u poltiÄ·is Horhe Gaitans. PilsÄtÄ izcÄlÄs plaÅ”i nemieri un ielu kaujas. SÄkÄs politiskÄs nestabilitÄtes periods (La Violencia), kurÅ” turpinÄjÄs 10 gadus, gÄja bojÄ no 180 000 lÄ«dz 300 000 kolumbieÅ”u.\n\nCilvÄki \n\nBogotÄ dzimuÅ”i:\n\n Egans Bernals (Egan Bernal, 1997) ā riteÅbraucÄjs;\n IngrÄ«da BetankÅ«ra (Ćngrid Betancourt, 1961) ā politiÄ·e;\n Huans Pablo Montoija (Juan Pablo Montoya, 1975) ā Formula 1 pilots;\n Katalina Sandino Moreno (Catalina Sandino Moreno, 1981) ā aktrise;\n Kamilo Toress Restrepo (Camilo Torres Restrepo, 1929-1966) ā revolucionÄrs.\n\nÄrÄjÄs saites \n\nDienvidamerikas galvaspilsÄtas\nKolumbijas pilsÄtas",
"question": "Kad Bogata tika iecelta par JaunÄs GranÄdas vicekaralistes centru SpÄnijas pakļautÄ«bÄ?",
"answers": {
"answer_start": array([599]),
"text": array(["1718. gadÄ"], dtype=object)
}
}
{
"context": "Džastins Å ulcs (; dzimis ) ir kanÄdieÅ”u hokejists, aizsargs. PaÅ”laik (2020) Å ulcs spÄlÄ NacionÄlÄs hokeja lÄ«gas kluba VaÅ”ingtonas "Capitals" sastÄvÄ.\n\nSpÄlÄtÄja karjera \nPÄc vairÄkÄm NCAA ÄempionÄtÄ aizvadÄ«tÄm sezonÄm, profesionÄļa karjeru Å ulcs sÄka 2012.ā13. gada sezonÄ, tajÄ spÄles laiku dalot starp NHL klubu Edmontonas "Oilers" un AHL vienÄ«bu Oklahomsitijas "Barons". "Oilers" Å ulcs aizvadÄ«ja 48 spÄles, savukÄrt AHL kļuva par lÄ«gas rezultatÄ«vÄko aizsargu, tiekot atzÄ«ts arÄ« par lÄ«gas labÄko aizsargu. 2013.ā14. gada sezonu Å ulcs jau pilnÄ«bÄ aizvadÄ«ja "Oilers" sastÄvÄ.\n\nPÄc neveiksmÄ«ga 2015.ā16. gada sezonas ievada Å ulcs tika aizmainÄ«ts uz Pitsburgas "Penguins". TÄs sastÄvÄ 2016. un 2017. gadÄ viÅÅ” izcÄ«nÄ«ja Stenlija kausu. "Penguins" sastÄvÄ spÄlÄja lÄ«dz 2020. gadam, kad pievienojÄs VaÅ”ingtonas "Capitals".\n\nÄrÄjÄs saites \n\n1990. gadÄ dzimuÅ”ie\nKanÄdas hokejisti\nEdmontonas "Oilers" spÄlÄtÄji\nPitsburgas "Penguins" spÄlÄtÄji\nVaÅ”ingtonas "Capitals" spÄlÄtÄji\nStenlija kausa ieguvÄji\nBritu KolumbijÄ dzimuÅ”ie",
"question": "Kad Džastins Å ulcs uzsÄka savu profesionÄlo karjeru?",
"answers": {
"answer_start": array([251]),
"text": array(["2012.ā13. gada sezonÄ"], dtype=object)
}
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 4
- Prefix prompt:
TurpmÄk seko teksti ar atbilstoÅ”iem jautÄjumiem un atbildÄm.
- Base prompt template:
Teksts: {text} JautÄjums: {question} AtbildÄt ar maksimÄli 3 vÄrdiem:
- Instruction-tuned prompt template:
Teksts: {text} Atbildiet uz Å”o jautÄjumu par iepriekÅ” minÄto tekstu ar maksimÄli 3 vÄrdiem. JautÄjums: {question}
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset multi-wiki-qa-lv
Knowledge
MMLU-lv
This dataset is a machine translated version of the English MMLU dataset and features questions within 57 different topics, such as elementary mathematics, US history and law. The translation to Latvian was done by the Latvian Language Technology Initiative and is available in the VTI-Data repository.
The full Latvian MMLU dataset consists of 13,941 samples. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.
Here are a few examples from the training split:
{
"text": "Atrodiet skaitli, kas padara apgalvojumu patiesu: 48 m = lodziÅÅ” mm.\nIzvÄles:\na. 48,000\nb. 480\nc. 4,800\nd. 5",
"label": "a",
}
{
"text": "Darbinieks sagaida lielÄku konsekvenci sava priekÅ”nieka uzvedÄ«bÄ, nekÄ tas ir pamatoti. KurÅ” no Å”iem faktoriem vislabÄk izskaidro darbinieka gaidas?\nIzvÄles:\na. pÄrmÄrÄ«gas attaisnoÅ”anas hipotÄze\nb. paÅ”labuma aizspriedumainÄ«ba\nc. fundamentÄlais atribÅ«cijas aizspriedums\nd. paÅ”pÄrbaudes teorija",
"label": "c",
}
{
"text": "KurÄ no Å”iem diviem scenÄrijiem galvenais varonis (kurÅ” lieto es/jÄ/man) dara kaut ko, kas ir acÄ«mredzami morÄli nepareizs, saskaÅÄ ar parastajÄm morÄles normÄm ASV no 2020. gada? scenÄrijs | Es atslÄdzu automaŔīnas kruÄ«za kontroli. scenÄrijs | Es izsaucu policiju savam bijuÅ”ajam mīļotajam, jo viÅÅ” mani piekÄva.\nIzvÄles:\na. Nepareizi, nepareizi\nb. Nepareizi, nav nepareizi\nc. Nav nepareizi, nepareizi\nd. Nav nepareizi, nav nepareizi",
"label": "d",
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 5
- Prefix prompt:
TÄlÄk seko jautÄjumi ar vairÄkÄm atbilžu izvÄlÄm (ar atbildÄm).
- Base prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} c. {option_c} d. {option_d} Atbilde: {label}
- Instruction-tuned prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} c. {option_c} d. {option_d} Atbildiet uz iepriekÅ”Äjo jautÄjumu, atbildot ar 'a', 'b', 'c' vai 'd', un nekas cits.
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset mmlu-lv
Common-sense Reasoning
COPA-lv
This dataset was published in this paper and is a translated version of the English COPA dataset, which was created from scratch by the authors. The dataset was machine translated using the Tilde Translation service, and the test samples were manually post-edited.
The original full dataset consists of 214 / 57 / 132 samples, and we keep the splits as-is.
Here are a few examples from the training split (which have not been post-edited):
{
"text": "ÄŖrnieki tika izlikti no dzÄ«vokļa.\nIzvÄles:\na. ViÅi savu Ä«ri nemaksÄja.\nb. ViÅi sapratÄs ar savu saimnieku.",
"label": "a"
}
{
"text": "SveÅ”inieks man sveÅ”valodÄ kliedza.\nIzvÄles:\na. ES truli blenzu uz viÅu.\nb. ES apstÄjos, lai papļÄpÄtu ar viÅu.",
"label": "a"
}
{
"text": "Pagriezu gaismas slÄdzi uz augÅ”u un uz leju.\nIzvÄles:\na. Gaisma izdzisa.\nb. Gaisma mirgoja.",
"label": "b"
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 5
- Prefix prompt:
TÄlÄk seko jautÄjumi ar vairÄkÄm atbilžu izvÄlÄm (ar atbildÄm).
- Base prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} Atbilde: {label}
- Instruction-tuned prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} Atbildiet uz iepriekÅ”Äjo jautÄjumu, atbildot ar 'a' vai 'b', un nekas cits.
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset copa-lv
Unofficial: Winogrande-lv
This dataset was published in this paper and is a translated and filtered version of the English Winogrande dataset.
The original full dataset consists of 47 / 1,210 samples for training and testing, and we use the same splits.
Here are a few examples from the training split:
{
"text": "PÄrkot mÄju, PatrÄ«cijai nav tik daudz naudas, ko tÄrÄt kÄ Tanjai, tÄpÄc _ nopÄrk vienas guļamistabas mÄju. Ko norÄda tukÅ”ums _?\nIzvÄles:\na. Opcija A: PatrÄ«cija\nb. Opcija B: Tanja",
"label": "a"
}
{
"text": "Es nevarÄju kontrolÄt mitrumu, kÄ es kontrolÄju lietu, jo _ nÄca no visÄm pusÄm. Ko norÄda tukÅ”ums _?\nIzvÄles:\na. Opcija A: mitrums\nb. Opcija B: lietus",
"label": "a"
}
{
"text": "Derriks nespÄja koncentrÄties darbÄ, atŔķirÄ«bÄ no Džastina, jo _ bija jautrs darbs. Ko norÄda tukÅ”ums _?\nIzvÄles:\na. Opcija A: Derriks\nb. Opcija B: Džastins",
"label": "b"
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 5
- Prefix prompt:
TÄlÄk seko jautÄjumi ar vairÄkÄm atbilžu izvÄlÄm (ar atbildÄm).
- Base prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} Atbilde: {label}
- Instruction-tuned prompt template:
JautÄjums: {text} IzvÄles: a. {option_a} b. {option_b} Atbildiet uz iepriekÅ”Äjo jautÄjumu, atbildot ar 'a' vai 'b', un nekas cits.
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset winogrande-lv
Summarisation
LSM
This dataset contains news articles and their corresponding summaries from the Latvian public media news portal LSM.lv.
Samples were collected using the lsm_scraper. We use 1,024 / 256 / 2,048 samples for training, validation and testing, respectively.
Here are a few examples from the training split:
{
"text": "FOTO: Raimonda Paula un ElÄ«nas GaranÄas satikÅ”anÄs koncertÄ Ā«Ja tevis nebÅ«tu...Ā»\n\nIdeja svinÄt apaļo jubileju uz vienas skatuves ar izcilo operdziedÄtÄju ElÄ«nu GaranÄu Maestro radusies, kopÄ uzstÄjoties jau pirms pieciem gadiem. Maestro neslÄpj gandarÄ«jumu, ka pandÄmijas dÄļ pÄrceltais koncerts beidzot notiks. Raimonds Pauls koncertprogrammÄ āJa tevis nebÅ«tu...ā dziedÄtÄjai veltÄ«jis divus jaunus dziesmu ciklus ar kopÄ«gi atlasÄ«tu Vizmas BelÅ”evicas un OjÄra VÄcieÅ”a dzeju. SavukÄrt koncerta otrajÄ daÄ¼Ä iekļautas Paula dziesmas no kinofilmÄm un teÄtra izrÄdÄm. KamerorÄ·estra āSimfonietta RÄ«gaā pavadÄ«jumÄ populÄras melodijas atŔķirÄ«gÄs noskaÅÄs izskanÄs jaunos aranžÄjumos, ko veidojuÅ”i tÄdi izcili komponisti kÄ Lolita Ritmane, Rihards Dubra, JÄkabs JanÄevskis un Raimonds Macats. āMan Ŕī otrÄ daļa ar kino un teÄtra mÅ«ziku ir tÄds sapnis, kas ir piepildÄ«jies. Jo Å”is žanrs mani vienmÄr ir ļoti interesÄjis. VarÄtu teikt, ka es operas žanrÄ esmu nokļuvusi faktiski nejauÅ”i, jo sirds aicinÄjums no paÅ”a sÄkuma bija tieÅ”i teÄtris,ā atklÄj ElÄ«na GaranÄa. OjÄrs Rubenis atzÄ«st: āEs varu tikai apbrÄ«not gan Maestro 85 gados ā izturÄ«bu un to darbu, ko viÅÅ” var izdarÄ«t. Un, protams, arÄ« ElÄ«nu GaranÄu, kura vienkÄrÅ”i ir apbrÄ«nojama savÄ neambiciozitÄtÄ pret visu pÄrÄjo un ambiciozitÄtÄ pret mÄkslu. Tas ir tas lielmÄkslinieku kods!ā Maestro un ElÄ«nas GaranÄas atkalsatikÅ”anÄs NacionÄlajÄ teÄtrÄ« bÅ«s skatÄma piektdien un sestdien, savukÄrt Latvijas TelevÄ«zijÄ Å”o koncertu varÄs vÄrot Ŕī gada rudenÄ«.",
"target_text": "ViÅiem bija iecerÄts tikties jau Ŕī gada sÄkumÄ, bet pandÄmijas dÄļ Raimonda Paula 85. jubilejai veltÄ«tais koncerts ar pasaulslavenÄs operdziedÄtÄjas ElÄ«nas GaranÄas piedalīŔanos tika pÄrcelts. Å ajÄ nedÄļas nogalÄ NacionÄlo teÄtri beidzot pieskandinÄs abu izcilo mÅ«zikas personÄ«bu atkalsatikÅ”anÄs ar skatÄ«tÄjiem koncertÄ āJa tevis nebÅ«tu...ā."
}
{
"text": "UkrainÄ tÅ«kstoÅ”iem cilvÄku protestÄ pret korupcijas apkarotÄju vÄjinÄÅ”anu; Zelenskis sola jaunu likumu\n\nCilvÄki pauž neapmierinÄtÄ«bu par\xa0korupcijas apkarotÄju vÄjinÄÅ”anu TreÅ”dienas vakarÄ KijivÄ\xa0bija pilns\xa0Ivana Franka laukums, kas ir tuvÄkÄ vieta pie prezidenta Volodimira Zelenska darba vietas, kur var brÄ«vi piekļūt cilvÄki. PÄrsvarÄ gados jauni cilvÄki bija sanÄkuÅ”i, lai paustu protestu, nožÄlu un neapmierinÄtÄ«bu ar AugstÄkÄs Radas pieÅemto likumprojektu, kas paredz atcelt Ukrainas Korupcijas apkaroÅ”anas biroja un specializÄtÄs pretkorupcijas prokuratÅ«ras neatkarÄ«bu, iestÄžu pÄrraudzÄ«bu nododot Ä£enerÄlprokuroram, kas ir politiski izraudzÄ«ts. CilvÄki skandÄja visdažÄdÄkos saukļus ā arÄ« \"Rokas nost no NABU!\", \"NeklusÄ!\", \"Kauns!\", \"Slava Ukrainai!\", \"VaroÅiem slava!\" un daudzus citus. TÄ kÄ pamatÄ tie bija jaunieÅ”i, viÅi bija ļoti skaļi un aktÄ«vi. RokÄs daudziem bija paÅ”darinÄti plakÄti. PiemÄram, \"AugstÄkÄ nodevÄ«ba\" ā spÄlÄjoties ar AugstÄkÄs Radas jeb parlamenta nosaukumu. KÄds jaunietis arÄ« bija izveidojis plakÄtu, kur puse sejas bija no prezidenta Zelenska, otra puse ā no bÄdÄ«gi slavenÄ prokrieviskÄ eksprezidenta Viktora JanukoviÄa, kurÅ” 2014.\xa0gadÄ pÄc Eiromaidana jeb PaÅ”cieÅas revolÅ«cijas asiÅainajiem notikumiem aizbÄga no Ukrainas un Å”obrÄ«d slÄpjas KrievijÄ. AktÄ«visti Ukrainas protestÄ pret korupcijas apkarotÄju vÄjinÄÅ”anu 00:00 / 01:09 LejuplÄdÄt Indra Sprance Latvijas Radio parunÄjÄs ar dažiem no aktÄ«vistiem. Marina: Esmu Å”eit, jo esmu ļoti saÅ”utusi par paÅ”reizÄjo situÄciju ar likumprojektu. Ir pieÅemts likums, kas pilnÄ«bÄ neatbilst Eiropas SavienÄ«bas un tautas prasÄ«bÄm. MÄs atgriežamies pie tÄ stÄvokļa, kÄds bija 2013. gadÄ, kad mÅ«su tauta cÄ«nÄ«jÄs par savu ceļu uz Eiropas SavienÄ«bu. Mans brÄlis paÅ”laik karo Pokrovskas tuvumÄ. Visa Ŕī situÄcija man Ŕķiet kÄ spļÄviens sejÄ visiem tiem karavÄ«riem, kas mÅ«s sargÄ, riskÄjot ar dzÄ«vÄ«bÄm,\xa0ā vara viÅiem demonstrÄ, ka esam tuvÄk nevis Eiropas SavienÄ«bai un mÅ«su Rietumu partneriem, bet Krievijai. Ihors: Man gandrÄ«z visi vÄ«rieÅ”u kÄrtas radinieki Å”obrÄ«d karo, un man nav tiesÄ«bu Å”obrÄ«d stÄvÄt malÄ. Aleksa: UkrainÄ Å”obrÄ«d notiek ļoti briesmÄ«gas lietas ā kamÄr daži cilvÄki atdod savas dzÄ«vÄ«bas, lai mÄs varÄtu Å”eit normÄli dzÄ«vot, kÄds sagrauj valsti. Un tas nav labi. Mums Å”eit ir jÄbÅ«t.\xa0 Tas ir svarÄ«gi. TreÅ”dienas vakarÄ protesta akcija notika arÄ« Ukrainas otrÄ lielÄkajÄ pilsÄtÄ HarkivÄ, tur pÄc \"Radio BrÄ«vÄ«ba\" aplÄsÄm bijis lÄ«dz pustÅ«kstotim cilvÄku. Protesti notikuÅ”i arÄ« ÄernihivÄ, ZaporižjÄ, Ä»vivÄ, DÅipro, KrivijrihÄ, IvanofrankivskÄ, TernopiļÄ, OdesÄ un citur. Å Ä« ir jau otrÄ diena, kad cilvÄki iziet ielÄs. IepriekÅ” tie bija spontÄni protesti, reaÄ£Äjot uz AugstÄkÄs Radas lÄmumu, bet treÅ”dien jau daudzviet cilvÄkus ielÄs aicinÄjuÅ”as dažÄdas sabiedriskÄs organizÄcijas. Zelenskis sola jaunu likumu Prezidents Volodimirs Zelenskis treÅ”dien bija noorganizÄjis tikÅ”anos ar visu Ukrainas tiesÄ«bu aizsardzÄ«bas iestÄžu vadÄ«tÄjiem, tajÄ skaitÄ abu pretkorupcijas iestÄžu ā NABU un specializÄtÄs prokuratÅ«ras vadÄ«tÄjiem. Saruna bijusi atklÄta un vÄrtÄ«ga. NÄkamnedÄļ notikÅ”ot dziļÄka darba tikÅ”anÄs saistÄ«bÄ ar kopÄ«gajiem darbiem. PÄcÄk videouzrunÄ Zelenskis sacÄ«ja, ka ir sadzirdÄjis cilvÄku bažas. Zelenskis piedÄvÄs AugstÄkajai Radai savu ā prezidenta likumprojektu, kas nodroÅ”inÄs tiesÄ«bu aizsardzÄ«bas sistÄmas spÄku un to, ka nebÅ«s nekÄda Krievijas iejaukÅ”anÄs iestÄžu darbÄ. Jau vÄlÄk Zelenskis likumprojektu iesniedzis. VÄl gan nav skaidrs, kas tieÅ”i Å”ajÄ likumprojektÄ ir un kad tieÅ”i par to balsos parlaments. KÄ likumprojektu komentÄjis Zelenskis, tas paredz pilnÄ«gas korupcijas apkaroÅ”anas iestÄžu neatkarÄ«bas garantijas. Tas arÄ« paredzot reÄlas iespÄjas pÄrliecinÄties, ka iestÄžu darbÄ«bÄ neiejaucas Krievija. Ikvienam, kam ir pieeja valsts noslÄpumiem - ne tikai NacionÄlajam pretkorupcijas birojam un SpecializÄtajai pretkorupcijas prokuratÅ«rai, bet arÄ« Valsts izmeklÄÅ”anas birojam un Valsts policijai - ir jÄveic melu detektora pÄrbaudes un tÄm jÄbÅ«t regulÄrÄm, likumprojekta saturu komentÄja Zelenskis. LikumprojektÄ ir iekļauti arÄ« noteikumi, kas aizsargÄ pret dažÄdiem pÄrkÄpumiem, piebilda prezidents. PÄc jaunÄ likumprojekta pÄrskatīŔanas NacionÄlais pretkorupcijas birojs paziÅojumÄ norÄdÄ«ja, ka ierosinÄtais likumprojekts patiesi atjaunos visas procesuÄlÄs pilnvaras un neatkarÄ«bas garantijas gan birojÄ, gan SpecializÄtajÄ pretkorupcijas prokuratÅ«rÄ. ArÄ« Ukrainas Korupcijas apkaroÅ”anas rÄ«cÄ«bas centrs, kas ir uzraudzÄ«bas iestÄde, atbalstÄ«ja iniciatÄ«vu, sakot, ka tÄ atjaunos principus, ko iepriekÅ” bija nojaukusi AugstÄkÄ Rada. Centrs gan brÄ«dinÄja, ka pat vienas nedÄļas kavÄÅ”anÄs var bÅ«t pietiekama, lai iznÄ«cinÄtu virkni abÄs pretkorupcijas iestÄdÄs esoÅ”Äs tiesvedÄ«bas pret augstÄkajÄm korumpÄtajÄm amatpersonÄm. KONTEKSTS: Ukrainas parlaments 22. jÅ«lijÄ apstiprinÄja likuma grozÄ«jumus, kas mazina Ukrainas korupcijas apkaroÅ”anas iestÄžu neatkarÄ«bu. Ukrainas NacionÄlais pretkorupcijas birojs (NABU) un specializÄtÄ prokuratÅ«ra turpmÄk bÅ«s pakļauti Ukrainas Ä£enerÄlprokuroram, kas ir Ukrainas prezidenta Volodimira Zelenska izvirzÄ«ta amatpersona. Tas izraisÄ«jis bažas par korupcijas apkaroÅ”anas dienestu pakļauÅ”anu Zelenska komandas interesÄm. Ukrainas DroŔības dienests iepriekÅ” veicis plaÅ”a mÄroga kratīŔanas pie NABU un specializÄtÄs prokuratÅ«ras darbiniekiem. Å ie soļi izraisÄ«juÅ”i protestus Ukrainas iekÅ”ienÄ, kÄ arÄ« kritiku no Ukrainas partneriem, kas raizÄjas par demokrÄtijas standartu vÄjinÄÅ”anu un nepietiekamo aktivitÄti korupcijas apkaroÅ”anÄ. Tas varÄtu apgrÅ«tinÄt Ukrainas izredzes kļūt par Eiropas SavienÄ«bas dalÄ«bvalsti.",
"target_text": "UkrainÄ treÅ”dienas vakarÄ, reaÄ£Äjot uz Å”onedÄļ lielÄ steigÄ pieÅemto likumu, kas atceļ pretkorupcijas iestÄžu neatkarÄ«bu, tÅ«kstoÅ”iem cilvÄku izgÄja ielÄs. Latvijas Radio bija klÄt KijivÄ, kur pulcÄjÄs liels skaits cilvÄku."
}
{
"text": "NorvÄÄ£ijas dziesma EirovÄ«zijÄ ā folkmÅ«zikas, elektronikas un viduslaiku estÄtikas sintÄze\n\nAlessandro ir spÄÅu izcelsmes, viÅÅ” runÄ ÄetrÄs valodÄs, iedvesmojas no dažÄdu pasaules tautu mÅ«zikas, kÄ arÄ« ir labs dejotÄjs. Alessandro dziesma \"Lighter\" ieturÄta popmÅ«zikas stilistikÄ, kurÄ ievÄ«ti daudz dažÄdi elementi. Te var sadzirdÄt gan norvÄÄ£u folkmÅ«zikas, gan elektroniskÄs deju mÅ«zikas notis, gan BalkÄnu popmÅ«zikai raksturÄ«gos ritmus un pat viduslaiku estÄtiku. Dziesma aicina noticÄt sev un bÅ«t paÅ”am savai dzirkstij. Dziesmas \"Lighter \" vÄrdi Golden girl dressed in ice A heart as dark as night You got me to dim my light No more, (no more) I really think I bought your lies Did anything to keep you mine You kept me hooked on your line No more, (no more) Somewhere along the way I lost my mind I had to walk a hundred thousand miles Iām not afraid to set it all on fire I wonāt fall again, Iāll be my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) Iāll be my own lighter I feel a spark inside me I donāt need saving (No way, no way) āCause Iām my own, Iām my own lighter Iām tired of a million tries To fight, the signs And when everybody tried to tell me I shouldāve known that it was time to break free Your reigns that kept me at your mercy Iāll burn them to the ground No more, no more Ignite the fire Somewhere along the way I lost my mind I had to walk a hundred thousand miles Iām not afraid to set it all on fire I wonāt fall again, Iāll be my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) Iāll be my own lighter I feel a spark inside me I donāt need saving (No way, no way) āCause Iām my own, Iām my own lighter Silence fills the room And Iāve taken off my jewels I wish none of this was true But thereās a fire growing too Yeah! (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) Iāll be my own lighter I feel a spark inside me I donāt need saving (No way, no way) āCause Iām my own, Iām my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me down (Eh-Eh-Eh-Eh) Iām my own, Iām my own lighter EirovÄ«zija\xa02025 ā dalÄ«bnieki VairÄk KONTEKSTS: 2025. gada EirovÄ«zijas dziesmu konkurss notiks Å veicÄ, BÄzelÄ, un savu dalÄ«bu tajÄ apstiprinÄjuÅ”as 37 valstis. 31 no visÄm dalÄ«bvalstÄ«m sacentÄ«sies pusfinÄlos\xa013. maijÄ un 15. maijÄ. Desmit\xa0labÄkie no katra pusfinÄla kvalificÄsies lielajam finÄlam 17. maijÄ, pievienojoties pÄrnÄ gada uzvarÄtÄjai Å veicei un \"lielajam piecniekam\" ā SpÄnijai, Apvienotajai\xa0Karalistei, VÄcijai, ItÄlijai un Francijai. EirovÄ«zijas konkursa pusfinÄli un finÄli Å”ogad sÄksies pulksten 22.00 pÄc Latvijas laika. TieÅ”raides bÅ«s skatÄmas Latvijas SabiedriskÄ medija portÄlÄ LSM.lv un satura atskaÅotÄjÄ REplay.lv, kÄ arÄ« LTV1. Å Ä« gada Latvijas nacionÄlajÄ atlasÄ \"Supernova\" uzvarÄja un uz EirovÄ«ziju dosies grupa \"Tautumeitas\" . \"Tautumeitas\" kÄps uz skatuves EirovÄ«zijas konkursa otrajÄ pusfinÄlÄ. TajÄ kopÄ ar Latviju piedalÄ«sies arÄ« ArmÄnija, AustrÄlija, Austrija, GrieÄ·ija, ÄŖrija, Lietuva, Melnkalne, Äehija, DÄnija, Somija, Gruzija, IzraÄla, Luksemburga, Malta un Serbija.",
"target_text": "NorvÄÄ£iju EirovÄ«zijas dziesmu konkursÄ pÄrstÄv jaunais dziedÄtÄjs Kails Alessandro ( Kyle Alessandro ). PlaÅ”Äka auditorija dziedÄtÄju iepazina jau 10 gadu vecumÄ, kad viÅÅ” veiksmÄ«gi piedalÄ«jÄs\xa0TV Å”ovÄ \"Norwayās Got Talent\"."
}
When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):
- Number of few-shot examples: 1
- Prefix prompt:
TÄlÄk ir dokumenti ar pievienotÄm kopsavilkumiem.
- Base prompt template:
Dokuments: {text} Kopsavilkums: {target_text}
- Instruction-tuned prompt template:
Dokuments: {text} Uzrakstiet kopsavilkumu par iepriekÅ” minÄto dokumentu.
You can evaluate this dataset directly as follows:
$ euroeval --model <model-id> --dataset lsm