Skip to content

šŸ‡±šŸ‡» Latvian

This is an overview of all the datasets used in the Latvian part of EuroEval. The datasets are grouped by their task - see the task overview for more information about what these constitute.

Sentiment Classification

Latvian Twitter Sentiment

This dataset was published in this paper and consists of sentiment-annotated Latvian tweets from the food and drinks domain, collected over an 8-year period.

The original dataset contains 5,059 / 743 samples for the training and test splits, respectively. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively. Our test split includes all 743 original test samples plus 1,305 additional samples drawn from the original training data to reach 2,048 total test samples. Both the validation split and final training split are sampled exclusively from the original training data.

Here are a few examples from the training split:

{
  "text": "@ChiuljuPussala @nahimovs Tu ēd savus konservatīvos draugus?",
  "label": "neutral"
}
{
  "text": "@komako66 @elitaveidemane Nē. Nav. Viņam ir ētisks pienākums ēst sardeli iepriekŔējā ieslodzÄ«juma vietnē, sauktā \"septÄ«tās Debesis\". Bez matrača. Ar plānu sedziņu.",
  "label": "neutral"
}
{
  "text": "@selmuushh @GMeluskans Es kādu laiku gaļu ēdu ļoti reti, bet no Ŕī gada sākuma pārstāju ēst pavisam. Labprāt pamēģinātu sojÅ”liku.",
  "label": "positive"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 12
  • Prefix prompt:
    Tālāk ir dokumenti un to noskaņojums, kas var būt 'pozitīvs', 'neitrāls' vai 'negatīvs'.
    
  • Base prompt template:
    Dokuments: {text}
    Noskaņojums: {label}
    
  • Instruction-tuned prompt template:
    Dokuments: {text}
    
    Klasificējiet noskaņojumu dokumentā. Atbildiet ar 'pozitīvs', 'neitrāls' vai 'negatīvs', un neko citu.
    
  • Label mapping:
    • positive āž”ļø pozitÄ«vs
    • neutral āž”ļø neitrāls
    • negative āž”ļø negatÄ«vs

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset latvian-twitter-sentiment

Named Entity Recognition

FullStack-NER-lv

This dataset was published in this paper and is part of a multilayered syntactically and semantically annotated text corpus for Latvian. The corpus text sources include approximately 60% news, 20% fiction, 10% legal texts, 5% spoken language transcripts, and 5% miscellaneous content from a balanced 10-million-word corpus.

The original full dataset consists of 11,425 samples. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively.

Here are a few examples from the training split:

{
    "tokens": array(["'", "Tērvetes", "AL", "'", "reÄ£istrēts", "2012.", "gadā", "Kroņaucē", ",", "pārņemot", "Å”o", "biznesu", "no", "AS", "'", "Agrofirma", "Tērvete", "'", "ar", "mērÄ·i", "modernizēt", "ražoÅ”anu", ",", "ieguldot", "attÄ«stÄ«bā", "vairāk", "nekā", "piecus", "miljonus", "eiro", "."], dtype=object),
    "labels": ["B-ORG", "I-ORG", "I-ORG", "I-ORG", "O", "B-MISC", "I-MISC", "B-LOC", "O", "O", "O", "O", "O", "B-ORG", "I-ORG", "I-ORG", "I-ORG", "I-ORG", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-MISC", "I-MISC", "I-MISC", "O"],
}
{
    "tokens": array(["Lieldienas", "aktrise", "Torija", "Spelinga", "pavadÄ«ja", "kopā", "ar", "Ä£imeni", "ĶīnieÅ”u", "restorānā", ",", "svētki", "tika", "izbojāti", "mirklÄ«", ",", "kad", "viņa", "darbinieku", "nevīžības", "dēļ", "paslÄ«dēja", "un", "iekrita", "grilā", "."], dtype=object),
    "labels": ["B-MISC", "O", "B-PER", "I-PER", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"],
}
{
    "tokens": array(["Mani", "pamodinājis", "Patrīcijas", "zvans", "."], dtype=object),
    "labels": ["O", "O", "B-PER", "O", "O"],
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 8
  • Prefix prompt:
    Tālāk ir teikumi un JSON vārdnīcas ar nosauktajiem objektiem, kas parādās dotajā teikumā.
    
  • Base prompt template:
    Teikums: {text}
    Nosauktie objekti: {label}
    
  • Instruction-tuned prompt template:
    Teikums: {text}
    
    Identificējiet nosauktos objektus teikumā. Jums jāizvada Ŕī informācija kā JSON vārdnÄ«cu ar atslēgām 'persona', 'vieta', 'organizācija' un 'dažādi'. VērtÄ«bām jābÅ«t Ŕī tipa nosaukto objektu sarakstiem, tieÅ”i tā, kā tie parādās teikumā.
    
  • Label mapping:
    • B-PER āž”ļø persona
    • I-PER āž”ļø persona
    • B-LOC āž”ļø vieta
    • I-LOC āž”ļø vieta
    • B-ORG āž”ļø organizācija
    • I-ORG āž”ļø organizācija
    • B-MISC āž”ļø dažādi
    • I-MISC āž”ļø dažādi

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset fullstack-ner-lv

Unofficial: WikiANN-lv

This dataset was published in this paper and is part of a cross-lingual named entity recognition framework for 282 languages from Wikipedia. It uses silver-standard annotations transferred from English through cross-lingual links and performs both name tagging and linking to an english Knowledge Base.

The original full dataset consists of 10,000 / 10,000 / 10,000 samples for the training, validation and test splits, respectively. We use 1,024 / 256 / 2,048 samples for our training, validation and test splits, respectively. All the new splits are subsets of the original splits.

Here are a few examples from the training split:

{
    "tokens": array(["Iezīmē", "robežu", "starp", "Greiema", "Zemi", "ziemeļos", "un",
       "Pālmera", "Zemi", "Antarktīdas", "pussalas", "dienvidos", ",",
       "kā", "arī", "starp", "Faljēra", "krastu", "ziemeļos", "un",
       "Raimila", "krastu", "dienvidos", "."], dtype=object),
       "labels": ["O", "O", "O", "B-LOC", "I-LOC", "O", "O", "B-LOC", "I-LOC", "B-LOC", "I-LOC", "O", "O", "O", "O", "O", "B-LOC", "I-LOC", "O", "O", "B-LOC", "I-LOC", "O", "O"]
}
{
    "tokens": array(["'", "''", "x-", "''", "Detroitas", "``", "Pistons", "''"],
      dtype=object),
      "labels": ["O", "O", "O", "O", "B-ORG", "I-ORG", "I-ORG", "I-ORG"]
}
{
    "tokens": array(["Kārlis", "Gustavs", "Jēkabs", "Jakobi"], dtype=object),
    "labels": ["B-PER", "I-PER", "I-PER", "I-PER"]
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 8
  • Prefix prompt:
    Tālāk ir teikumi un JSON vārdnīcas ar nosauktajiem objektiem, kas parādās dotajā teikumā.
    
  • Base prompt template:
    Teikums: {text}
    Nosauktie objekti: {label}
    
  • Instruction-tuned prompt template:
    Teikums: {text}
    
    Identificējiet nosauktos objektus teikumā. Jums jāizvada Ŕī informācija kā JSON vārdnÄ«cu ar atslēgām 'persona', 'vieta', 'organizācija' un 'dažādi'. VērtÄ«bām jābÅ«t Ŕī tipa nosaukto objektu sarakstiem, tieÅ”i tā, kā tie parādās teikumā.
    
  • Label mapping:
    • B-PER āž”ļø persona
    • I-PER āž”ļø persona
    • B-LOC āž”ļø vieta
    • I-LOC āž”ļø vieta
    • B-ORG āž”ļø organizācija
    • I-ORG āž”ļø organizācija
    • B-MISC āž”ļø dažādi
    • I-MISC āž”ļø dažādi

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset wikiann-lv

Linguistic Acceptability

ScaLA-lv

This dataset was published in this paper and was automatically created from the Latvian Universal Dependencies treebank by assuming that the documents in the treebank are correct, and corrupting the samples to create grammatically incorrect samples. The corruptions were done by either removing a word from a sentence, or by swapping two neighbouring words in a sentence. To ensure that this does indeed break the grammaticality of the sentence, a set of rules were used on the part-of-speech tags of the words in the sentence.

The original full dataset consists of 1,024 / 256 / 2,048 samples for training, validation and testing, respectively (so 3,328 samples used in total). These splits are used as-is in the framework.

Here are a few examples from the training split:

{
    "text": "Gultā viņam nav jādara pilnīgi nekas, lai es nonāktu līdz orgasmam.",
    "label": "correct"
}
{
    "text": "Ar savu puiku, kurÅ” parasts.",
    "label": "incorrect"
}
{
    "text": "1992. vēl gadā Latvijā atradās no 50 000 līdz 80 000 padomju militārpersonu.",
    "label": "incorrect"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 12
  • Prefix prompt:
    Å ie ir teikumi un to gramatiskie pareizumi.
    
  • Base prompt template:
    Teikums: {text}
    Gramatiski pareizs: {label}
    
  • Instruction-tuned prompt template:
    Teikums: {text}
    
    Noteiciet, vai teikums ir gramatiski pareizs vai nē. Atbildiet ar 'jā', ja teikums ir pareizs, un 'nē', ja tas nav.
    
  • Label mapping:
    • correct āž”ļø jā
    • incorrect āž”ļø nē

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset scala-lv

Reading Comprehension

MultiWikiQA-lv

This dataset was published in this paper and contains Wikipedia articles with LLM-generated questions and answers in 300+ languages.

The original full dataset consists of 5,000 samples in a single split. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.

Here are a few examples from the training split:

{
    "context": "Zvjaheļa (, lÄ«dz 2022. gadam — Novohrada-Volinska) ir pilsēta Ukrainas ziemeļrietumos, Žitomiras apgabala rietumos, Slučas upes krastā. Tā ir Zvjaheļas rajona administratÄ«vais centrs. Attālums lÄ«dz apgabala centram Žitomirai ir .\n\nZvjaheļa ir ukraiņu tautas dzejnieces Lesjas Ukrainkas dzimtā pilsēta.\nÅ eit ir dzimis Ukrainas armijas virspavēlnieks Ä£enerālis Valerijs Zalužnijs.\n\nVēsture \nVēstures avtos apdzÄ«votā vieta pirmoreiz minēta 1256. gadā Slučas labajā krastā kā Vozvjaheļa (Š’Š¾Š·Š²ŃŠ³ŠµŠ»ŃŒ) GalÄ«cijas-VolÄ«nijas hronikā. Gadu vēlāk to par nepaklausÄ«bu nodedzināja GalÄ«cijas karalis Danila. Nākamo reizi apdzÄ«votā vieta minēta 1432. gadā jau Slučas kreisajā krastā kā Vzvjahoļas (Š’Š·Š²ŃŠ³Š¾Š»ŃŒ) miests, bet 1499. gadā\xa0— Zvjahoļa (Š—Š²ŃŠ³Š¾Š»ŃŒ). 1507. gadā miests ieguva tiesÄ«bas bÅ«vēt pili un veidot pilsētu. Pēc Ä»ubļinas Å«nijas 1569. gadā miests saukts par Zvjaheļu (Š—Š²ŃŠ³ŠµŠ»ŃŒ, ).\n\n1793. gadā Zvjaheļa nonāca Krievijas Impērijas sastāvā. 1795. gadā miests ieguva Novohradas-Volinskas nosaukumu un pilsētas tiesÄ«bas, un kļuva par jaunizveidotās VolÄ«nijas guberņas centru (lÄ«dz 1804. gadam).\n\n2022. gada 16. jÅ«nijā Novohradas-Volinskas domes deputāti nobalsoja par pilsētas pārdēvēŔanu tās vēsturiskajā nosaukumā — Zvjaheļa. Vēlāk Å”o lēmumu apstiprināja Žitomiras apgabala dome. Ar Ukrainas Augstākās Radas dekrētu 2022. gada 16. novembrÄ« pilsēta tika pārdēvēta par Zvjaheļu.\n\nAtsauces\n\nĀrējās saites",
    "question": "Kāds Ukrainas bruņoto spēku komandieris nāk no Zvjaheļas?",
    "answers": {
        "answer_start": array([349]),
        "text": array(["ģenerālis Valerijs Zalužnijs"], dtype=object)
    }
}
{
    "context": "Bogota (), saukta arÄ« Santafe de Bogota (Santa Fe de BogotĆ”), ir pilsēta Kolumbijas centrālajā daļā, 2640 metri virs jÅ«ras lÄ«meņa. Kolumbijas galvaspilsēta, galvenais valsts politiskais, ekonomiskais un kultÅ«ras centrs. Kaut arÄ« pilsēta atrodas tropiskajā joslā, augstkalnu apstākļu dēļ pilsētā nav karsts (vidējā gaisa temperatÅ«ra visu gadu - apmēram +15 grādi).\n\nVēsture \n\nPirms konkistadoru ieraÅ”anās Bogotas vietā bija čibču indiāņu galvenais centrs, kuru sauca par Bakatu (BacatĆ”).\n\nMÅ«sdienu pilsētu nodibināja konkistadors Gonsalo Himeness de Kvesada (Gonzalo JimĆ©nez de Quesada) 1538. gadā.\n\n1718. gadā Bogota kļuva par spāņu Jaunās Granādas vicekaralistes (Virreinato de Nueva Granada) centru.\n\n1810. gadā iedzÄ«votāji sacēlās pret spāņu varu, tomēr sacelÅ”anās tika apspiesta. 1819. gadā Bogotu ieņēma Simona Bolivāra karaspēks.\n\n1819. gadā vicekaraliste ieguva neatkarÄ«bu no Spānijas un Bogota kļuva par Lielkolumbijas (Gran Colombia) galvaspilsētu. Tomēr 1830. gadā Lielkolumbija sabruka un izveidojās Jaunā Granāda (mÅ«sdienu Kolumbija), Ekvadora un Venecuēla. 1903. gadā ar ASV atbalstu pret solÄ«jumiem atļaut bÅ«vēt Panamas kanālu, neatkarÄ«bu no Kolumbijas ieguva Panama.\n\n1948. gadā Bogotā tika nogalināts populārais kolumbieÅ”u poltiÄ·is Horhe Gaitans. Pilsētā izcēlās plaÅ”i nemieri un ielu kaujas. Sākās politiskās nestabilitātes periods (La Violencia), kurÅ” turpinājās 10 gadus, gāja bojā no 180 000 lÄ«dz 300 000 kolumbieÅ”u.\n\nCilvēki \n\nBogotā dzimuÅ”i:\n\n Egans Bernals (Egan Bernal, 1997) — riteņbraucējs;\n IngrÄ«da BetankÅ«ra (ƍngrid Betancourt, 1961) — politiÄ·e;\n Huans Pablo Montoija (Juan Pablo Montoya, 1975) — Formula 1 pilots;\n Katalina Sandino Moreno (Catalina Sandino Moreno, 1981) — aktrise;\n Kamilo Toress Restrepo (Camilo Torres Restrepo, 1929-1966) — revolucionārs.\n\nĀrējās saites \n\nDienvidamerikas galvaspilsētas\nKolumbijas pilsētas",
    "question": "Kad Bogata tika iecelta par Jaunās Granādas vicekaralistes centru Spānijas pakļautībā?",
    "answers": {
        "answer_start": array([599]),
        "text": array(["1718. gadā"], dtype=object)
    }
}
{
    "context": "Džastins Å ulcs (; dzimis ) ir kanādieÅ”u hokejists, aizsargs. PaÅ”laik (2020) Å ulcs spēlē Nacionālās hokeja lÄ«gas kluba VaÅ”ingtonas "Capitals" sastāvā.\n\nSpēlētāja karjera \nPēc vairākām NCAA čempionātā aizvadÄ«tām sezonām, profesionāļa karjeru Å ulcs sāka 2012.—13. gada sezonā, tajā spēles laiku dalot starp NHL klubu Edmontonas "Oilers" un AHL vienÄ«bu Oklahomsitijas "Barons". "Oilers" Å ulcs aizvadÄ«ja 48 spēles, savukārt AHL kļuva par lÄ«gas rezultatÄ«vāko aizsargu, tiekot atzÄ«ts arÄ« par lÄ«gas labāko aizsargu. 2013.—14. gada sezonu Å ulcs jau pilnÄ«bā aizvadÄ«ja "Oilers" sastāvā.\n\nPēc neveiksmÄ«ga 2015.—16. gada sezonas ievada Å ulcs tika aizmainÄ«ts uz Pitsburgas "Penguins". Tās sastāvā 2016. un 2017. gadā viņŔ izcÄ«nÄ«ja Stenlija kausu. "Penguins" sastāvā spēlēja lÄ«dz 2020. gadam, kad pievienojās VaÅ”ingtonas "Capitals".\n\nĀrējās saites \n\n1990. gadā dzimuÅ”ie\nKanādas hokejisti\nEdmontonas "Oilers" spēlētāji\nPitsburgas "Penguins" spēlētāji\nVaÅ”ingtonas "Capitals" spēlētāji\nStenlija kausa ieguvēji\nBritu Kolumbijā dzimuÅ”ie",
    "question": "Kad Džastins Šulcs uzsāka savu profesionālo karjeru?",
    "answers": {
        "answer_start": array([251]),
        "text": array(["2012.—13. gada sezonā"], dtype=object)
    }
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 4
  • Prefix prompt:
    Turpmāk seko teksti ar atbilstoÅ”iem jautājumiem un atbildēm.
    
  • Base prompt template:
    Teksts: {text}
    Jautājums: {question}
    Atbildēt ar maksimāli 3 vārdiem:
    
  • Instruction-tuned prompt template:
    Teksts: {text}
    
    Atbildiet uz Å”o jautājumu par iepriekÅ” minēto tekstu ar maksimāli 3 vārdiem.
    
    Jautājums: {question}
    

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset multi-wiki-qa-lv

Knowledge

MMLU-lv

This dataset is a machine translated version of the English MMLU dataset and features questions within 57 different topics, such as elementary mathematics, US history and law. The translation to Latvian was done by the Latvian Language Technology Initiative and is available in the VTI-Data repository.

The full Latvian MMLU dataset consists of 13,941 samples. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively, sampled randomly.

Here are a few examples from the training split:

{
  "text": "Atrodiet skaitli, kas padara apgalvojumu patiesu: 48 m = lodziņŔ mm.\nIzvēles:\na. 48,000\nb. 480\nc. 4,800\nd. 5",
  "label": "a",
}
{
  "text": "Darbinieks sagaida lielāku konsekvenci sava priekÅ”nieka uzvedÄ«bā, nekā tas ir pamatoti. KurÅ” no Å”iem faktoriem vislabāk izskaidro darbinieka gaidas?\nIzvēles:\na. pārmērÄ«gas attaisnoÅ”anas hipotēze\nb. paÅ”labuma aizspriedumainÄ«ba\nc. fundamentālais atribÅ«cijas aizspriedums\nd. paÅ”pārbaudes teorija",
  "label": "c",
}
{
  "text": "Kurā no Å”iem diviem scenārijiem galvenais varonis (kurÅ” lieto es/jē/man) dara kaut ko, kas ir acÄ«mredzami morāli nepareizs, saskaņā ar parastajām morāles normām ASV no 2020. gada? scenārijs | Es atslēdzu automaŔīnas kruÄ«za kontroli. scenārijs | Es izsaucu policiju savam bijuÅ”ajam mīļotajam, jo viņŔ mani piekāva.\nIzvēles:\na. Nepareizi, nepareizi\nb. Nepareizi, nav nepareizi\nc. Nav nepareizi, nepareizi\nd. Nav nepareizi, nav nepareizi",
  "label": "d",
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Tālāk seko jautājumi ar vairākām atbilžu izvēlēm (ar atbildēm).
    
  • Base prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    Atbilde: {label}
    
  • Instruction-tuned prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    
    Atbildiet uz iepriekŔējo jautājumu, atbildot ar 'a', 'b', 'c' vai 'd', un nekas cits.
    

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset mmlu-lv

Common-sense Reasoning

COPA-lv

This dataset was published in this paper and is a translated version of the English COPA dataset, which was created from scratch by the authors. The dataset was machine translated using the Tilde Translation service, and the test samples were manually post-edited.

The original full dataset consists of 214 / 57 / 132 samples, and we keep the splits as-is.

Here are a few examples from the training split (which have not been post-edited):

{
  "text": "ÄŖrnieki tika izlikti no dzÄ«vokļa.\nIzvēles:\na. Viņi savu Ä«ri nemaksāja.\nb. Viņi sapratās ar savu saimnieku.",
  "label": "a"
}
{
  "text": "SveÅ”inieks man sveÅ”valodā kliedza.\nIzvēles:\na. ES truli blenzu uz viņu.\nb. ES apstājos, lai papļāpātu ar viņu.",
  "label": "a"
}
{
  "text": "Pagriezu gaismas slēdzi uz augÅ”u un uz leju.\nIzvēles:\na. Gaisma izdzisa.\nb. Gaisma mirgoja.",
  "label": "b"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Tālāk seko jautājumi ar vairākām atbilžu izvēlēm (ar atbildēm).
    
  • Base prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    Atbilde: {label}
    
  • Instruction-tuned prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    
    Atbildiet uz iepriekŔējo jautājumu, atbildot ar 'a' vai 'b', un nekas cits.
    

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset copa-lv

Unofficial: Winogrande-lv

This dataset was published in this paper and is a translated and filtered version of the English Winogrande dataset.

The original full dataset consists of 47 / 1,210 samples for training and testing, and we use the same splits.

Here are a few examples from the training split:

{
  "text": "Pērkot māju, PatrÄ«cijai nav tik daudz naudas, ko tērēt kā Tanjai, tāpēc _ nopērk vienas guļamistabas māju. Ko norāda tukÅ”ums _?\nIzvēles:\na. Opcija A: PatrÄ«cija\nb. Opcija B: Tanja",
  "label": "a"
}
{
  "text": "Es nevarēju kontrolēt mitrumu, kā es kontrolēju lietu, jo _ nāca no visām pusēm. Ko norāda tukÅ”ums _?\nIzvēles:\na. Opcija A: mitrums\nb. Opcija B: lietus",
  "label": "a"
}
{
  "text": "Derriks nespēja koncentrēties darbā, atŔķirÄ«bā no Džastina, jo _ bija jautrs darbs. Ko norāda tukÅ”ums _?\nIzvēles:\na. Opcija A: Derriks\nb. Opcija B: Džastins",
  "label": "b"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Tālāk seko jautājumi ar vairākām atbilžu izvēlēm (ar atbildēm).
    
  • Base prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    Atbilde: {label}
    
  • Instruction-tuned prompt template:
    Jautājums: {text}
    Izvēles:
    a. {option_a}
    b. {option_b}
    
    Atbildiet uz iepriekŔējo jautājumu, atbildot ar 'a' vai 'b', un nekas cits.
    

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset winogrande-lv

Summarisation

LSM

This dataset contains news articles and their corresponding summaries from the Latvian public media news portal LSM.lv.

Samples were collected using the lsm_scraper. We use 1,024 / 256 / 2,048 samples for training, validation and testing, respectively.

Here are a few examples from the training split:

{
  "text": "FOTO: Raimonda Paula un ElÄ«nas Garančas satikÅ”anās koncertā Ā«Ja tevis nebÅ«tu...Ā»\n\nIdeja svinēt apaļo jubileju uz vienas skatuves ar izcilo operdziedātāju ElÄ«nu Garanču Maestro radusies, kopā uzstājoties jau pirms pieciem gadiem. Maestro neslēpj gandarÄ«jumu, ka pandēmijas dēļ pārceltais koncerts beidzot notiks. Raimonds Pauls koncertprogrammā ā€œJa tevis nebÅ«tu...ā€ dziedātājai veltÄ«jis divus jaunus dziesmu ciklus ar kopÄ«gi atlasÄ«tu Vizmas BelÅ”evicas un Ojāra VācieÅ”a dzeju. Savukārt koncerta otrajā daļā iekļautas Paula dziesmas no kinofilmām un teātra izrādēm. KamerorÄ·estra ā€œSimfonietta RÄ«gaā€ pavadÄ«jumā populāras melodijas atŔķirÄ«gās noskaņās izskanēs jaunos aranžējumos, ko veidojuÅ”i tādi izcili komponisti kā Lolita Ritmane, Rihards Dubra, Jēkabs Jančevskis un Raimonds Macats. ā€œMan Ŕī otrā daļa ar kino un teātra mÅ«ziku ir tāds sapnis, kas ir piepildÄ«jies. Jo Å”is žanrs mani vienmēr ir ļoti interesējis. Varētu teikt, ka es operas žanrā esmu nokļuvusi faktiski nejauÅ”i, jo sirds aicinājums no paÅ”a sākuma bija tieÅ”i teātris,ā€ atklāj ElÄ«na Garanča. Ojārs Rubenis atzÄ«st: ā€œEs varu tikai apbrÄ«not gan Maestro 85 gados – izturÄ«bu un to darbu, ko viņŔ var izdarÄ«t. Un, protams, arÄ« ElÄ«nu Garanču, kura vienkārÅ”i ir apbrÄ«nojama savā neambiciozitātē pret visu pārējo un ambiciozitātē pret mākslu. Tas ir tas lielmākslinieku kods!ā€ Maestro un ElÄ«nas Garančas atkalsatikÅ”anās Nacionālajā teātrÄ« bÅ«s skatāma piektdien un sestdien, savukārt Latvijas TelevÄ«zijā Å”o koncertu varēs vērot Ŕī gada rudenÄ«.",
  "target_text": "Viņiem bija iecerēts tikties jau Ŕī gada sākumā, bet pandēmijas dēļ Raimonda Paula 85. jubilejai veltÄ«tais koncerts ar pasaulslavenās operdziedātājas ElÄ«nas Garančas piedalīŔanos tika pārcelts. Å ajā nedēļas nogalē Nacionālo teātri beidzot pieskandinās abu izcilo mÅ«zikas personÄ«bu atkalsatikÅ”anās ar skatÄ«tājiem koncertā ā€œJa tevis nebÅ«tu...ā€."
}
{
"text": "Ukrainā tÅ«kstoÅ”iem cilvēku protestē pret korupcijas apkarotāju vājināŔanu; Zelenskis sola jaunu likumu\n\nCilvēki pauž neapmierinātÄ«bu par\xa0korupcijas apkarotāju vājināŔanu TreÅ”dienas vakarā Kijivā\xa0bija pilns\xa0Ivana Franka laukums, kas ir tuvākā vieta pie prezidenta Volodimira Zelenska darba vietas, kur var brÄ«vi piekļūt cilvēki. Pārsvarā gados jauni cilvēki bija sanākuÅ”i, lai paustu protestu, nožēlu un neapmierinātÄ«bu ar Augstākās Radas pieņemto likumprojektu, kas paredz atcelt Ukrainas Korupcijas apkaroÅ”anas biroja un specializētās pretkorupcijas prokuratÅ«ras neatkarÄ«bu, iestāžu pārraudzÄ«bu nododot Ä£enerālprokuroram, kas ir politiski izraudzÄ«ts. Cilvēki skandēja visdažādākos saukļus – arÄ« \"Rokas nost no NABU!\", \"Neklusē!\", \"Kauns!\", \"Slava Ukrainai!\", \"Varoņiem slava!\" un daudzus citus. Tā kā pamatā tie bija jaunieÅ”i, viņi bija ļoti skaļi un aktÄ«vi. Rokās daudziem bija paÅ”darināti plakāti. Piemēram, \"Augstākā nodevÄ«ba\" – spēlējoties ar Augstākās Radas jeb parlamenta nosaukumu. Kāds jaunietis arÄ« bija izveidojis plakātu, kur puse sejas bija no prezidenta Zelenska, otra puse – no bēdÄ«gi slavenā prokrieviskā eksprezidenta Viktora Janukoviča, kurÅ” 2014.\xa0gadā pēc Eiromaidana jeb PaÅ”cieņas revolÅ«cijas asiņainajiem notikumiem aizbēga no Ukrainas un Å”obrÄ«d slēpjas Krievijā. AktÄ«visti Ukrainas protestā pret korupcijas apkarotāju vājināŔanu 00:00 / 01:09 Lejuplādēt Indra Sprance Latvijas Radio parunājās ar dažiem no aktÄ«vistiem. Marina: Esmu Å”eit, jo esmu ļoti saÅ”utusi par paÅ”reizējo situāciju ar likumprojektu. Ir pieņemts likums, kas pilnÄ«bā neatbilst Eiropas SavienÄ«bas un tautas prasÄ«bām. Mēs atgriežamies pie tā stāvokļa, kāds bija 2013. gadā, kad mÅ«su tauta cÄ«nÄ«jās par savu ceļu uz Eiropas SavienÄ«bu. Mans brālis paÅ”laik karo Pokrovskas tuvumā. Visa Ŕī situācija man Ŕķiet kā spļāviens sejā visiem tiem karavÄ«riem, kas mÅ«s sargā, riskējot ar dzÄ«vÄ«bām,\xa0– vara viņiem demonstrē, ka esam tuvāk nevis Eiropas SavienÄ«bai un mÅ«su Rietumu partneriem, bet Krievijai. Ihors: Man gandrÄ«z visi vÄ«rieÅ”u kārtas radinieki Å”obrÄ«d karo, un man nav tiesÄ«bu Å”obrÄ«d stāvēt malā. Aleksa: Ukrainā Å”obrÄ«d notiek ļoti briesmÄ«gas lietas – kamēr daži cilvēki atdod savas dzÄ«vÄ«bas, lai mēs varētu Å”eit normāli dzÄ«vot, kāds sagrauj valsti. Un tas nav labi. Mums Å”eit ir jābÅ«t.\xa0 Tas ir svarÄ«gi. TreÅ”dienas vakarā protesta akcija notika arÄ« Ukrainas otrā lielākajā pilsētā Harkivā, tur pēc \"Radio BrÄ«vÄ«ba\" aplēsēm bijis lÄ«dz pustÅ«kstotim cilvēku. Protesti notikuÅ”i arÄ« Černihivā, Zaporižjā, Ä»vivā, Dņipro, Krivijrihā, Ivanofrankivskā, Ternopiļā, Odesā un citur. Å Ä« ir jau otrā diena, kad cilvēki iziet ielās. IepriekÅ” tie bija spontāni protesti, reaģējot uz Augstākās Radas lēmumu, bet treÅ”dien jau daudzviet cilvēkus ielās aicinājuÅ”as dažādas sabiedriskās organizācijas. Zelenskis sola jaunu likumu Prezidents Volodimirs Zelenskis treÅ”dien bija noorganizējis tikÅ”anos ar visu Ukrainas tiesÄ«bu aizsardzÄ«bas iestāžu vadÄ«tājiem, tajā skaitā abu pretkorupcijas iestāžu – NABU un specializētās prokuratÅ«ras vadÄ«tājiem. Saruna bijusi atklāta un vērtÄ«ga. Nākamnedēļ notikÅ”ot dziļāka darba tikÅ”anās saistÄ«bā ar kopÄ«gajiem darbiem. Pēcāk videouzrunā Zelenskis sacÄ«ja, ka ir sadzirdējis cilvēku bažas. Zelenskis piedāvās Augstākajai Radai savu – prezidenta likumprojektu, kas nodroÅ”inās tiesÄ«bu aizsardzÄ«bas sistēmas spēku un to, ka nebÅ«s nekāda Krievijas iejaukÅ”anās iestāžu darbā. Jau vēlāk Zelenskis likumprojektu iesniedzis. Vēl gan nav skaidrs, kas tieÅ”i Å”ajā likumprojektā ir un kad tieÅ”i par to balsos parlaments. Kā likumprojektu komentējis Zelenskis, tas paredz pilnÄ«gas korupcijas apkaroÅ”anas iestāžu neatkarÄ«bas garantijas. Tas arÄ« paredzot reālas iespējas pārliecināties, ka iestāžu darbÄ«bā neiejaucas Krievija. Ikvienam, kam ir pieeja valsts noslēpumiem - ne tikai Nacionālajam pretkorupcijas birojam un Specializētajai pretkorupcijas prokuratÅ«rai, bet arÄ« Valsts izmeklēŔanas birojam un Valsts policijai - ir jāveic melu detektora pārbaudes un tām jābÅ«t regulārām, likumprojekta saturu komentēja Zelenskis. Likumprojektā ir iekļauti arÄ« noteikumi, kas aizsargā pret dažādiem pārkāpumiem, piebilda prezidents. Pēc jaunā likumprojekta pārskatīŔanas Nacionālais pretkorupcijas birojs paziņojumā norādÄ«ja, ka ierosinātais likumprojekts patiesi atjaunos visas procesuālās pilnvaras un neatkarÄ«bas garantijas gan birojā, gan Specializētajā pretkorupcijas prokuratÅ«rā. ArÄ« Ukrainas Korupcijas apkaroÅ”anas rÄ«cÄ«bas centrs, kas ir uzraudzÄ«bas iestāde, atbalstÄ«ja iniciatÄ«vu, sakot, ka tā atjaunos principus, ko iepriekÅ” bija nojaukusi Augstākā Rada. Centrs gan brÄ«dināja, ka pat vienas nedēļas kavēŔanās var bÅ«t pietiekama, lai iznÄ«cinātu virkni abās pretkorupcijas iestādēs esoŔās tiesvedÄ«bas pret augstākajām korumpētajām amatpersonām. KONTEKSTS: Ukrainas parlaments 22. jÅ«lijā apstiprināja likuma grozÄ«jumus, kas mazina Ukrainas korupcijas apkaroÅ”anas iestāžu neatkarÄ«bu. Ukrainas Nacionālais pretkorupcijas birojs (NABU) un specializētā prokuratÅ«ra turpmāk bÅ«s pakļauti Ukrainas Ä£enerālprokuroram, kas ir Ukrainas prezidenta Volodimira Zelenska izvirzÄ«ta amatpersona. Tas izraisÄ«jis bažas par korupcijas apkaroÅ”anas dienestu pakļauÅ”anu Zelenska komandas interesēm. Ukrainas DroŔības dienests iepriekÅ” veicis plaÅ”a mēroga kratīŔanas pie NABU un specializētās prokuratÅ«ras darbiniekiem. Å ie soļi izraisÄ«juÅ”i protestus Ukrainas iekÅ”ienē, kā arÄ« kritiku no Ukrainas partneriem, kas raizējas par demokrātijas standartu vājināŔanu un nepietiekamo aktivitāti korupcijas apkaroÅ”anā. Tas varētu apgrÅ«tināt Ukrainas izredzes kļūt par Eiropas SavienÄ«bas dalÄ«bvalsti.",
"target_text": "Ukrainā treÅ”dienas vakarā, reaģējot uz Å”onedēļ lielā steigā pieņemto likumu, kas atceļ pretkorupcijas iestāžu neatkarÄ«bu, tÅ«kstoÅ”iem cilvēku izgāja ielās. Latvijas Radio bija klāt Kijivā, kur pulcējās liels skaits cilvēku."
}
{
"text": "Norvēģijas dziesma EirovÄ«zijā – folkmÅ«zikas, elektronikas un viduslaiku estētikas sintēze\n\nAlessandro ir spāņu izcelsmes, viņŔ runā četrās valodās, iedvesmojas no dažādu pasaules tautu mÅ«zikas, kā arÄ« ir labs dejotājs. Alessandro dziesma \"Lighter\" ieturēta popmÅ«zikas stilistikā, kurā ievÄ«ti daudz dažādi elementi. Te var sadzirdēt gan norvēģu folkmÅ«zikas, gan elektroniskās deju mÅ«zikas notis, gan Balkānu popmÅ«zikai raksturÄ«gos ritmus un pat viduslaiku estētiku. Dziesma aicina noticēt sev un bÅ«t paÅ”am savai dzirkstij. Dziesmas \"Lighter \" vārdi Golden girl dressed in ice A heart as dark as night You got me to dim my light No more, (no more) I really think I bought your lies Did anything to keep you mine You kept me hooked on your line No more, (no more) Somewhere along the way I lost my mind I had to walk a hundred thousand miles I’m not afraid to set it all on fire I won’t fall again, I’ll be my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) I’ll be my own lighter I feel a spark inside me I don’t need saving (No way, no way) ā€˜Cause I’m my own, I’m my own lighter I’m tired of a million tries To fight, the signs And when everybody tried to tell me I should’ve known that it was time to break free Your reigns that kept me at your mercy I’ll burn them to the ground No more, no more Ignite the fire Somewhere along the way I lost my mind I had to walk a hundred thousand miles I’m not afraid to set it all on fire I won’t fall again, I’ll be my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) I’ll be my own lighter I feel a spark inside me I don’t need saving (No way, no way) ā€˜Cause I’m my own, I’m my own lighter Silence fills the room And I’ve taken off my jewels I wish none of this was true But there’s a fire growing too Yeah! (Eh-Eh-Eh-Eh) Nothing can burn me now (Eh-Eh-Eh-Eh) I’ll be my own lighter I feel a spark inside me I don’t need saving (No way, no way) ā€˜Cause I’m my own, I’m my own lighter (Eh-Eh-Eh-Eh) Nothing can burn me down (Eh-Eh-Eh-Eh) I’m my own, I’m my own lighter EirovÄ«zija\xa02025 – dalÄ«bnieki Vairāk KONTEKSTS: 2025. gada EirovÄ«zijas dziesmu konkurss notiks Å veicē, Bāzelē, un savu dalÄ«bu tajā apstiprinājuÅ”as 37 valstis. 31 no visām dalÄ«bvalstÄ«m sacentÄ«sies pusfinālos\xa013. maijā un 15. maijā. Desmit\xa0labākie no katra pusfināla kvalificēsies lielajam finālam 17. maijā, pievienojoties pērnā gada uzvarētājai Å veicei un \"lielajam piecniekam\" – Spānijai, Apvienotajai\xa0Karalistei, Vācijai, Itālijai un Francijai. EirovÄ«zijas konkursa pusfināli un fināli Å”ogad sāksies pulksten 22.00 pēc Latvijas laika. TieÅ”raides bÅ«s skatāmas Latvijas Sabiedriskā medija portālā LSM.lv un satura atskaņotājā REplay.lv, kā arÄ« LTV1. Å Ä« gada Latvijas nacionālajā atlasē \"Supernova\" uzvarēja un uz EirovÄ«ziju dosies grupa \"Tautumeitas\" . \"Tautumeitas\" kāps uz skatuves EirovÄ«zijas konkursa otrajā pusfinālā. Tajā kopā ar Latviju piedalÄ«sies arÄ« Armēnija, Austrālija, Austrija, GrieÄ·ija, ÄŖrija, Lietuva, Melnkalne, Čehija, Dānija, Somija, Gruzija, Izraēla, Luksemburga, Malta un Serbija.",
"target_text": "Norvēģiju EirovÄ«zijas dziesmu konkursā pārstāv jaunais dziedātājs Kails Alessandro ( Kyle Alessandro ). PlaŔāka auditorija dziedātāju iepazina jau 10 gadu vecumā, kad viņŔ veiksmÄ«gi piedalÄ«jās\xa0TV Å”ovā \"Norway’s Got Talent\"."
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 1
  • Prefix prompt:
    Tālāk ir dokumenti ar pievienotām kopsavilkumiem.
    
  • Base prompt template:
    Dokuments: {text}
    Kopsavilkums: {target_text}
    
  • Instruction-tuned prompt template:
    Dokuments: {text}
    
    Uzrakstiet kopsavilkumu par iepriekÅ” minēto dokumentu.
    

You can evaluate this dataset directly as follows:

$ euroeval --model <model-id> --dataset lsm