Latxa Euskarazko Hizkuntza-Eredua

Naiara Perez; Julen Etxaniz; Oscar Sainz; Itziar Aldabe; German Rigau; Eneko Agirre; Ahmed Salem; Aitor Ormazabal; Mikel Artetxe; Aitor Soroa

doi:10.1387/ekaia.26338

Latxa Language Model for Basque

PDF (Euskara)

Published 24-09-2024

DOI https://doi.org/10.1387/ekaia.26338

Naiara Perez

Euskal Herriko Unibertsitatea UPV/EHU

Julen Etxaniz

Euskal Herriko Unibertsitatea UPV/EHU

Oscar Sainz

Euskal Herriko Unibertsitatea UPV/EHU

Itziar Aldabe

Euskal Herriko Unibertsitatea UPV/EHU

German Rigau

Euskal Herriko Unibertsitatea UPV/EHU

Eneko Agirre

Euskal Herriko Unibertsitatea UPV/EHU

Ahmed Salem

Euskal Herriko Unibertsitatea UPV/EHU

Aitor Ormazabal

Euskal Herriko Unibertsitatea UPV/EHU

Mikel Artetxe

Euskal Herriko Unibertsitatea UPV/EHU

Aitor Soroa

Euskal Herriko Unibertsitatea UPV/EHU

Abstract

We introduce the Latxa family of Large Language Models (LLMs), currently the largest developed for Basque. Latxa models range from 7 to 70 billion parameters and are built on LLama 2 models, which we continued pretraining on 4.3 million documents and 4.2 billion tokens of Basque. To address the scarcity of high-quality evaluation benchmarks for Basque, we collected four new datasets: EusProficiency, comprising 5,169 Atarikoa test questions of EGA exams; EusReading, comprisinsg 352 reading comprehension questions; EusTrivia, with 1,715 general knowledge questions across 5 areas; and EusExams, comprising 16,774 questions from public office exams. We conducted evaluations of Latxa and other LLMs (both monolingual and multilingual), with results showing Latxa's superiority over previous open models. Latxa also obtains competitive results with the commercial GPT-4 Turbo in language proficiency and understanding, despite lagging behind in reading comprehension and knowledge-intensive tasks. Both the Latxa model family, and our pretraining and evaluation data are publicly available under open licenses.

Abstract 151 | PDF (Euskara) Downloads 86

Issue

Section

Copyright Information

##plugins.themes.bootstrap3.article.main##

##plugins.themes.bootstrap3.article.sidebar##

Abstract

##plugins.themes.bootstrap3.article.details##