Nace “Carballo”, o primeiro modelo lingüístico de IA para o galego da man do Proxecto nós

O CiTIUS e o Instituto da Lingua Galega (ILG) presentaron onte o primeiro modelo lingüístico de Intelixencia Artificial (IA) para o galego, un novo avance do Proxecto Nós. Trátase de Carballo, un modelo que permitirá o desenvolvemento de ferramentas tecnolóxicas e sistemas intelixentes creados especificamente para a lingua propia.

Carballo é un modelo de linguaxe de gran escala, o maior creado até o de agora para o galego. Trátase dun modelo fundacional, unha ferramenta básica para construír outras ferramentas versátiles mediante IA xenerativa, como tradutores, correctores automáticos ou chatbots.

Tal e como apuntan desde o Proxecto Nós, os modelos fundacionais non están adaptados nin afinados mediante instrucións dirixidas á resolución de tarefas específicas, e por iso non están destinados para que o público xeral os utilice directamente. Porén, supoñen un paso indispensábel para o desenvolvemento de aplicacións de IA no eido da lingüística.

Sobre “Carballo”

Carballo é froito de dous proxectos de investigación: Nós, impulsado pola Xunta de Galiza, e ILENIA, promovido polo Ministerio para a Transformación Dixital e da Fundación Pública para o impulso de todas as linguas oficiais do Estado. O modelo galego está baseado en Flor1.3, o modelo homólogo desenvolvido previamente para o catalán no marco do proxecto AINA-ILENIA.

Conta cunha arquitectura GPT de 1.300 millóns de parámetros, e un adestramento que foi un gran desafío computacional, para o que se colaborou co Centro de Supercomputación de Galiza, CESGA. Neste adestramento empregouse un corpus masivo de textos en galego, o CorpusNós, formado por uns 2.100 millóns de palabras (o maior corpus textual en galego existente até o día de hoxe).

O modelo fundacional Carballo é para o galego un paso máis na estratexia de dispoñer das capacidades científico-tecnolóxicas para non depender de grandes corporacións alles á realidade social e cultural de Galiza, creando recursos abertos e libres para que emrpesas e institucións poidan desenvolver tecnloxías lingüísticas en galego de amplo interese social e económico.

Carballo foi publicado en aberto, a fin de que tanto persoas expertas como empresas de software poidan utilizar o modelo para desenvolver novos produtos, facer axustes ou mesmo integrar o seu uso en aplicacións de utilidade para o público xeral.

Sobre o autor

Reply