Acusan al
jefe científico de Mistral de haber recurrido a material protegido por
copyright tanto en su etapa en Meta como en las primeras fases de su start-up
con sede en Francia
La IA nos
ofrece modelos cada vez más potentes y capaces, pero ¿de dónde provienen los
datos que hacen todo eso posible? Documentos judiciales, correos internos y
testimonios de antiguos empleados, revelados recientemente por el medio francés
Mediapart, arrojan nueva luz sobre una práctica ya conocida como el uso
masivo de libros pirateados para entrenar modelos de lenguaje, pero también
sobre la participación en la misma de quien hoy es una figura central de la IA
europea.
El corazón
del escándalo: LibGen y los modelos LLaMA
En el centro
de las revelaciones se encuentra Library Genesis, conocida
como Library Genesis (LibGen), una 'biblioteca no autorizada' que
reúne millones de libros protegidos por derechos de autor,
accesibles sin autorización de los titulares legales.
Según la
investigación de Mediapart, Meta habría recurrido de forma
reiterada a LibGen para entrenar su familia de modelos LLaMA,
destinados a competir con sistemas como ChatGPT. Los documentos analizados
indican que las descargas comenzaron en octubre de 2022, alcanzando
un volumen estimado en 70 terabytes de datos, es decir, decenas de
miles de libros digitalizados.
El uso de
estas fuentes no habría sido marginal ni accidental. Correos electrónicos
internos y fragmentos de código sugieren que la práctica fue conocida y
discutida dentro de los equipos, pese a las dudas expresadas por algunos
empleados sobre su legalidad.
La
responsabilidad de la dirección de Meta
Las
revelaciones no se limitan a iniciativas individuales. Según los documentos
judiciales, la dirección de Meta estaba informada: algunos archivos
sugieren incluso que Mark Zuckerberg respaldó el uso de estos conjuntos de
datos, en un contexto donde adquirir licencias legales para millones de libros
habría supuesto costes astronómicos y largos plazos de negociación.
El
laboratorio FAIR, dirigido entonces por el reconocido investigador Yann LeCun, aparece como el
espacio donde se tomaron muchas de estas decisiones. Tras el lanzamiento de
LLaMA, Meta habría considerado brevemente regularizar el acceso a
contenidos licenciados, antes de volver a recurrir a fuentes 'gratuitas'.
Guillaume
Lample, de Meta a Mistral AI
Uno de los
nombres que emerge con fuerza es el de Guillaume Lample, entonces
investigador en el laboratorio FAIR (Fundamental AI Research) de Meta y
hoy cofundador y director científico de Mistral AI.
De acuerdo
con los documentos revelados durante el juicio que enfrenta a Meta con varios
autores, entre ellos el escritor Richard Kadrey, Guillaume Lample habría
impulsado activamente el uso de LibGen dentro de Meta. En intercambios
internos, citados por Mediapart, se le atribuye la afirmación de que "todo
el mundo usa LibGen", mencionando a OpenAI, Google y DeepMind como
ejemplos.
Cuando otros
empleados plantearon la necesidad de consultar al departamento legal, Lample
habría respondido que no había hecho preguntas, asumiendo que se
trataba de una práctica común en el sector.
Mistral AI
y sus promesas de transparencia bajo sospecha
El interés
mediático por Guillaume Lample no se explica solo por su pasado en Meta: en 2023, fundó Mistral AI,
una start-up francesa que se convirtió en tiempo récord en uno de los actores
más influyentes del ecosistema europeo de la IA, con una valoración
multimillonaria.
Desde su
creación, Mistral AI ha defendido una estrategia basada en datos 'de
alta calidad' y acuerdos de licencia, firmando alianzas con instituciones
como la AFP, el INA o la Biblioteca Nacional de Francia.
Sin embargo,
ex empleados de Meta citados por Mediapart sostienen que LibGen también
pudo haber sido utilizado en las primeras fases de desarrollo del modelo Mistral 7B, aunque no
existe por ahora prueba documental que lo confirme. La empresa, tras ser
contactada por Mediapart, asegura entrenar sus modelos con
"Información
públicamente disponible, conjuntos de datos licenciados y datos sintéticos
generados internamente".
Un debate
que va más allá de lo tecnológico
Este caso se
inscribe en un conflicto más amplio: tanto en Estados Unidos como en
Europa, autores, editoriales y artistas multiplican las demandas
judiciales contra empresas de IA, acusándolas de apropiarse de obras
protegidas sin compensación.
Las
revelaciones sobre Meta y LibGen muestran que el problema no es marginal, sino
estructural. Entrenar grandes modelos de lenguaje requiere cantidades colosales
de datos, y el acceso legal a ese material choca con los intereses económicos y
la velocidad del mercado.
En última
instancia, todo se resume a una pregunta: ¿puede la innovación
tecnológica justificarse a costa de los derechos de los creadores?