Preservación del software, ciencia abierta, IA responsable: conversación con Roberto Di Cosmo

Date :
Changed on 23/05/2025
- Tras su visita a Chile, Roberto Di Cosmo, profundizó sobre el nacimiento, misión y los logros de la iniciativa impulsada por Inria en colaboración con la UNESCO, Software Heritage, a casi una década de su creación. En esta conversación, Roberto Di Cosmo repasa los orígenes y resultados de Software Heritage, y su visión del impacto que la iniciativa podría tener en el desarrollo de una IA transparente, trazable, responsable y ética.
JMR_6080
Crédito Inria Chile / Foto JM Rojas

 

Del 7 al 10 de abril 2025, Roberto Di Cosmo, Director de Software Heritage e investigador Inria, realizó una visita de cuatro días a Chile en el marco del recientemente creado Centro Binacional Franco-Chileno sobre Inteligencia Artificial. La agenda desarrollada por Inria Chile contempló el Seminario “Código Abierto para una Inteligencia Artificial Responsable en Chile” organizado en la Comisión Económica para América Latina y el Caribe (CEPAL) y dónde Di Cosmo dio un keynote y participó del panel de conversación, charla en la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile, o encuentros en la Agencia Nacional de Investigación y Desarrollo ANID.

Aprovechamos la visita para conversar con el experto en código abierto y software, en un diálogo dónde recorrió la historia de la iniciativa Software Heritage, sus principales logros, y su visión para el futuro de la biblioteca de códigos más grande del mundo. 

¿Podrías explicarnos qué es Software Heritage? ¿Cómo nació, cuál es su misión y cuáles son sus grandes cifras y logros, a cerca de 10 años de su creación?

Software Heritage nació en 2016 a raíz de una colaboración impulsada por Inria, con el apoyo de la UNESCO, para abordar un reto fundamental: preservar el código fuente de la humanidad y hacerlo accesible a todos, hoy y en el futuro. La idea surgió de la misma motivación que nos lleva a conservar libros, filmes o manuscritos: el software es parte esencial de nuestro patrimonio cultural, científico e industrial, y forma la base de gran parte de la innovación tecnológica actual.

Nuestra misión es coleccionar, organizar, preservar y compartir todo el código fuente de acceso público en un único archivo universal.

Verbatim

A lo largo de casi una década, hemos logrado avances notables: actualmente, Software Heritage contiene más de 23 mil millones de archivos fuente únicos, provenientes de alrededor de 260 millones de proyectos archivados, lo que se traduce en un grafo desduplicado de decenas de miles de millones de nodos y cientos de miles de millones de enlaces. Esto nos posiciona como la mayor biblioteca de código fuente jamás construida, y seguimos ampliándola a diario para garantizar que las futuras generaciones puedan acceder a este archivo.

Auteur

Roberto Di Cosmo

Poste

Director Software Heritage, Inria

¿Cómo puede Software Heritage ser una herramienta para el desarrollo sustentable y la transformación digital de los países y en particular de los países del sur global?

Software Heritage (SWH) cumple tres funciones fundamentales que lo convierten en un aliado estratégico para la transformación digital sostenible, especialmente en países del sur global. 

En primer lugar, es un catálogo universal del código fuente, independiente de dónde se encuentre alojado en la red. Esto significa que, aunque un proyecto esté en GitHub, en GitLab o en cualquier otra plataforma, SWH lo indexa y facilita su localización de manera unificada.

En segundo lugar, SWH es también un archivo que preserva este contenido frente a eventuales borrados o modificaciones. Muchas veces, las plataformas cierran por razones económicas o de estrategia de negocio, provocando la desaparición masiva de proyectos de software. Con SWH, ese código no se pierde: queda registrado y disponible para futuros usos y referencias.

Finalmente, la misión de SWH no se limita a coleccionar, sino también a observar y estudiar. Es el primer intento de construir un gran “telescopio” que nos permita contemplar la “galaxia” del desarrollo de software. Su grafo desduplicado —que asocia ficheros, commits, colaboraciones y metadatos— se convierte en un auténtico mapa de las “estrellas” del ecosistema de desarrollo. Esto abre oportunidades de investigación y mejora continua, permitiendo que administraciones, universidades y comunidades de desarrolladores, en cualquier lugar del mundo, puedan analizar y aprovechar conocimientos de manera colaborativa. Para el sur global, esto se traduce en un acceso verificado y garantizado a recursos de software fundamentales, evitando la

¿Cómo visualiza el rol de SWH para el desarrollo de una inteligencia artificial responsable?

El desarrollo de modelos de inteligencia artificial (IA), especialmente de modelos masivos de lenguaje (LLMs), depende críticamente de la disponibilidad de datos de entrenamiento adecuados. Cuando se entrena una IA sobre grandes conjuntos de datos de código, es indispensable asegurar la trazabilidad y el respeto de los derechos de autor y de las licencias. Software Heritage proporciona no solo el código, sino también metadatos esenciales —como la procedencia histórica— gracias a nuestra estructura de grafo y a identificadores únicos (SWHIDs) que garantizan la reproducibilidad.

Esto significa que, en el terreno de la IA, podemos ofrecer transparencia y trazabilidad de los datos empleados para el entrenamiento: los equipos de investigación, empresas y desarrolladores pueden saber con precisión de dónde viene cada bloque de código y cómo se ha ido transformando a lo largo de los años. Ese conocimiento fortalece las bases de una IA más ética y responsable, y permite abordar con seriedad posibles preguntas sobre la legitimidad y la originalidad del código utilizado.

¿Nos puedes contar más sobre los principios lanzados en 2023 por Software Heritage para LLMs y su importancia? Además, ¿nos puedes contar sobre la iniciativa Code Commons?

En 2023, desde Software Heritage publicamos principios que enfatizan la necesidad de transparencia, trazabilidad y respeto por las licencias cuando se utilizan nuestros datos para entrenar modelos de lenguaje a gran escala. Estos principios buscan fomentar la colaboración abierta, al mismo tiempo que se protege la propiedad intelectual de autores y proyectos. Resaltan la importancia de que quienes desarrollen LLMs, documenten y divulguen las fuentes exactas utilizadas, que contribuyan a la calidad de los datos y que velen por un uso coherente con las intenciones de los autores.

Code Commons es un proyecto a dos años financiado por el gobierno francés que impulsa Inria en colaboración con varios partners, incluyendo el CEA y varias universidades italianas, donde Software Heritage constituye la base fundamental. 

El propósito de Code Commons es llevar el archivo de Software Heritage a un nivel superior de cobertura, escalabilidad y calidad, añadiendo metadatos más detallados (tickets, discusiones, pull requests) y desarrollando infraestructura para su aprovechamiento eficaz en entrenamientos de IA, especialmente en supercomputadores nacionales. Esto facilita que equipos de cualquier parte del mundo —y en particular de países en vías de desarrollo— puedan seleccionar y extraer de forma precisa los conjuntos de datos más adecuados para entrenar sus modelos. Además, Code Commons aborda principios de sostenibilidad, ética y soberanía digital, y propone un enfoque colaborativo donde el conocimiento se comparte como un bien común.

En conjunto, los principios de 2023 para LLMs y la iniciativa Code Commons refuerzan la visión de Software Heritage: proveer una infraestructura sólida, responsable y abierta para que la innovación tecnológica sea inclusiva, sustentable y esté alineada con valores de transparencia y colaboración global.

Verbatim

La reciente visita de Roberto Di Cosmo, Director de Software Heritage, a Chile ha sido de gran importancia para el desarrollo de una Inteligencia Artificial responsable en el país. Software Heritage ofrece herramientas esenciales para garantizar la transparencia y trazabilidad en el desarrollo de la IA. Su archivo universal de código fuente permite a investigadores y desarrolladores en Chile acceder a datos de entrenamiento conociendo su procedencia y evolución, lo cual es crucial para construir modelos éticos y confiables. Además, iniciativas como Code Commons, que buscan mejorar la calidad y accesibilidad del código, abren nuevas oportunidades para que Chile lidere en la creación de una IA sostenible y alineada con valores de colaboración global. En el contexto del Centro Binacional Franco-Chileno en IA aprovecharemos al máximo estas funcionalidades en beneficio de Chile.

Auteur

Nayat Sánchez Pi

Poste

Directora de Inria Chile / Directora del Centro Binacional Franco-Chileno sobre Inteligencia Artificial