Apple ha negado haber utilizado un conjunto de datos recopilados de forma poco ética por EleutherAI para entrenar su producto estrella de inteligencia artificial (IA), Apple Intelligence. Sin embargo, afirman que han utilizado el conjunto de datos para otro modelo de IA.
Después de que se revelara esta semana que una empresa llamada EleutherAI utilizó un conjunto de datos que contenía cientos de miles de subtítulos de videos de YouTube para crear un conjunto de datos para ayudar en el entrenamiento de IA, Apple Habló con Apple Insidernegando que ‘Pile’ de EleutherAI se haya utilizado para entrenar a Apple Intelligence.
Sin embargo, confirmaron que ‘the Pile’ se utilizó durante el desarrollo de los modelos OpenELM de código abierto publicados a principios de este año.
¿Qué es ‘The Pile’ de EleutherAI?
EleutherAI es una organización sin fines de lucro que quiere hacer que la investigación y el desarrollo de IA sean más accesibles para las empresas fuera de las grandes firmas tecnológicas que vemos trabajando principalmente en enormes modelos de IA como OpenAI.
Una de las formas en que lo hacen es proporcionando conjuntos de datos de entrenamiento para grandes modelos de lenguaje y otras aplicaciones de IA. Sin embargo, en lugar de pagar tarifas de licencia para acceder a los datos o entablar asociaciones para utilizar los datos de las fuentes, EleutherAI rastrea la web para obtener sus datos. Esto incluye los subtítulos de más de 170.000 videos de YouTube.
El resultado de todo esto es ‘The Pile’: un enorme corpus de datos de capacitación obtenidos de manera poco ética tiene como objetivo reducir las barreras de entrada para que las empresas más pequeñas ingresen al mercado de la IA. Sin embargo, las empresas más grandes también han hecho uso del conjunto de datos.
¿Qué es OpenELM de Apple?
Aunque no usaron ‘the Pile’ para entrenar a Apple Intelligence (y afirman que los modelos de Apple Intelligence fueron entrenados “con datos autorizados, incluidos datos seleccionados para mejorar características específicas, así como datos disponibles públicamente recopilados por nuestro rastreador web”), Apple ha admitido haberlo usado para desarrollar sus modelos OpenELM.
Apple lanzó OpenELM en abril. Fue creado con fines de investigación y no se utiliza para impulsar ninguna de las funciones o características de Apple Intelligence. Apple ha Le dije a 9to5Mac que no tienen planes de ampliar OpenELM ni de lanzar más versiones de la herramienta.
Crédito de la imagen destacada: Apple