Operai dice que está revisando la evidencia de que la nueva empresa china Deepseek rompió sus términos de servicio al cosechar grandes cantidades de datos de sus tecnologías de IA.
La nueva empresa con sede en San Francisco, que ahora está valorada en $ 157 mil millones, dijo que Deepseek puede haber utilizado datos generados por Operai Technologies para enseñar habilidades similares a sus propios sistemas.
Este proceso, llamado destilación, es común en todo el campo AI. Pero los términos de servicio de OpenAI dicen que la compañía no permite que nadie use los datos generados por sus sistemas para construir tecnologías que compitan en el mismo mercado.
“Sabemos que los grupos en la RPC están trabajando activamente para usar métodos, incluido lo que se conoce como destilación, para replicar los modelos avanzados de USAI”, dijo la portavoz de OpenAi, Liz Bourgeois, en un comunicado enviado por correo electrónico al New York Times, refiriéndose a la República Popular de China de China. .
“Somos conscientes y revisando las indicaciones de que Deepseek puede haber destilado inapropiadamente nuestros modelos y compartirá información como sabemos más”, dijo. “Tomamos contramedidas agresivas y proactivas para proteger nuestra tecnología y continuaremos trabajando estrechamente con el gobierno de los Estados Unidos para proteger los modelos más capaces que se están construyendo aquí”.
Deepseek no respondió de inmediato a una solicitud de comentarios.
Deepseek Spooked Silicon Valley Tech Companies y envió a los mercados financieros de los EE. UU. A una cola de cola a principios de esta semana después de lanzar tecnologías de inteligencia artificial que coincidía con el rendimiento de cualquier otra cosa en el mercado.
La sabiduría predominante había sido que los sistemas más poderosos no podían construirse sin miles de millones de dólares en chips de computadora especializados, pero Deepseek dijo que había creado sus tecnologías utilizando muchos menos recursos.
Al igual que cualquier otra compañía de IA, Deepseek construyó sus tecnologías utilizando código de computadora y datos acorralados a través de Internet. Las empresas de IA se inclinan fuertemente en una práctica llamada Open Sourcing, comparten libremente el código que sustenta sus tecnologías y reutiliza el código compartido por otros. Ven que esto es como forma de acelerar el desarrollo tecnológico.
También necesitan grandes cantidades de datos en línea para capacitar sus sistemas de IA. Estos sistemas aprenden sus habilidades identificando patrones en texto, programas de computadora, imágenes, sonidos y videos. Los sistemas principales aprenden sus habilidades analizando casi todo el texto en Internet.
La destilación a menudo se usa para entrenar nuevos sistemas. Si una empresa toma datos de la tecnología patentada, la práctica puede ser legalmente problemática. Pero a menudo lo permiten las tecnologías de código abierto.
Operai ahora enfrenta más de una docena de demandas que lo acusan de usar ilegalmente datos de Internet con derechos de autor para capacitar a sus sistemas. Esto incluye una demanda presentada por el New York Times contra Operai y su socio Microsoft.
La demanda sostiene que millones de artículos publicados por The Times se usaron para entrenar chatbots automatizados que ahora compiten con el medio de comunicación como fuente de información confiable. Tanto Operai como Microsoft niegan las afirmaciones.
Un informe del Times también mostró que OpenAI ha utilizado la tecnología de reconocimiento de voz para transcribir el audio de los videos de YouTube, produciendo un nuevo texto conversacional que haría que un sistema de IA sea más inteligente. Algunos empleados de Operai discutieron cómo tal movimiento podría ir en contra de las reglas de YouTube, dijeron tres personas con conocimiento de las conversaciones.
Un equipo de Operai, incluido el presidente de la compañía, Greg Brockman, transcribió más de un millón de horas de videos de YouTube, dijo la gente. Los textos se alimentaron en un sistema llamado GPT-4, que fue ampliamente considerado uno de los modelos de IA más poderosos del mundo y fue la base de la última versión del chatgpt chatbot.