Home Tech Por qué Deepseek podría cambiar lo que cree Silicon Valley sobre AI

Por qué Deepseek podría cambiar lo que cree Silicon Valley sobre AI

7
0
Por qué Deepseek podría cambiar lo que cree Silicon Valley sobre AI
ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

El avance de la inteligencia artificial que está enviando ondas de choque a través de los mercados bursátiles, los gigantes de Silicon Valley de Silicon y la generación de sin aliento se lleva al final del dominio tecnológico de Estados Unidos con un título sin pretensiones y inestable: “Capacidad de razonamiento incentivador en LLM a través del aprendizaje de refuerzo”.

El Papel de 22 páginaslanzado la semana pasada por una start-up china de IA china llamada Deepseek, no inició de inmediato las alarmas. Los investigadores tardaron unos días en digerir las afirmaciones del documento y las implicaciones de lo que describió. La compañía había creado un nuevo modelo de IA llamado Deepseek-R1, construido por un equipo de investigadores que afirmaron haber utilizado un número modesto de chips de IA de segunda clase para que coincidan con el rendimiento de los principales modelos de IA estadounidenses a una fracción del costo.

Deepseek dijo que había hecho esto mediante el uso de ingeniería inteligente para sustituir la potencia informática en bruto. Y lo había hecho en China, un país que muchos expertos pensaban que estaba en un segundo lugar lejano en la carrera global de IA.

Algunos observadores de la industria inicialmente reaccionaron al avance de Deepseek con incredulidad. Seguramente, pensaron, Deepseek había hecho trampa para lograr los resultados de R1, o evitó sus números para que su modelo se viera más impresionante de lo que era. Tal vez el gobierno chino estaba promoviendo la propaganda para socavar la narrativa del dominio estadounidense de IA. Tal vez Deepseek fue ocultar un alijo de chips ilícito nvidia H100prohibido bajo los controles de exportación de EE. UU. Y mentir al respecto. Tal vez R1 fue en realidad solo un inteligente re-piel de los modelos de IA estadounidenses que no representaban mucho en el camino del progreso real.

Eventualmente, a medida que más personas cavaron en los detalles de Deepseek-R1, que, a diferencia de la mayoría de los principales modelos de IA, se lanzó como software de código abierto, lo que permite a los extraños examinar sus trabajos internos más de cerca, su escepticismo se transformó en preocuparse.

Y a fines de la semana pasada, cuando muchos estadounidenses comenzaron a usar los modelos de Deepseek para ellos mismos, y la aplicación móvil Deepseek alcanzó el lugar número uno en la tienda de aplicaciones de Apple, se inclinó en pánico en toda regla.

Soy escéptico de las tomas más dramáticas que he visto en los últimos días, como el reclamo, hecho por Un inversor de Silicon ValleyEse Deepseek es un complot elaborado del gobierno chino para destruir la industria tecnológica estadounidense. También creo que es plausible que el presupuesto reducido de la compañía haya sido muy exagerado, o que estuviera abarrotado de los avances realizados por las empresas estadounidenses de IA de una manera que no ha revelado.

Pero sí creo que el avance de Deepseek R1 fue real. Basado en las conversaciones que he tenido con los expertos de la industria, y una semana de expertos que se burlan y prueban los hallazgos del periódico por sí mismos, parece estar poniendo en tela de juicio varios supuestos importantes que la industria tecnológica estadounidense ha estado haciendo.

El primero es la suposición de que para construir modelos de IA de vanguardia, debe gastar enormes cantidades de dinero en chips y centros de datos potentes.

Es difícil exagerar cuán fundamental se ha vuelto este dogma. Empresas como Microsoft, Meta y Google ya han gastado decenas de miles de millones de dólares que construyen la infraestructura que pensaron que era necesario para construir y ejecutar modelos de IA de próxima generación. Planean gastar decenas de miles de millones más, o, en el caso de OpenAI, hasta $ 500 mil millones a través de una empresa conjunta con Oracle y SoftBank que se anunció la semana pasada.

Deepseek parece haber gastado una pequeña fracción de ese edificio R1. No sabemos el costo exacto, y hay muchas advertencias para hacer sobre las figuras que han lanzado hasta ahora. Es casi seguro que es superior a $ 5.5 millones, el número que la compañía afirma que gastó capacitando un modelo anterior.

Pero incluso si R1 cuesta 10 veces más para entrenar que las reclamaciones de Deepseek, e incluso si tiene en cuenta otros costos, pueden haber excluido, como los salarios de los ingenieros o los costos de hacer una investigación básica, aún serían órdenes de magnitud menos que la IA estadounidense Las empresas están gastando para desarrollar sus modelos más capaces.

La conclusión obvia para dibujar es no que los gigantes tecnológicos estadounidenses estén desperdiciando su dinero. Todavía es costoso ejecutar modelos de IA potentes una vez que estén capacitados, y hay razones para pensar que gastar cientos de miles de millones de dólares aún tendrá sentido para compañías como OpenAi y Google, que pueden permitirse el lujo de permanecer a la cabeza de la cabeza de el paquete.

Pero el avance de Deepseek en los desafíos de costos de la narrativa “más grande es mejor” que ha impulsado la carrera armamentista de IA en los últimos años al mostrar que los modelos relativamente pequeños, cuando están entrenados correctamente, pueden igualar o superar el rendimiento de modelos mucho más grandes.

Eso, a su vez, significa que las empresas de IA pueden lograr capacidades muy poderosas con mucha menos inversión de lo que se pensaba anteriormente. Y sugiere que pronto podemos ver una avalancha de inversiones en nuevas empresas de IA más pequeñas, y mucha más competencia por los gigantes de Silicon Valley. (Que, debido a los enormes costos de capacitar a sus modelos, han estado compitiendo principalmente entre sí hasta ahora).

Hay otras razones más técnicas por las que todos en Silicon Valley están prestando atención a Deepseek. En el trabajo de investigación, la compañía revela algunos detalles sobre cómo se construyó R1 realmente, que incluyen algunas técnicas de vanguardia en la destilación del modelo. (Básicamente, eso significa comprimir grandes modelos de IA en los más pequeños, haciéndolos más baratos de correr sin perder mucho en el camino del rendimiento).

Deepseek también incluyó detalles que sugerido que no había sido tan difícil como se pensaba anteriormente convertir un modelo de lenguaje de IA “vainilla” en un modelo de razonamiento más sofisticado, aplicando una técnica conocida como aprendizaje de refuerzo además de él. (No se preocupe si estos Términos pasan por encima de su cabeza: lo que importa es que los métodos para mejorar los sistemas de IA que anteriormente estaban protegidos por las compañías tecnológicas estadounidenses ahora están en la web, gratuitas para que cualquiera lo tome y replique).

Incluso si los precios de las acciones de los gigantes tecnológicos estadounidenses se recuperan en los próximos días, el éxito de Deepseek plantea preguntas importantes sobre sus estrategias de IA a largo plazo. Si una empresa china puede construir modelos baratos y de código abierto que coincidan con el rendimiento de los modelos estadounidenses caros, ¿por qué alguien pagaría por el nuestro? Y si es meta, el único gigante tecnológico de los Estados Unidos que libera sus modelos como software gratuito de código abierto, lo que impide que Deepseek u otra nueva empresa simplemente tome sus modelos, en los que gastó miles de millones de dólares y los destiló en más pequeños. , modelos más baratos que pueden ofrecer para centavos?

El avance de Deepseek también socava algunos de los supuestos geopolíticos que muchos expertos estadounidenses habían estado haciendo sobre la posición de China en la carrera de IA.

Primero, desafía la narración de que China está significativamente detrás de la frontera, cuando se trata de construir modelos de IA poderosos. Durante años, muchos expertos en IA (y los formuladores de políticas que los escuchan) han asumido que Estados Unidos tenía un liderazgo de al menos varios años, y que copiar los avances realizados por las empresas tecnológicas estadounidenses era prohibitivamente difícil para las empresas chinas rápidamente.

Pero los resultados de Deepseek muestran que China tiene capacidades avanzadas de IA que pueden igualar o exceder los modelos de Operai y otras compañías de IA estadounidenses, y que los avances realizados por las empresas estadounidenses pueden ser trivialmente fácil para las empresas chinas, o, al menos, una empresa china, replicar en cuestión de semanas.

(El New York Times ha demandado a Openai y a su socio, Microsoft, acusándolos de infracción de derechos de autor del contenido de noticias relacionados con los sistemas de IA. Openai y Microsoft han negado esas afirmaciones).

Los resultados también plantean preguntas sobre si los pasos que el gobierno de los Estados Unidos ha estado tomando para limitar la propagación de los poderosos sistemas de IA a nuestros adversarios, a saber, los controles de exportación utilizados para evitar que los poderosos chips de IA caigan en las manos de China, funcionan como están diseñados, o Si esas regulaciones deben adaptarse para tener en cuenta formas nuevas y más eficientes de modelos de capacitación.

Y, por supuesto, existen preocupaciones sobre lo que significaría para la privacidad y la censura si China tomara la iniciativa en la construcción de poderosos sistemas de IA utilizados por millones de estadounidenses. Los usuarios de los modelos de Deepseek han notado que rutinariamente se niegan a responder preguntas sobre temas delicados dentro de China, como los campos de detención de Tiananmen Square y Uyghur. Si otros desarrolladores se basan en los modelos de Deepseek, como es común con el software de código abierto, esas medidas de censura pueden integrarse en toda la industria.

Los expertos en privacidad también tienen Inquietos planteados Sobre el hecho de que el gobierno chino puede acceder a los datos compartidos con los modelos Deepseek. Si le preocupara que Tiktok se usara como un instrumento de vigilancia y propaganda, el ascenso de Deepseek también debería preocuparlo.

Todavía no estoy seguro de cuál será el impacto total del avance de Deepseek, o si consideraremos la liberación de R1 como un “momento sputnik” para la industria de la IA, como algunos lo han hecho. reclamado.

Pero parece sabio tomar en serio la posibilidad de que estemos en una nueva era de IA Brinkmanship ahora, que las compañías tecnológicas estadounidenses más grandes y ricas ya no pueden ganar de manera predeterminada, y que contener la propagación de sistemas de IA cada vez más potentes puede ser más difícil que pensamos.

Por lo menos, Deepseek ha demostrado que la carrera armamentista AI está realmente encendida, y que después de varios años de progreso, aún queda más sorpresas en la tienda.

Fuente