El asistente de inteligencia artificial DeepSeek ha logrado posicionarse como la aplicación más descargada en la App Store de Estados Unidos desde su lanzamiento el 11 de enero, superando a ChatGPT de OpenAI.

Desarrollado por la firma china del mismo nombre, DeepSeek ofrece respuestas en formato conversacional, navegación web para información actualizada y herramientas para resumir documentos y resolver problemas complejos. Su tecnología se basa en el modelo DeepSeek V3, con 671.000 millones de parámetros y arquitectura Mixture of Experts (MoE), lo que le permite procesar datos de manera más eficiente.

Dispone también de 37.000 millones de parámetros activados para cada token, como explican sus responsable en el repositorio de GitHub. Y sus responsables han recurrido al mecanismo de atención latente multicabezal (MLA) para «lograr una inferencia eficiente y una capacitación rentable».

La compañía tecnológica ha empleado 14,8 billones de tokens «diversos y de alta calidad» junto con un ajuste supervisado y aprendizaje de refuerzo por fases. Aseguran, además, que cada token ha requerido para su entrenamiento 3,7 días con 2.048 GPU Nvidia H800, lo que hace que el entrenamiento total alcance los 2,788 millones de horas de GPU y un coste total de 5,576 millones de dólares.

Aunque sigue siendo una suma de dinero alta, el coste del entrenamiento está lejos de los 78 millones de dólares de GPT-4 y de los 191 millones de dólares de Gemini Ultra de Google, como se recoge en Artificial Intelligence Index Report 2024.

Según afirman, el modelo «supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado». Así, en la evaluación de la comprensión del lenguaje (MMLU Pro) en una variedad de tareas, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 40B.

En la evaluación de la capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek V3 ha obtenido una puntuación de 59.1, por debajo de Claude 3.5 Sonnet (65.0), pero por encima de GPT 4o (49.9), Qwen 2.5 de 72B (49.0) y Llama 3.1 405B (51.1).

También queda en segunda posición en el análisis de la capacidad para resolver problemas de software del mundo real (SWE), en el que alcanza una puntuación de 42.0, frente a los 50.8 de Claude 3.5 Sonnet, seguidos de GPT 4o (38.8), Llama 3.1 405B (24.5) y Qwen 2.5 de 72B (23.8).

En cambio, sobresale en las pruebas de resolución de desafíos (MATH 500), donde obtiene 90.2, mientras que Claude 3.5 Sonnet alcanza 78.9; Qwen 2.5 de 72B, 80.0; GPT 4o, 74.6, y Llama 3.1 405B, 73.8 puntos. También lo hace en la resolución de problemas matemáticos con AIME 2024, con una puntuación de 39.2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (ambos 23.3), Claude 3.5 Sonnet (16.0) y GPT 4o (9.3).

En programación, en la prueba Codeforces, DeepSeek V3 alcanza 51.6 puntos, Qwen 2.5 de 72B , 24.8; Llama 3.1 405B, 25.3 puntos; GPT 4o23.6; y Claude 3.5 Sonnet, una puntuación de 20.3.

NUEVOS MODELOS DE RAZONAMIENTO

La semana pasada, la compañía china presentó una nueva familia de modelos de razonamiento, DeepSeek-R1-Zero y DeepSeek-R1, el primero de ellos entrenado a través del aprendizaje de refuerzo a gran escala sin ajuste fino supervisado como paso preliminar, como explica en el texto de la investigación publicado en Arxiv.org.

En el segundo, en cambio, se han empleado también un entrenamiento en múltiples fases y datos de inicio frío antes del aprendizaje de refuerzo para sortear los problemas de legibilidad y mezcla de idiomas. Gracias a ello, sus desarrolladores aseguran que alcanza un rendimiento en tareas de razonamiento comparable a OpenAI o1.

«Nuestro objetivo es explorar el potencial de los LLM [modelos de lenguaje de gran tamaño] para desarrollar capacidades de razonamiento sin ningún dato supervisado, centrándonos en su autoevolución a través de un proceso de aprendizaje de refuerzo puro», explican.

Redacción de Universo Digital. Nuestra misión es informar sobre las ultimas noticias del mundo digital. Mantener actualizados a todos nuestros lectores en todas las ramas del mundo digital como: Multimedia, Software, Gadgets, Videojuegos, Móviles e Internet en general.

Dejar respuesta: