Data Science Machine o simplemente DSM es un software desarrollado por un equipo de ingenieros del Laboratorio de Informática e Inteligencia Artificial del MIT (Instituto Tecnológico de Massachusetts) que identifica patrones y relaciones significativas en cantidades enormes de datos digitales y que realiza, al mismo tiempo, predicciones más precisas y rápidas que la mayor parte de los analistas humanos.
La creciente interconexión y conectividad de los dispositivos informáticos alrededor del mundo entero genera un volumen ingente de datos digitales que se resisten a un análisis eficaz y exhaustivo. El trabajo de los analistas humanos o data scientists apenas llega a desenmarañar una pequeña parte de esta red de información planetaria, el llamado big data. Por ello, no pocos equipos de científicos de todo el mundo están tratando de diseñar instrumentos que nos ayuden a realizar este tipo de operaciones. Así es como se explica la creación del Data Science Machine.
Kalyan Veeramachaneni, padre de DSM junto con Max Kanter, ha declarado que uno de los principales problemas con los que se topan los data scientists es detectar las variables que se deben extraer de las bases de datos. Para solventar esta dificultad, el DSM rastrea las relaciones esenciales en la estructura de la base de datos, marcadas con etiquetas numéricas. A continuación, el software analiza esas etiquetas de manera que le sirvan como indicadores de las correspondencias entre los datos. A partir de estas correspondencias el DSM propone una serie de predicciones, combinadas unas con otras para afinar su precisión.
Veeramachaneni y Kanter presentaron el DSM en tres concursos de análisis de datos para que compitiera con analistas humanos y calibrar así su eficiencia y eficacia. En todos los concursos los resultados del DSM superaron a la mayoría de sus rivales de carne y hueso. Pero el DSM no pretende usurpar el trabajo de estos data scientists. Por lo pronto, su mayor utilidad consiste en refinar las predicciones propuestas por los humanos.