QUE ES LA CIENCIA DE DATOS


La ciencia de datos no es nueva, tiene su origen en el año 1962, cuando el estadístico estadounidense John W. Tukey, conocido por el desarrollo de complejos algoritmos y el famoso diagrama de caja y bigotes (Box Plot), escribe y se cuestiona el futuro de la estadística como ciencia empírica. Escribiría así en “El futuro del análisis de datos” (1962):

«Durante mucho tiempo pensé que era un estadístico interesado en inferencias de lo particular a lo general. Pero a medida que observé la evolución de las estadísticas matemáticas, tuve motivos para preguntarme y dudar […] Llegué a sentir que mi interés central está en el análisis de datos… El análisis de datos, y las partes de las estadísticas que se adhieren a él, deben […] asumir las características de la ciencia en lugar de las matemáticas […] el análisis de datos es intrínsecamente una ciencia empírica».
Fuente: https://smartodds.blog/2018/10/12/famous-statisticians-john-tukey/ 

Aquí se habla por primera vez de la evolución de la estadística matemática como Ciencia de Datos, pero sería hasta más adelante en 1974 cuando Peter Naur, científico danés conocido por sus trabajos en las ciencias computacionales y ganador del premio Turing en el año 2005, acuñara el término que actualmente conocemos.

Más tarde en 1977, la Asociación Internacional de Computación Estadística (IASC) se establece como una Sección del ISI (Institute for Scientific Information). Tal y como describen fuentes secundarias: “La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento”. Es decir, la Ciencia de Datos empieza a relacionar la metodología estadística tradicional para convertir los datos en información y conocimiento, así como se describe.

La Ciencia de Datos podría ser entendida como una disciplina que combina campos como la estadística, los métodos científicos y el análisis de datos, para extraer el valor de estos últimos.

Por otro lado, la Federación Internacional de Sociedades de Clasificación (IFCS), organización no gubernamental sin ánimo de lucro con sede en Londres y perteneciente a la ONU, se reúne en Japón en 1996 y por primera vez se incluye el término Ciencia de Datos en el título de la conferencia

Por su parte, William S. Cleveland, informático y estadístico estadounidense, famoso por sus aplicaciones en la visualización de datos, introdujo en 2001 a la Ciencia de Datos como una disciplina unificada y con independencia de lo que hasta ese momento se había conocido como Estadística. Un año más tarde, en 2002, comienzan las publicaciones de la primera revista científica en lo referente a los datos, la conocida como Data Science Journal. Esta revista fue fundada con el fin de promover a través de sus artículos la Ciencia de Datos.




 La ciencia de datos entonces podemos decir que abarca la preparación de los datos para el análisis, incluida la limpieza, la agregación y la manipulación de los datos  para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados Y poder entender mejor el comportamiento de algún fenómeno en especifico, encontrando algún patrón para tal fin.
En pocas palabras; la ciencia de datos es la extracción de conocimiento a través de datos.

Para poder dedicarse a la ciencia de datos lo más importante como número punto número 1 sin más ni menos es saber estadística, con estadística ya tienes un 90% de saber como trabajar datos, el otro 10% es conocimiento de otras áreas de matemáticas en general y programación.

El orden de lo que se tiene que saber es:

  1. Estadistica.
  2. Matemáticas.
  3. Programación.

Los dos principales lenguajes de programación que se usa son python y R, estos lenguajes son solo auxiliares para manejar las matemáticas implicitas que hay aquí. La programación solo sirve para automatizar y buscar datos más rápido que lo que harías a mano o en excel o cualquier otro graficador.

Hay muchas técnicas dentro de las tres áreas mencionadascomo son el procesamiento de señales, modelos probabilísticos, machine learning, aprendizaje estadístico.

Comentarios

Entradas populares