Aunque pueden parecer lo mismo, ser científico de datos, ingeniero de datos o analista de datos, son roles diferentes. No es cuestión de sentarse a discutir por cuál es mejor, más dificil o cuánto pueden ganar porque eso es un asunto que siempre tendrá un gran DEPENDE. Lo que quiero con este post es tratar de dejar claras alguas diferencias fundamentales para quienes deseen entrar en este mundo y para ello quisiera arrancar con una historia que luego planeo explicar más adelante.
Un un científico de datos, un ingeniero de datos y un analista de datos entran a un bar y luego de mirar un gran tablero donde muestran los precios de las bebidas y mirar detenidamente las mesas ocupadas, el analista dice —Por lo que veo en las mesas y por los precios, beber cerveza es la mejor opción, casi nadie está bebiendo cocteles, quizás por su costo—, a lo que el científico de datos responde —De acuerdo a lo que vi en las noticias, hoy hay una gran promoción de las cerveceras, entonces podemos esperar que todos los bares de la calle estén mejorando sus precios para maximizar ganancias con esta bebida aumentando el volumen de venta, pero hay que pedir rápido porque creo que se van a quedar sin barriles ya que el bar no es grande, la bodega debe ser pequeña y por la ocupación del lugar nos vamos a quedar sin nada que beber—, entonces el ingeniero de datos dio una vuelta y regresó diciéndo —la verdad es que están vendiendo cerveza porque el barman que hacía los cocteles está enfermo, pude ir a la bodega, donde logré contar 10 barriles de cerveza y en la caja, donde llevan control por mesa, se pueden ver varios clientes cancelando así que creo que podremos tomar un rato, ya ustedes deciden.
Es una historia inventada, no un chiste malo, aunque lo parece; sin embargo, mi intención es usar lo que dijo cada personaje para explicar qué hace cada rol en el mundo de los datos. Que para todos como puedes ver apuntan a la toma de una decisión, qué es lo mejor para beber.
Qué hace el analista de datos
Un analista de datos se encarga de examinar grandes cantidades de información existente para encontrar patrones y tendencias, luego puede presentarlos mediante informes con gráficas e indicadores que podrán ser utilizados por diferentes equipos de una compañía para tomar decisiones adecuadas y oportunas. Para esto puede hacer uso de conocimientos de estadística y software de análisis y visualización de datos, pero necesita además un buen conocimiento del negocio y los procesos para poder ofrecer a sus informes el contexto necesario.
En nuestra historia, el analista de datos tuvo en cuenta los precios y los productos que veía en las mesas para ofrecer una interpretación y sugerir la cerveza como bebida de esa noche, un analista de datos se debe convertir en un experto en la interpretación de los datos de una empresa y en un detector de oportunidades para convertir datos en información valiosa para los tomadores de decisiones.
Conocimientos y habilidades de un analista de datos
Estos son algunos conocimientos y habilidades que puedes requerir como analista de datos:
- Conocimientos:
- Buenos conocimientos de matemática y estadística
- Visualización de información
- Conocimiento del área de negocio a la que aplica sus análisis
- Habilidades
- Manejo de hojas de cálculo como Excel y Google Sheets
- Creación de consultas de SQL y conocimientos técnicos de algunos motores de base de datos
- Lenguajes como Python y R para el procesamiento, limpieza y consolidación de datos
- Diseño de tableros de control o dashboards en herramientas que pueden ir desde Excel a otras más especializadas como Google Looker Studio, Power BI o Tableau.
Qué hace el científico de datos
Un científico de datos se especializa en analizar e interpretar grandes conjuntos de datos utilizando técnicas avanzadas de estadística, análisis de datos y machine learning, para obtener resultados tanto de datos estructurados, como los que están en tablas, hojas de cálculo o archivos CSV, como no estructurados como textos libres, audios, videos etc.
El proceso de análisis puede incluir la creación de modelos y algoritmos para analizar datos, conseguir nuevas fuentes de datos y presentar sus hallazgos a través de informes y presentaciones. Un científico de datos es un experto en el análisis, conocimientos avanzados de estadísticas, extracción de datos y visualización para presentar resultados que pueden incluir procesos de predicción, y clasificación de información.
En nuestra historia, el científico de datos, además de lo que vio el analista, incluyó información de otras fuentes como las noticias, la cantidad de clientes del local y trató de usar la estimación del tamaño de la bodega para proyectar si la cerveza iba a alcanzar para tener una velada con sus amigos.
Conocimientos y habilidades de un científico de datos
Estos son algunos conocimientos y habilidades que puedes requerir como científico de datos:
- Conocimientos:
- Manejo avanzado de matemática y estadística
- Conocimientos en modelos predictivos y de clasificación basados en machine learning como:
- Regresión lineal
- Regresión Logística
- Árboles de decisión
- Redes neuronales
- Series de tiempo
- Visualización de información
- Conocimiento del área de negocio a la que aplica sus análisis
- Habilidades
- Lenguajes como Python y R para el procesamiento, limpieza y consolidación de datos.
- En Python conocimientos avanzados de:
- Jupyter Notebook
- Pandas
- Numpy
- Matplotlib
- Conocimientos de frameworks especializados en machine learning como:
- Capacidad para el consumo y creación de APIs con librerías como FastAPI
- Creación de consultas de SQL y conocimientos técnicos de algunos motores de base de datos.
- Diseño de tableros de control o dashboards en herramientas que pueden ir desde Excel a otras más especializadas como Google Looker Studio, Power BI o Tableau.
- Diseño de tableros personalizados con Dash, Streamlit o Panel entre otros.
Qué hace el ingeniero de datos
Un ingeniero de datos se encarga de diseñar, construir y mantener flujos de procesamiento, consolidación y almacenamiento de datos a gran escala. Debe tener conocimientos de bases de datos, sistemas de almacenamiento de archivos, sistemas (ETL) de integración de fuentes de datos y la creación de flujos de procesamiento de datos. Los ingenieros de datos también son responsables de organizar la infraestructura para procesamiento de datos, entrenamiento de modelos de machine learning.
En nuestra historia, el ingeniero de datos, revisó el entorno para determinar las fuentes de datos requeridas para que los demás realicen los análisis. Confirmó las fuentes de datos, revisó los sistemas que generaban información del bar como los de la caja, validó las fuentes de datos al ir a la bodega y entendió el contexto de la venta de la cerveza, compartiendo todo esto con sus compañeros para que pudieran tomar la decisión.
Conocimientos y habilidades de un ingeniero de datos
Estos son algunos conocimientos y habilidades que puedes requerir como científico de datos:
- Conocimientos:
- Manejo avanzado de bases de datos
- Conocimientos de análisis de datos estructurados y no estructurados
- Conocimientos de computación en la nube
- Diseño de procesos de ETL, extracción, transformación y carga
- Conocimientos de diferentes tipos de archivos para almacenamiento de datos como CSV, Parket, Excel, JSON
- Habilidades
- Lenguajes como Python y R para el procesamiento, limpieza y consolidación de datos.
- En Python conocimientos avanzados de:
- Manejo de plataformas de computación en la nube como:
- Google Cloud Platform
- Amazon Web Services
- Microsoft Azure
- Conocimiento de herramientas de ETL como por ejemplo:
- SQL Server Integration Services
- Knime
En conclusión
En resumen, un analista de datos se enfoca en el análisis y la interpretación de datos, el científico de datos utiliza técnicas avanzadas de estadística, análisis de datos y machine learning para descubrir patrones y tendencias para realizar predicciones, clasificaciones de resultados de procesos. Un ingeniero de datos se centra por su parte en el diseño, construcción, monitoreo y mantenimiento de sistemas que procesan, almacenan de datos y en la creación de pipelines de análisis de datos y machine learning.
0 Comentarios