Usa Sketch y comienza a preguntarle cosas a un dataframe en Pandas


El análisis exploratorio de datos, es una fase infaltable de todo proyecto de ciencia de datos y en muchos casos puede que requieras realizar diferentes tareas repetitivas para comprender mejor las características de los mismos, detectar patrones, outliers, valores atípicos y cualquier otra característica que pueda influir en el análisis de los datos.

Existen diferentes herramientas y soluciones que puedes integrar a tu Jupyter Notebook para agilizar este proceso pero esta herramienta que te quiero compartir tiene un enfoque muy interesante y es el de permitirte preguntarle cosas a un dataframe en Pandas en lenguaje natural.

La librería se llama Sketch y es creada por Approximate Labs y puedes conocerla en Githhub

Si bien los ejemplos que muestran en la página de Github están en inglés, para el caso de este artículo, use preguntas en español y obtuve buenos resultados. Pero ya saben que si algo no les funciona en español pueden probar en inglés y quizás les vaya mejor.

Cómo hacer preguntas a tus datos con Sketch

Primero debes instalar la librería en tu equipo

pip install sketch

Ahora debes en tu Jupyter Notebook importar la librería y también cargar Pandas

import sketch
import pandas as pd

Para explicar un poco lo que puedes hacer vamos a cargar un dataset sobre la epidemia de Covid en USA

# Datos Covid por condado USA 2020
dfDatos = pd.read_csv('https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties-2020.csv')
Este dataframe tiene estos datos


Ahora comencemos a conocer un poco sobre Sketch; para invocar Sketch debes hacer lo siguiente
dfDataframe.sketch.metodo('Tu prompt')

En este caso puedes reemplazar los métodos por los siguientes:

  • sketch.ask: Este método te permite preguntar cosas sobre tus datos, por ejemplo cuáles columnas son fecha, cuál es el promedio de alguna columna, cuántos registros nulos hay etc.
  • sketch.howto: Este método te permite pedirle a Sketch que te genere código para analizar tus datos, por ejemplo un gráfico de barras, generar columnas derivadas etc. El resultado de este método es código que puedes copiar y pegar en una nueva celda para ejecutar.

  • sketch.apply: Según se menciona en la página de Github es el método más avanzado, y requeire una API Key de OpenAI y permite hacer preguntas por cada dato de una columna. Un ejemplo de código de su página es

df['review_keywords'] = df.sketch.apply("Keywords for the review [{{ review_text }}] of product [{{ product_name }}] (comma separated):")

Te invito a probar esta nueva librería que quizás te puede ayudar a agilizar tus análisis de datos.

Publicar un comentario

0 Comentarios