El análisis exploratorio de datos, es una fase infaltable de todo proyecto de ciencia de datos y en muchos casos puede que requieras realizar diferentes tareas repetitivas para comprender mejor las características de los mismos, detectar patrones, outliers, valores atípicos y cualquier otra característica que pueda influir en el análisis de los datos.
Existen diferentes herramientas y soluciones que puedes integrar a tu Jupyter Notebook para agilizar este proceso pero esta herramienta que te quiero compartir tiene un enfoque muy interesante y es el de permitirte preguntarle cosas a un dataframe en Pandas en lenguaje natural.
La librería se llama Sketch y es creada por Approximate Labs y puedes conocerla en Githhub
Si bien los ejemplos que muestran en la página de Github están en inglés, para el caso de este artículo, use preguntas en español y obtuve buenos resultados. Pero ya saben que si algo no les funciona en español pueden probar en inglés y quizás les vaya mejor.
Primero debes instalar la librería en tu equipo
pip install sketchAhora debes en tu Jupyter Notebook importar la librería y también cargar Pandas
import sketch
import pandas as pdPara explicar un poco lo que puedes hacer vamos a cargar un dataset sobre la epidemia de Covid en USA
# Datos Covid por condado USA 2020
dfDatos = pd.read_csv('https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties-2020.csv')dfDataframe.sketch.metodo('Tu prompt')En este caso puedes reemplazar los métodos por los siguientes:
df['review_keywords'] = df.sketch.apply("Keywords for the review [{{ review_text }}] of product [{{ product_name }}] (comma separated):")Te invito a probar esta nueva librería que quizás te puede ayudar a agilizar tus análisis de datos.
0 Comentarios