¿Qué hace exactamente un científico de datos?

Es una gran pregunta con muchas respuestas posibles, por lo que veamos de una forma practica lo que hace un científico de datos.

Imagina que acabas de ser contrata para tu primer trabajo como científico de datos en una gran compañía de tu país. Es tu primer día de trabajo y estas emocionado de obtener algunos datos para sorprender a tus jefes y todos los que te rodean con todas las ideas que descubres de ellos. Pero, ¿por dónde puedes empezar?

En el cafetín te encuentras al vicepresidente de ventas de la empresa y le preguntas ¿en qué tipos de retos de datos crees que debería estar trabajando? En unos pocos segundos el vicepresidente te responde si lo puedes ayudar a optimizar el embudo de ventas. En un principio te sorprendes, dudas que sea un problema de ciencia de datos, ya que en ningún momento te mencionan algo referente a datos, ni a nada parecido.

Pero acá te advierto, esto es normal, esta ambigüedad inicial es una situación habitual con la que se encuentran los científicos de datos en la industria. Si aplicas sistemáticamente el proceso de la ciencia de datos, descubrirás exactamente lo que necesitas saber.

El proceso de la ciencia de datos

Cuando un cliente no técnico o una parte interesada te pide que resuelva un problema, la descripción de su tarea puede ser bastante ambigua al principio. Depende de ti, como científico de datos, traducir la tarea en un problema concreto, encontrar la forma de resolverlo y presentar la solución a todas las partes interesadas. Llamamos a los pasos de este flujo de trabajo como el proceso de ciencia de datos. Estos son los pasos clave:

  • Encuadre el problema: ¿quién es tu cliente? ¿qué es exactamente lo que el cliente te pide que resuelva? ¿cómo puedes traducir su petición ambigua en un problema concreto y bien definido?
  • Recopilar los datos brutos necesarios para resolver el problema: ¿están ya disponibles estos datos? En caso afirmativo, ¿qué parte de los datos son útiles? Si no ¿qué más datos necesitas? ¿qué tipo de recursos, como tiempo, dinero, infraestructura, se necesitarán para recopilar estos datos de forma utilizable?
  • Procesar los datos: los datos reales y sin procesar rara vez se pueden usar fuera de la caja. Hay errores en la recolección de datos, registros corruptos, valores faltantes y muchos otros desafíos que tendrás que manejar. Primero tendrás que limpiar los datos para convertirlos en un formulario que pueda analizar más a fondo.
  • Explorar los datos: una vez que hayas limpiado los datos, tienes que entender la información que contiene a un alto nivel ¿qué tipo de tendencias o correlaciones obvias ve en los datos? ¿cuáles son las características de alto nivel, y algunas de ellas son más significativas que otras?
  • Realizar análisis en profundidad con la aplicación de Machine Learning, modelos estadísticos, algoritmos: este paso suele ser la parte fundamental, donde aplica toda la maquinaria de vanguardia del análisis de datos para desenterrar perspectivas y predicciones de alto valor.
  • Comunicar los resultados del análisis: todos los análisis y resultados técnicas que se obtienen son de poco valor a menos que se pueda explicar a las partes interesadas lo que significan de una manera comprensible y convincente. La narración de historias de datos es una habilidad crítica e infravalorada que construirás y utilizará aquí.

Entonces definido proceso de la ciencia de datos, crees que eres capaz de ayudar al vicepresidente de ventas de la empresa en su solicitud, veamos a continuación paso a paso este proceso.

Paso 1: Encuadre del problema

Lo primero que debes hacer antes de resolver un problema es definir exactamente qué es. Como científico de datos, a menudo recibirás aportaciones ambiguas de las personas que acuden a ti en busca de ayuda, por lo que tendrás que trabajar con ellos y hacer las preguntas correctas para llegar al fondo del asunto.

Por lo que tienes que comenzar por hacer las siguientes preguntas:

  • ¿Quiénes son los clientes y cómo los identifican?
  • ¿Cómo es el proceso de venta en este momento?
  • ¿Qué tipo de información recopila la empresa sobre los clientes potenciales?
  • ¿Cuáles son los diferentes niveles de servicio en este momento?

Tu objetivo es meterte en la cabeza del cliente, en este caso el vicepresidente de ventas, y entender su punto de vista sobre el problema lo mejor que puedas. Este conocimiento será invaluable más tarde cuando analices los datos y presentes los puntos de vista.

Una vez que tengas un conocimiento razonable del dominio, debes hacer preguntas más precisas para entender exactamente qué problema quiere el cliente que tu resuelvas. En este caso, le puedes preguntar al vicepresidente de ventas: ¿cómo es para usted optimizar el embudo de ventas? ¿qué parte del embudo no está optimizada ahora mismo?

El vicepresidente responde: “siento que mi equipo de ventas está pasando mucho tiempo persiguiendo a cliente que no quieren comprar el producto. Prefiero que pase su tiempo con clientes que probablemente se conviertan. También quiero averiguar si hay segmentos de clientes que no se están convirtiendo bien y averiguar por qué”.

Perfecto, en este momento ya puedes ver la ciencia de datos en el problema. Aquí hay algunas maneras de enmarcar la solicitud del vicepresidente en preguntas de ciencia de datos:

  • ¿Cuáles son los segmentos de clientes importantes?
  • ¿En qué difieren las tasas de conversión entre estos segmentos? ¿Algunos segmentos se desempeñan significativamente mejor o peor que otros?
  • ¿Cómo podemos predecir si un cliente potencial va a comprar el producto?
  • ¿Podemos identificar a los clientes que podría estar indecisos?
  • ¿Cuál es el retorno de la inversión (ROI) para los diferentes tipos de clientes?

Dedica unos minutos y piensa en cualquier otra pregunta que puedas hacer. En caso de que creas que esas son todas se la presenta al vicepresidente y esta de acuerdo con todas, pero te comenta que está particularmente interesado en tener una idea de cuán probable es que un cliente se convierta, por lo que ordenas las preguntas, pero le das prioridad a la 3 y 4.

El siguiente paso es averiguar qué datos tienes disponible para responder a estas preguntas.

Paso 2: Recopilar los datos correctos

En el anterior paso ya decidiste realizar un proyecto de ciencia de datos en donde predices la probabilidad de que un cliente potencial compre el producto. Ahora es el momento de empezar a pensar en los datos que necesitas.

Para nuestro ejemplo, se descubre que la mayoría de los datos del cliente son generados por el departamento de ventas y se almacenan en el software de gestión de relaciones con el cliente (CRM) de la empresa y son gestionados por el equipo de operaciones de ventas. El backend de la herramienta CRM es una base de datos SQL con varias tablas. Sin embargo, la herramienta también proporciona una API basada en web muy conveniente que devuelve datos en el popular JSON.

¿Qué datos de la base de datos CRM necesitas? ¿Cómo se debe extraer? ¿En qué formato se deben almacenar los datos para realizar el análisis?

Entonces, decides sumergirte en la base de datos SQL. Encontrarás que el sistema almacena información detallada de identidad, contacto y demográfica sobre los clientes, además de detalles del proceso de ventas de cada uno de ellos. Decides que como el conjunto de datos no es demasiado grande, lo extraerás a archivos de valores separados por comas (CSV) para un análisis posterior.

Como científico de datos ético debes preocuparte tanto por la seguridad como por la privacidad, por lo que tienes cuidad de no extraer ninguna información de identificación personal de la base de datos. Toda la información en el archivo CSV es anónima y no puede ser rastreada hasta ningún cliente específico. Aunque no se eliminan todos los problemas de seguridad, esto garantiza que los datos de los clientes individuales no se utilizarán indebidamente si los datos son robados o pirateados.

En la mayoría de los proyectos de la industria de la ciencia de datos se utilizarán datos que ya existen y que se están recopilando. Ocasionalmente, dirigirás los esfuerzos para recopilar nuevos datos, pero eso puede ser mucho trabajo de ingeniería y puede tomar un tiempo para que dé sus frutos.

Bueno, ahora tienes tus datos. ¿Estás listo para empezar a sumergirte en él y sacar conclusiones? Pues, todavía no es el momento. Los datos que has recopilado siguen siendo datos sin procesar, que es muy probable que contengan errores y valores perdidos o corruptos. Antes de sacar conclusiones de los datos, debes someterlos a algunas disputas de datos, que el tema nuestro siguiente paso.

Paso 3: Limpiar y explorar los datos

En este punto aún no estás listo para usar los datos. Tendrás que limpiarlos y explorarlo. En primer lugar, debes revisar los datos que has extraído y asegurarte de que entiendas lo que significan todas las columnas.

En primer lugar, debes revisar los datos que has extraído y asegurarte de que entiendas lo que significan todas las columnas. A su vez verificar si hay valores faltantes, que estén en intervalos adecuados e, inclusive, en el formato de datos adecuados.

Una vez que has descubierto valores perdidos o corruptos en tus datos, debes decidir qué hacer con ellos, puedes tirar esos registros por completo, o puedes decidir usar valores predeterminados razonables. Hay muchas opciones disponibles aquí, y como científico de datos, tu trabajo es decidir cuál de ellas tiene sentido para tu problema específico.

Estos pasos debe repetirlos para cada campo del archivo CSV. Al hacerlo, puedes empezar a ver por qué la limpieza de datos es tan lenta. Aún así, esta es una buena inversión del tiempo, y te aseguras de obtener los datos lo más limpios posible.

Este también es un buen momento en el que te aseguras de tener todos los datos críticos que necesitas. Para poder predecir qué futuros clientes se convertirán, necesitas saber qué clientes se han convertido en el pasado. De forma conveniente, encontrarás una columna llamada “CONVERTIDO” en los datos, con un simple valor “Sí/No”.

Por último, después de muchas disputas, ya has terminado de limpiar el conjunto de datos y estás listo para empezar a sacar algunas conclusiones de los datos, por lo que empezamos la exploración de los mismos.

Quieres saber qué información contienen los datos y qué partes de los datos son importantes para responder a tus preguntas. Este paso se denomina análisis exploratorio de datos.

¿Cuáles son algunas de las cosas que te gustaría explorar? Podrías pasar días y semanas de tu tiempo planeando sin rumbo, pero no tienes mucho tiempo. A tu cliente, el vicepresidente de ventas, le encantaría presentar algunos de tus resultados en la reunión de la junta de la próxima semana.

Por lo que revisas la pregunta original: predecir qué perspectivas de futuro es probable que se conviertan. ¿Qué pasaría sí dividieras los datos en dos segmentos basados en si el cliente se convirtió o no y examinaras las diferencias entre los dos grupos? Perfecto ese es el camino.

Inmediatamente, empiezas a notar algunos patrones interesantes. Cuando se gráfica la distribución por edades de los clientes en un histograma para las dos categorías, se observa que hay un gran número de clientes a principios de los 30 años y muchos menos clientes a los 20 años. Esto es sorprendente, ya que el producto se dirige a personas de entre 20 y 30 años.

Además, muchos de los clientes que se convierten fueron seleccionados a través de campañas de marketing por correo electrónico en lugar de a través de los medios sociales. Las campañas en los medios sociales hacen poca diferencia y esta esta dirigida a los clientes de más de 20 años. Toda esta información la obtienes de manera visual a través de gráficos, así como utilizando pruebas estadísticas a partir de tus conocimientos de las estadísticas inferenciales.

Toda esta información preliminar se la entregas al vicepresidente de ventas, por lo que queda intrigado y quiere más información al respecto.

Paso 4: Realizar un análisis en profundidad

Ahora tienes suficiente información para crear un modelo que responda a tu pregunta original.

Para crear un modelo predictivo se deben utilizar técnicas de Machine Learning. Un modelo de Machine Learning toma un conjunto de puntos de datos, donde cada punto de datos se expresa como un vector de característica.

¿Cómo se te ocurren estos vectores de características? En nuestro paso anterior, identificamos varios factores que podrían ser significativos para predecir la conversión del cliente, en particular, la edad y el método de marketing, medios sociales y correo electrónico. Nota una diferencia importante entre los dos factores de los que hemos hablado: la edad es un valor numérico mientras que el método de comercialización es un valor categórico. Como científico de datos, sabes cómo tratar estos valores de manera diferente y cómo convertirlos correctamente en características.

Además de las características, también necesitas etiquetas. Las etiquetas indican al modelo qué puntos de datos corresponden a cada categoría que deseas predecir. Para ello, utilizas simplemente el campo “CONVERTIDO” en los datos como una etiqueta booleana: 1 indica que el cliente se convirtió y 0 indica que no lo hizo.

Ahora que tienes características y etiquetas, decides utilizar un simple algoritmo de clasificación de Machine Learning como lo es Regresión Logística. Un clasificador es una instancia de una amplia categoría de técnicas de Machine Learning llamada Aprendizaje Supervisado, donde el algoritmo aprende un modelo a partir de ejemplos etiquetados. A diferencia del Aprendizaje Supervisado, las técnicas de Aprendizaje no Supervisado extraen información de los datos sin que se proporcionen etiquetas.

Eliges la Regresión Logística porque es una técnica simple, rápida y te ofrece no solo una predicción binaria sobre si un cliente se convertirá, sino también una probabilidad de conversión. Aplicas el método a tus datos, ajustas los parámetros y pronto estás emocionado con los resultados que obtuviste.

Al verte el vicepresidente de ventas te pregunta que tienes y le comentas que obtuviste un modelo predictivo con Regresión Logística con una precisión del 95%. Obviamente él no entiende que significa qué es eso, se imagina que es algo positivo, pero nada más.

Por lo tanto, te das cuenta que no has terminado el trabajo. Necesitas el último paso crítico, asegurarte de comunicar los resultados al cliente de una manera que sea convincente y comprensible para ellos.

Paso 5: Comunicar los resultados

Ya tienes un modelo asombroso de Machine Learning que puede predecir con alta precisión, cuán probable es que un cliente potencia compre el producto de la empresa. Pero ¿cómo se lo transmite al cliente, el vicepresidente de ventas? ¿Y cómo se presentan los resultados en una forma que puedan ser usados?

La comunicación es una de las habilidades más infravaloradas que un científico de datos puede tener. Los científicos de datos deben ser capaces de comunicarse con otros equipos y traducir eficazmente su trabajo para lograr el máximo impacto. Este conjunto de habilidades a menudo se denomina narración de datos.

¿Qué tipo de historia puedes contar basándote en el trabajo que has hecho hasta ahora? La historia incluirá conclusiones importantes que puedes sacar basándote en la fase de análisis exploratorio y en el modelo predictivo que has construido. Obviamente, quieres que la historia responda a las preguntas que son más importante para el cliente.

En primer lugar, tomas los datos sobre los prospectos actuales que el equipo de ventas está persiguiendo, los ejecuta a través del modelo y los clasifica en una hoja de cálculo en orden de mayor a menor probabilidad de conversión. Proporcionas la hoja de cálculo al vicepresidente de ventas.

A continuación, decides resaltar un par de resultados más relevantes:

  • Edad: estamos vendiendo mucho más a los prospectos a principios de sus 30 años, en lugar de a los que están a mediados de sus 20 años. Esto es inesperado ya que los productos están dirigidos a personas en la mitad de los 20 años.
  • Métodos de comercialización: utilizamos el marketing en redes sociales para llegar a personas de entre 20 y 30 años de edad, pero realizamos campañas por correo electrónico a personas de entre 30 y 40 años de edad. Esto parece ser un factor significativo detrás de la diferencia en las tasas de conversión.

A la semana siguiente, te reúnes con el cliente y le explicas las conclusiones. Esta emocionado por los resultados que le has dado. Pero entonces pregunta ¿cómo podemos usar mejor estos hallazgos?

Técnicamente, tu trabajo como científico de datos consiste en analizar los datos y mostrar lo que está sucediendo. Pero como interprete de los datos, a menudo se te pedirá que hagas recomendaciones sobre cómo otros deben usar los resultados.

Por lo tanto, le recomiendas al vicepresidente de ventas que utilice la hoja de cálculo para mostrar los resultados y enfocarse en los objetivos más probables y ver qué tan bien funciona. Esto hará que el equipo de ventas sea más productivo de inmediato y dirá si el modelo predictivo necesita más ajustes.

También recomiendas investigar qué esta pasando con el marketing y averiguar si es necesario realizar cambios en la estrategia.

El vicepresidente de ventas esta de acuerdo con las sugerencias y organiza una reunión para mostrar los resultados y te solicita unas diapositivas resumiendo los resultados y recomendaciones para que puedas presentarlas en la reunión.

De esta forma, has terminado con éxito tu primer proyecto de ciencia de datos en el trabajo, y finalmente entiendes lo que siempre te habían comentado: la ciencia de datos no se trata solo de las técnicas, los algoritmos o las matemáticas. No se trata solo de la programación y la implementación. Es un campo verdaderamente multidisciplinario, que requiere que el profesional traduzca entre la tecnología y las preocupaciones de negocios. Esto es lo que hace que la carrera de la ciencia de datos sea tan difícil y tan valiosa.

Con esto finalizamos la explicación. Ya debes tener una idea de lo que hace un científico de datos, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?

Opción 1: El científico de datos espera que alguien le diga exactamente qué hacer.

Respuesta Incorrecta. El científico de datos interpreta los problemas que presenta la empresa y busca una forma de solucionarlos a través de Machine Learning.

Opción 2: Si no se cuenta con los datos disponibles para solucionar un problema se deja de lado el proyecto por completo

Respuesta Incorrecta. En caso de no contar con datos disponible el científico de datos deberá buscar una forma para obtenerlos e inclusive indicar la mejor manera para recolectarlos.

Opción 3: Una vez obtenido el modelo con los mejores resultados se finaliza todo el trabajo del científico de datos

Respuesta Incorrecta. Obtenido el modelo se de presentar los resultados de una forma en que todos los involucrados la entienda y puedan tomar acciones de acuerdo a ellos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *