10 errores que comenten los científicos aficionados de datos

Cada vez más empresas están impulsadas por los datos, el mundo está cada vez más conectado y parece que todas las empresas necesitarán una práctica de ciencias de la información. Por lo tanto, la demanda de científicos de datos es enorme. Aún mejor, todo el mundo reconoce la falta de talento en la industria.

El análisis de datos puede transformar la forma en que funcionan las empresas. Con las empresas que tienen toneladas de datos hoy en día, el análisis de datos puede ayudar a las empresas a entregar productos y servicios valiosos de los clientes.

Sin embargo, convertirse en un científico de datos no es fácil. Necesitas una mezcla de resolución de problemas, pensamiento estructurado, codificación y varias habilidades técnicas, entre otras, para ser verdaderamente exitoso. Si eres de una formación no técnica y no matemática, es muy probable que gran parte de tu aprendizaje ocurra a través de libros y cursos en video. La mayoría de estos recursos no te enseñan lo que la industria está buscando en un científico de datos.

Esta es una de las razones por las que los aspirantes a científicos de datos están luchando para cerrar la brecha entre la auto educación y los trabajos del mundo real.

A continuación de presento algunos de los principales errores que cometen los científicos aficionados a los datos, y también analizaremos los pasos que debes tomar para evitarlos.

Error 1: Más aprendizaje, menos práctica

Es bueno comprender la teoría que hay detrás de las técnicas de Machine Learning. Pero si no se aplican, son solo conceptos teóricos.

Uno de los errores más comunes que cometen los novatos en Machine Learning es aprender muchos conceptos sin pensar mucho en sus aplicaciones. Simplemente entenderlos no es suficiente. Este enfoque es ineficiente por tres razones principales:

  • Primero, es lento y desalentador. Si alguna vez te has sentido abrumado por todo lo que hay que aprender, es probable que te hayas hundido en esta trampa.
  • Segundo, no retendrás los conceptos también. Machine Learning es un campo aplicado, y la mejor manera de solidificar las habilidades es practicando.
  • Finalmente, existe un mayor riesgo de que te desmotives y te rindas si no ves cómo lo que estás aprendiendo se conecta con el mundo real.

Por ejemplo, si un principiante aprende un algoritmo, es crucial conocer sus aplicaciones en el mundo real, sus limitaciones y aplicaciones para resolver un problema en particular. El aprendizaje teórico solo es útil si se aplica en la práctica.

Además, funcionalidades como las librerías avanzadas, por ejemplo, Scikit Learn de Python, no dicen explícitamente lo que sucede en segundo plano cuando funcionan. Por esta razón, es mejor aplicar lo aprendido para experimentar con los conceptos. Esto definitivamente ayudará a los principiantes a mantenerse alejados de los errores cuando comiencen a trabajar a grandes proyectos de ciencias de la información.

¿Cómo evitar este error?

No es un concepto nuevo que para obtener una mejor comprensión de lo que se está aprendiendo, debe haber un equilibrio entre la teoría y la práctica. En cuanto conozcas un concepto, puedes dirigirte a Google y encontrar un conjunto de datos o un problema que puedas utilizar. Encontrarás que estas reteniendo ese concepto mucho mejor que antes.

Tendrás que aceptar que no puedes aprender todo de una sola vez, rellena los huecos a medida que practiques y aprenderás mucho más.

Error 2: Ignorar las matemáticas y las estadísticas

La mayoría de las personas que quieren aprender Machine Learning se inspiran en videos de robots, o modelos predictivos, y en algunos casos incluso en los altos salarios. Tristemente, hay un largo camino por recorrer, antes de llegar allí.

Debes conocer cómo funcionan las técnicas antes de aplicarlas en un problema. Aprender esto te ayudará a entender cómo funciona un algoritmo, qué puedes hacer para afinarlo, y también te ayudará a construir sobre las técnicas existentes. Las matemáticas juegan un papel importante aquí, por lo que siempre es útil conocer ciertos conceptos. En el día a día, puede que no necesites saber cálculo avanzado, pero tener una visión general de alto nivel definitivamente ayuda.

En caso de tengas una mente curiosa, o quieras entrar en un rol de investigación, los cuatro componentes clave que necesitas saber antes de sumergirte en Machine Learning son:

¿Cómo evitar este error?

Necesitas aclarar cuatro conceptos básicos antes de bucear en profundidad y estos cuatro conceptos son álgebra lineal, estadísticas, probabilidad y cálculo. Machine Learning es la suma de todas las partes individuales. Hasta que no tengas una idea clara de estos cuatro conceptos, ni siquiera pienses en sumergirte profundamente en el núcleo de Machine Learning. Puedes encontrar toneladas de cursos para aprender estos conceptos en línea, inclusive acá mismo lo puedes hacer.

Error 3: Saltando a lo más profundo

Algunas personas entran en este campo porque quieren construir la tecnología del futuro: vehículos autónomos, robótica avanzada, visión por computadora, entre otros campos. Estos son impulsados por técnicas como el Aprendizaje Profundo y el Procesamiento del Lenguaje Natural. Sin embargo, antes de entrar en esta materia típica, primero hay que dominar los fundamentos de Machine Learning y todo lo que mencionamos en el anterior punto.

¿Cómo evitar este error?

En primer lugar, dominar las técnicas y los algoritmos de Machine Learning “clásico”, que sirven como bloques de construcción para temas avanzados. Es una práctica común que las personas solo practiquen 2-3 problemas y después de resolverlos empiezan a pensar que han dominado los conceptos, pero esto no es cierto. Cuanto más practiques, más preparado estás.

Tienes que saber, que Machine Learning todavía tiene un increíble potencial sin explotar. Aunque los algoritmos ya están maduros, todavía estamos en las primeras etapas de descubrir formas fructíferas de utilizarlos.

Error 4: Aprender múltiples herramientas a la vez

Debido a las diferentes características, usos y características únicas que ofrece cada herramienta, la gente tiende a intentar aprender todas las herramientas a la vez. Esta es una muy mala idea, terminarás por no dominar ninguna de ellas. Ir detrás de múltiples herramientas creará mucha confusión y afectará severamente tus habilidades para resolver problemas en la etapa inicial.

¿Cómo evitar este error?

Escoge una herramienta y quédate hasta que la domines. Si ya has empezado a aprender Python, entonces no te dejes tentar por R, todavía. Sigue con Python, aprende de principio a fin y solo entonces trata de incorporar otra herramienta en tu conjunto de habilidades. Aprenderás más con este enfoque.

Cada herramienta tiene una gran comunidad de usuarios a los que puedes acceder cada vez que te quedes atascado. El objetivo es aprender Machine Learning a través de la herramienta, no la herramienta a través de Machine Learning.

Error 5: No tener un enfoque estructurado para la solución de problemas

El pensamiento estructurado es un proceso de poner un marco a un problema no estructurado. Este te ayudará de muchas maneras:

  • Te ayuda a dividir el enunciado del problema en partes lógicas.
  • Te ayuda a visualizar cómo se está desarrollando el planteamiento del problema y cómo puedes diseñar su enfoque.
  • Ayuda al usuario final o cliente a entender la secuencia de su marco de trabajo de una manera lógica y fácil de entender.

Hay muchas más razones por las que el tener una mentalidad de pensamiento estructurado ayuda. Como puedes imaginar, no tener una mentalidad de pensamiento estructurado es contra intuitivo. Tu trabajo y enfoque de un problema será al azar, perderás la noción de tus propios pasos cuando te enfrentes a un problema complejo.

Cuando vayas a una entrevista, inevitablemente te darán un estudio de caso, una estimación aproximada y un problema de rompecabezas. Debido a la atmosfera llena de presión en una sala de entrevistas y a la limitación de tiempo, el entrevistados observará qué tan bien se estructuran los pensamientos para llegar a un resultado final. En muchos casos, esto puedes ser una forma de romper o sellar el trato para conseguir el trabajo.

¿Cómo evitar este error?

Puedes adquirir una mentalidad de pensamiento estructurado a través de un entrenamiento simple y un enfoque disciplinado. Para mejorar tu pensamiento estructurado puedes seguir estos pasos:

  • Empieza por lo pequeño, apunta a lo grande.
  • Abordar las técnicas de arriba hacia abajo.
  • Evita ser descuidado con la lógica.

Error 6: Centrarse en la precisión del modelo más que en la comprensión del funcionamiento del modelo

La precisión no siempre es lo que busca el negocio. Seguro que un modelo que predice el incumplimiento del préstamo con una precisión del 95% es bueno, pero si no puedes explicar cómo el modelo llegó allí, qué características lo llevaron allí, y cuál fue el pensamiento al construir el modelo, el cliente lo rechazará.

Otro aspecto clave es si el modelo encajará dentro del marco de trabajo existente de la organización. El uso de 10 tipos diferentes de herramientas y librerías fracasará de forma espectacular si el entorno de producción no lo soporta. Tendrás que rediseñar y volver a entrenar el modelo desde cero con un enfoque más sencillo.

¿Cómo evitar este error?

La mejor manera de evitar este error es hablar con las personas que trabajan en la industria. No hay mejor maestro que la experiencia. Puedes practicar cómo hacer modelos más sencillos y luego tratar de explicárselos a personas sin conocimiento técnicos. Luego agrega complejidad al modelo y sigue haciendo esto hasta que incluso no entiendas lo que está sucediendo debajo. Esto te enseñará cuándo detenerte y por qué los modelos sencillos siempre tienen preferencia en las aplicaciones de la vida real.

Error 7: No dedicar tiempo suficiente a la exploración y visualización de los datos

La visualización de datos es una faceta tan maravillosa de Machine Learning, sin embargo, muchos de los aspirantes a científicos de datos prefieren ojearla y llegar a la etapa de construcción del modelo. Este enfoque puede funcionar en las competencias, pero está destinado a fracasar en un trabajo real. Comprender los datos que se le proporcionan es lo más importante que hará, y los resultados de su modelo lo reflejarán.

Al dedicar tiempo a conocer el conjunto de datos y probar diferentes gráficos, obtendrás un conocimiento más profundo del desafío o problema que se te ha encomendado resolver. Te sorprenderías saber cuánta información puedes obtener con solo hacer esto. Surgen patrones y tendencias, se cuentan historias y las visualizaciones son la mejor manera de presentar hallazgos a los clientes.

Trabajar en Machine Learning, hay que ser intrínsecamente curioso. Es una de las mejores cosas, cuanto más curioso seas, más preguntas harás. Esto lleva a una mejor comprensión de los datos que se te dan y también ayuda a resolver problemas que no sabías que existían en primer lugar.

¿Cómo evitar este error?

Practica y mucha practica. La próxima vez que trabajes en un conjunto de datos, dedica más tiempo a este paso. Te sorprenderás la cantidad de información que generarás para ti.

Haz preguntas, pregúntale a tu jefe, a los expertos de dominio, busca soluciones en internet y si no encuentras ninguna, realiza la pregunta en las redes sociales.

Error 8: No trabajar en las habilidades de comunicación

Lo importante aquí es comunicar las ideas de una manera clara, concisa y válida, de modo que otros en la compañía puedan actuar de manera efectiva en base a esas ideas. Las empresas que buscan alguien de Machine Learning están buscando a alguien que pueda traducir de forma clara y fluida sus hallazgos técnicos a un equipo no técnico, como los departamentos de marketing o ventas.

Puedes aprender las últimas técnicas, dominar múltiples herramientas y hacer los mejores gráficos, per si no puedes explicar el análisis a un cliente, fracasarás. Machine Learning es un campo en el que las discusiones e ideas son de suma importancia. No puedes sentarte en un silo y trabajar, necesitas colaborar y entender la perspectiva de otras áreas incluyendo el trabajo con ingenieros, diseñadores, gerentes de productos, operaciones y más.

¿Cómo evitar este error?

Necesitas pulir tus habilidades de comunicación si quieres tener éxito en Machine Learning. Al aprender a comunicar los conceptos visualmente, has dado el primer paso importante para aprender a presentarlos a una audiencia. El proceso de armar una presentación de diapositivas también te ayudará a organizar los pensamientos y a entender mejor el trabajo que estás haciendo.

Otra cosa es, tratar de explicar los términos de Machine Learning a una persona no técnica. Te ayudará a analizar mejor el problema y averiguar qué tan bien has trabajado en él. Si trabajas en una pequeña o mediana empresa, busca a una persona en el departamento de marketing o ventas y haz este ejercicio con ella, te ayudará inmensamente a largo plazo.

Error 9: Dar prioridad a las herramientas y bibliotecas sobre el problema empresarial

Tomemos un ejemplo para entender por qué esto es un error. Imagina que te han dado un conjunto de datos sobre los precios de la vivienda y necesitas predecir el valor de los bienes raíces futuros. Hay más de 200 variables, incluyendo el número de edificios, habitaciones, número de inquilinos, tamaño de la familia, tamaño del patio, etc. Hay una buena posibilidad de que no seas consciente de lo que significan algunas variables. Todavía puedes construir un modelo con una buena precisión, pero para obtener este valor tuviste que eliminar algunas características. Resulta que una de esas variables que eliminaste del análisis era un elemento crucial en un escenario del mundo real. Esto es un grave error.

Tener un conocimiento sólido de las herramientas y bibliotecas es excelente, pero solo te llevará hasta cierto punto. Combinando ese conocimiento con el problema empresarial que plantea el dominio es donde interviene un verdadero científico de datos. Debes estar al tanto de por lo menos los desafíos básicos en la industria en la que estás interesado, o a la que estás solicitando empleo.

¿Cómo evitar este error?

Cuando solicites un puesto de Machine Learning en una industria en particular, lee sobre cómo las empresas en ese campo están utilizando Machine Learning. Busca conjuntos de datos y problemas relacionadas con esa industria y trata de resolverlos, esto te dará un gran impulso.

Error 10: Confiar únicamente en las certificaciones y títulos

Desde que Machine Learning se hizo popular, las certificaciones y los títulos han aparecidos en casi todas partes. Un buen título en un campo relacionado puede aumentar tus habilidades, pero no es suficiente ni suele ser el factor más importante. No estoy diciendo que obtener un título o una certificación sea una tarea fácil, pero no se ve confiar únicamente en ellos. En la mayoría de los casos, lo que se enseña en un entorno académico es simplemente demasiado diferente de Machine Learning aplicado en las empresas.

Adicionalmente, hay demasiados cursos en línea que están siendo impartidos y completados por miles y miles de aspirantes. Si alguna vez agregaron un valor único a su hoja de vida, ese ya no es el caso. A los gerentes de contratación no les importa mucho estas hojas de papel, ponen mucho más énfasis en su conocimiento y en cómo lo has aplicado en situaciones prácticas de la vida real.

Esto se debe a que tratar con los clientes, manejar los plazos, entender cómo funciona el ciclo de vida de un proyecto de Machine Learning, cómo diseñar tu modelo para que encaje en el marco de negocios existente, estas son solo algunas de las cosas que necesitarás saber para tener éxito. Solo una certificación o título no te calificará para ello.

¿Cómo evitar este error?

Las certificaciones son valiosas, pero solo cuando se aplica ese conocimiento fuera del salón de clases y se pone a la vista. Realiza las prácticas pertinentes, incluso si son a tiempo parcial. Ponte en contacto con personas dentro de esta área para que converses con ella. Sal al mundo real y trata de aprende cómo funciona la industria.

Error Extra: No estudiar de una manera consistente

Esto aplica a todas las personas no solamente a los principiantes. Tenemos tendencia a distraernos fácilmente. Estudiamos durante un período de tiempo, luego le damos un descanso durante los siguientes meses. Cuando tratamos de volver al ritmo de las cosas después de eso es una pesadilla. La mayoría de los conceptos anteriores se olvidan, las notas se pierden y se siente como si hubiéramos desperdiciado los últimos meses.

Debido a las diversas cosas que tenemos en marcha, encontramos excusas y razones para no volver a estudiar. Pero esto es finalmente nuestra pérdida, si Machine Learning fuera tan fácil como abrir un libro de texto y estudiarlo todo, todo el mundo sería uno hoy en día. Exige un esfuerzo y un aprendizaje constante, algo que la gente no aprecia hasta que es demasiado tarde.

¿Cómo evitar este error?

Planifica cómo y qué quieres estudiar y establece plazos para ti mismo. Por ejemplo, si quieres aprender un concepto en particular, establece un plan y date un número fijo de días o semanas para aprender ese tema y luego practicarlo. Si practicas continuamente, te dará claridad en la toma de decisiones, te dará control sobre el futuro y una sensación de satisfacción personal.

Esta lista no es exhaustiva, ya que hay muchos otros errores que cometemos cuando estas iniciando dentro de este mundo, estos fueron solamente las más comunes.

Con esto finalizamos la explicación. Ya tdebes saber los errores que debes evitar al momento de iniciarte en Machine Learning, por lo tanto te dejo la siguiente pregunta, ¿Cuáles de las siguientes afirmaciones crees tú que sea cierta?

Opción 1: Al comenzar a estudiar debo enfocarme en conocer toda la teoría de Machine Learning y a su vez en enfocarme en obtener la mayor procentaje de precisión en todos los modelos que construya

Respuesta Incorrecta. Al comenzar a estudiar te debes enfocar tanto en la teoría como en la práctica y te debes enfocar en los requerimientos no necesariamente debes obtener el mejor de los resultados.

Opción 2: Para eviar los problemas de comunicación debo aprender a realizar las mejores gráficas posibles con los conjuntos de datos disponibles y los que haya generado el modelo.

Respuesta Correcta.

Opción 3: Una vez que haya entendido la parte básica de Machine Learning puedo empezar a estudiar otras áreas como Visión Computacional o Aprendizaje Profundo.

Respuesta Correcta.

3 thoughts on “10 errores que comenten los científicos aficionados de datos”

  1. Respuesta al vídeo, Opción 3

    En Venezuela, cuales son las empresas o industrias que trabajan con ciencia de datos ?

  2. Hola Rafael, la pregunta no es tanto que trabajen con Ciencia de Datos porque la gran mayoría trabaja y analizan los datos, pero no necesariamente implementen algoritmos de ML. Por ejemplo, yo trabaje en la “antigua PDVSA” y el manejo y análisis de datos era impresionante y desde allí me llamo la atención este mundo, no creo que lo sigan haciendo porque se trabajaba con licencias muy caras. Ahora bien, que trabaje con ML hace poco conocí una empresa en Caracas, no recuerdo el nombre, que trabajaba con los planos de las ciudades y en función de eso querían crear ciudades inteligentes, esta empresa había hecho proyectos en Medellín y otras ciudades de Colombia y me pareció interesante su trabajo.

  3. GRACIAS Ligdi por la respuesta, soy un entusiasta, de este tema, estoy haciendo tus cursos, te felicito e incluso admiro, poco se consigue en español un canal o página con el orden estructurado como lo tienes tú.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *