Roles de Científico de Datos

Según varios expertos, un científico de datos es esa mezcla única de habilidades que puede desentrañar las ideas de los datos y contar una historia fantástica a través de los datos.

A través de los tiempos, el término de Científico de Datos sigue siendo controvertido, existe un cierto debate entre profesionales y académicos acerca de lo que significa y si es diferente de la analítica de datos y las estadísticas que las empresas han priorizado durante mucho tiempo.

Sin embargo, una de las diferencias más sustanciales es la cantidad de datos procesados en la actualidad, en comparación con hace una década. En 2020, el mundo generará 50 veces más datos que los que generamos en 2011; en promedio Google procesa más de 60.000 búsquedas cada segundo, 5.500 millones por día.

Con esto en mente, la Ciencia de Datos puede ser considerada una solución interdisciplinaria a la explosión de datos que toma viejos enfoques de análisis de datos y utiliza máquinas para aumentar y escalar sus efectos en conjuntos de datos más grandes.

Entonces, ¿cómo es un Científico de Datos? El rasgo dominante entre los Científicos de Datos es una intensa curiosidad: el deseo de ir por debajo de la superficie de un problema, encontrar las preguntas adecuadas y presentarlas en un conjunto muy claro de hipótesis que puedan ser probadas.

Los datos, y un enfoque sistemático para descubrir verdades sobre el mundo que nos rodea, han cambiado el mundo.

Más que nada, lo que los Científicos de Datos hacen es hacer descubrimientos mientras buscan información en los datos.

Para hacer Ciencia de Datos, tienes que ser capaz de encontrar y procesar grandes conjuntos de datos. A menudo necesitarás entender y usar habilidades de programación, matemáticas y comunicación técnica.

Y lo que es más importante, es necesario tener un sentido de curiosidad intelectual para entender el mundo a través de los datos, y no dejarse disuadir fácilmente por los obstáculos.

Antes de que veamos las habilidades que se necesita para convertirse en un Científico de Datos, debes estar consciente en los diferentes roles dentro del campo en expansión de la Ciencia de los Datos. Mientras que algunas compañías pequeñas pueden recurrir a un científico de datos que lo haga todo, lo más frecuente es que un equipo de ciencias de datos se apoye en diferentes miembros del equipo para llevar a cabo diferentes tareas.

Si bien hay algunos aspectos básicos que todo científico de datos debe conocer, por ejemplo, estadísticas básicas, los roles de la ciencia de datos pueden variar significativamente en sus demandas y expectativas.

Veamos algunas de las amplias categorías de roles que a menudo se agrupan bajo el término genérico de Ciencia de Datos.

Científico de Datos

Una definición de un científico de datos es alguien que conoce más programación que un estadístico, y más estadísticas que un ingeniero de software. Los científicos de datos afinan los modelos estadísticos y matemáticos que se aplican a esos datos. Esto podría implicar la aplicación de conocimientos teóricos de estadística y algoritmos para encontrar la mejor manera de resolver un problema de datos. Por ejemplo, un científico de datos puede usar datos históricos para construir un modelo que prediga el número de incumplimientos de tarjetas de crédito en el mes siguiente.

Un científico de datos será capaz de ejecutar proyectos de ciencias de datos de principio a fin. Pueden identificar un problema de negocio, almacenar y limpiar grandes cantidades de datos, explorar conjuntos de datos para identificar perspectivas, construir modelos predictivos y tejer una historia en torno a los hallazgos.

Dentro de la amplia categoría de científicos de datos, es posible que se encuentren estadísticos que hacen hincapié en los enfoques estadísticos de los datos y administradores de datos que se concentren en dirigir equipos de ciencias de datos.

Los científicos de datos son el puente entre la programación y la implementación de la ciencia de datos, la teoría de la ciencia de datos y las implicaciones comerciales de los datos.

Ingeniero de datos

Los ingenieros de datos son ingenieros de software que manejan grandes cantidades de datos y a menudo preparan el terreno para que los científicos de datos realicen su trabajo de manera eficaz. Son responsables de administrar los sistemas de bases de datos, escalar la arquitectura de datos a múltiples servidores y escribir consultas complejas para buscar a través de los datos. También pueden limpiar conjuntos de datos e implementar solicitudes complejas que provienen de científicos de datos, por ejemplo, toman el modelo predictivo del científico de datos y lo implementan en un código listo para la producción.

Los ingenieros de datos, además de conocer una amplia gama de lenguajes de programación, por ejemplo, Python o R, suelen conocer algunas tecnologías de bases de datos.

Con la amplia gama de ingenieros de datos, podrás encontrar arquitectos que se centran en la estructuración de la tecnología de gestión de modelos de datos y administradores de bases de datos que se centran en la gestión de soluciones de almacenamiento de datos.

Analista de datos/negocio

Los analistas de datos examinan los datos y proporcionan informes y visualizaciones para explicar qué información esconden los datos. Cuando alguien ayuda a personas de toda la empresa a comprender consultas específicas con gráficos, está desempeñando el papel de analista de datos o analista de negocios. De alguna manera, puedes pensar en ellos como científicos de datos junior, o como el primer paso en el camino hacia un trabajo tradicional de ciencia de datos.

Los analistas de negocio son un grupo que está adyacente a los analistas de datos, y están más preocupados con las implicaciones de negocio de los datos y las acciones que deben resultar, ¿debería la empresa invertir más en el proyecto X o en el proyecto Y? Los analistas de negocio aprovecharán el trabajo de los equipos de ciencias de la información para comunicar una respuesta.

Por lo general estos puestos son ocupados por graduados de nivel inicial con experiencia laboral limitada.

Ingeniero de Machine Learning

Los ingenieros de Machine Learning son muy buscados y son los principales responsables de la construcción, implementación y gestión de proyectos de Machine Learning.

La mayoría de los roles de Machine Learning requerirán el uso de Python o C/C++, aunque a menudo se prefiere Python. Los antecedentes en la teoría detrás de los algoritmos de Machine Learning y la comprensión de cómo pueden ser implementados eficientemente en términos de espacio y tiempo son críticos.

El camino más fácil hacia una carrera como ingeniero de Machine Learning, aunque de ninguna manera es la única, es comenzar con una formación en ingeniería de software y luego obtener las estadísticas y el conocimiento de Machine Learning necesario para asumir el rol. Algunos también comienzan como académicos más involucrados con la teoría de Machine Learning, quienes luego desarrollan sus habilidades de ingeniería de software.

Habilidades en las ciencias de la información que deben tener cada una de las personas dentro de estas áreas:

Mente analítica

Necesitarás una mentalidad analítica general para obtener buenos resultados en la ciencia de los datos. Muchos de los datos de la ciencia involucran la resolución de problemas. Tendrás que ser experto en enmarcar esos problemas y aplicar metódicamente la lógica para resolverlos.

Matemáticas

Cuando los datos son grandes, a menudo se vuelven difíciles de manejar. Necesitarás usar las matemáticas para procesar y estructurar los datos con los estás tratando. Exactamente cuánto y de qué tipo depende de las características específicas de su función. Pero es seguro decir que el científico de datos típico estará familiarizado con las estadísticas, el álgebra lineal y el cálculo.

Estadísticas

Necesitas saber estadísticas para jugar con los datos. Las estadísticas te permiten separar y cortar los datos, extrayendo las ideas que necesitas para sacar conclusiones razonables. Debes conocer las estadísticas para inferir percepciones desde conjuntos de datos más pequeños a poblaciones más grandes. Esta es la ley fundamental de la ciencia de datos.

Análisis de datos

El proceso de convertir números en ideas es de lo que se trata. En el mundo de los negocios, un analista de datos se centrará en explorar grandes conjuntos de datos y en conectar esos datos con acciones que puedan impulsar el impacto en el negocio.

Visualización de datos

Terminar el análisis de datos es solo la mitad de la batalla. Para impulsar el impacto, tendrás que convencer a otros para que crean y adopten tus ideas. Nosotros somos criaturas visuales, por lo que nos resulta mucho más fácil procesar la información examinando una tabla o gráfico, cuidadosamente creado, que examinando una hoja de cálculo.

Algoritmos

En pocas palabras, un algoritmo es un conjunto bien definido de pasos para resolver un problema específico. Los científicos de datos usan algoritmos para hacer que las computadoras sigan un cierto conjunto de reglas o patrones. Comprender cómo utilizar las máquinas para hacer su trabajo es esencial para procesar y analizar conjuntos de datos demasiados grandes para que la mente humana los procese.

Machine Learning

Es el conjunto de algoritmos utilizados para hacer predicciones basadas en un conjunto de información conocida. Es lo que permite a Amazon recomendarte productos basados en el historial de compras sin intervención humana directa. Es un grupo de algoritmos que utilizarán la potencia de la máquina para desenterrar información para ti.

Aprendizaje profundo

Se refiere típicamente al conjunto de algoritmos de Machine Learning que extiende una red neuronal básica a niveles mucho más altos de complejidad, haciéndolos capaces de aprender con conjuntos de datos mucho más grandes y realizando muchas más operaciones que los modelos estándar. Los datos suelen ser así de grandes en el procesamiento de imágenes y en el procesamiento de señales.

Procesamiento del Lenguaje Natural (NPL)

Utiliza técnicas de la informática, la lingüística y Machine Learning para procesar el lenguaje humano, normalmente en forma de texto no estructurado. Las aplicaciones comunes incluyen: clasificación de textos, por ejemplo ¿es este artículo de noticias falso o real?, análisis de sentimientos, por ejemplo ¿cuánto les gusta a los clientes mi producto?, y el modelado de temas, por ejemplo ¿cuáles son algunos de los temas comunes de los que habla la gente?

Visión para los negocios

Los datos significan poco sin su contexto. La mayoría de las empresas dependen de sus científicos de datos no solo para extraer conjuntos de datos, sino también para comunicar sus resultados a las distintas partes interesadas y presentar recomendaciones sobre las que se puede actuar. La comunicación es una habilidad subestimada que puede hacer o romper un proyecto.

Los mejores científicos de datos no solo tienen la capacidad de trabajar con grandes y complejos conjuntos de datos, sino que también comprenden las complejidades de la empresa u organización para la que trabajan. Tener un conocimiento general del negocio les permite hacer las preguntas correctas, y proponer soluciones y recomendaciones perspicaces que realmente sean factibles dadas las limitaciones que el negocio pueda imponer.

Dominio Experiencia

Como científico de datos, debes tener un conocimiento profundo de la compañía para la que trabaja y también debes entender la industria más grande dentro de la cual opera para que tus ideas tengan sentido. Los datos de un estudio de biología pueden tener un contexto drásticamente diferente al de un estudio de psicología bien diseñado. Deberías saber lo suficiente como para hablar el mismo lenguaje que se habla dentro de la industria.

Las habilidades antes mencionadas son fundamentales para obtener las habilidades y experiencia adecuada para cualquiera de los roles explicados en un principio. Lo importante acá es nunca dejar de aprender sobretodo dentro de esta área que esta en constante crecimiento.

2 thoughts on “Roles de Científico de Datos”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *