También pueden (y logran) desviar la atención de los tomadores de decisiones. Y es que la ciencia de datos rara vez deja de atraer el interés de los líderes empresariales y de TI por igual en estos días. Pero falla.
De hecho, las iniciativas de ciencia de datos que aprovechan:
● Los métodos científicos
● Los procesos
● Los algoritmos
● Y los sistemas tecnológicos…
… para extraer una variedad de conocimientos de los datos estructurados y no estructurados.
Por ello pueden fallar de muchas maneras, lo que lleva a una pérdida de tiempo, dinero y otros recursos.
Los proyectos defectuosos pueden resultar en más daño que beneficios para una empresa, al desorientar a los tomadores de decisiones.
Estas son algunas de las razones más comunes por las que los proyectos de ciencia de datos no funcionan como se esperaba.
Los datos incorrectos generan una ciencia de datos deficiente, por lo que es de vital importancia tomarse el tiempo para garantizar que los datos sean de alta calidad.
Eso es cierto para cualquier empresa de análisis y, ciertamente, es el caso de la ciencia de datos.
“Los datos incorrectos o sucios hacen que las iniciativas de ciencia de datos sean imposibles. Debe asegurarse de que sus datos estén limpios y listos para los analistas de datos. Si no es así, es una completa pérdida de tiempo”, dice Neal Riley, CIO de Adaptavist, una consultora de transformación digital.
Riley explicó que, cuando las empresas usan datos no limpios para proyectos de ciencia de datos:
“Terminan mirando modelos que tienen resultados extraños [y] viendo que no representan la realidad o el proceso de una manera que mejore las cosas”.
A veces, la calidad de los datos es deficiente debido a sesgos o discrepancias en los conjuntos de datos.
En este sentido, el CIO de la aseguradora Worldwide Assurance for Employees of Public Agencies (WAEPA), Brandon Jones, recordó que en algunas organizaciones se utilizan varios sistemas para administrar el negocio, y no es infrecuente que las empresas experimentadas, incluso, tengan sistemas heredados a los que todavía se puede acceder [para] referencia o validación.
“En muchos casos, el negocio cambió con cada sistema, por lo tanto, dio lugar a diferentes procesos y / o formas de contar una métrica dentro”, reconoce Brandon Jones.
Para él, esta puede ser una de las principales causas de fracaso de la ciencia de datos: los resultados pueden estar inflados debido al doble recuento basado en un proceso comercial modificado.
“Para resolver este problema, las organizaciones deben establecer el nivel de su programa de análisis de datos. Esto significa esbozar una fecha específica en la que los datos se pueden validar y todos entienden y aceptan que este es el estándar común con el que trabajará la organización”, afirmó.
¿Cómo puede tener éxito una iniciativa de ciencia de datos si los miembros del equipo no comprenden el problema comercial que están tratando de resolver? Y, sin embargo, los equipos de ciencia de datos a veces tienen esta deficiencia cuando se les pide que asuman proyectos.
“La definición de un problema a menudo se deja en manos de los científicos de datos cuando, de hecho, la definición de un problema [comprende] casos de negocios que abarcan el trabajo y definen el retorno potencial de la inversión”, dice Michael Roytman, científico de datos en jefe de la empresa de seguridad cibernética. Seguridad de Kenna.
Es por ello que Marc Johnson, asesor senior y CIO virtual de la firma de consultoría de atención médica Impact Advisors, recomienda a los usuarios comerciales que buscan aprovechar la ciencia de datos deben hacer preguntas de sondeo sobre el problema.
“Al igual que con cualquier proyecto, dedique tiempo a bloquear el alcance del problema para identificar las fuentes correctas de los datos”, dice Johnson. Hace unos años me pidieron que produjera un producto de análisis para una empresa de 20 años. No hubo ninguna investigación con la base de clientes para ver si había un mercado para ello. No se identificaron las métricas para las que el cliente deseaba ver las analíticas. Todo se basó en que la competencia afirmaba que tenía un producto de análisis y se oían rumores de que los clientes lo querían“, recordó.
Johnson afirmó que el proyecto duró dos años sin rumbo debido a la definición borrosa de cuál era el problema que estaban intentando resolver.
Otra forma segura de fracasar con la ciencia de datos es no proporcionar los tipos específicos de datos necesarios para abordar un problema en particular.
Lanzar un enorme volumen de datos a un problema no es la respuesta.
“Existe la suposición de que los datos grandes conducirán a conocimientos, lo que en realidad rara vez es el caso. Los conjuntos de datos inteligentes, personalizados y, a menudo, más pequeños son los que proporcionan modelos robustos generalizables”, señala Roytman.
Por su parte, Johnson considera que, para obtener valor de la ciencia de datos hay que hacer un esfuerzo continuo para continuar la recopilación de datos de las fuentes más relevantes.
“La creación no [es] un evento de una sola vez”, advierte .
También señala que, puesto que los datos se recopilan o compran de diversas fuentes, los equipos deben asegurarse de que cualquier modificación en los mismos no distorsione los resultados y sacrifique la calidad de todo el conjunto de datos. Por ello deben asegurarse de que no haya problemas de privacidad, legales o éticos con el conjunto de datos.
Los equipos deben ser transparentes con los datos que utilizaron para crear un modelo determinado.
“Los proyectos de ciencia de datos fracasan cuando las personas no confían en el modelo o no comprenden la solución. La forma de combatir esto es que debe poder ‘mostrar las matemáticas’ y comunicarlas a las partes interesadas que podrían no tener las habilidades técnicas o estadísticas”, dice Jack McCarthy, CIO del Estado de Nueva Jersey – Judicial.
Los especialistas en la ciencia de datos deben explicar:
● De dónde provienen los datos
● Qué hicieron para calcular los modelos
● Y proporcionar acceso a todos los datos relevantes.
“La transparencia puede ser clave para un proyecto exitoso”, dice McCarthy.
Un ejemplo de esto es el algoritmo de evaluación de riesgos que se utiliza en Nueva Jersey.
“Proporcionamos a todas las partes interesadas un informe que muestra qué casos en el historial de un acusado caen en qué categoría y cómo se califica cada uno. Esto se proporciona a todos los adversarios para que tengan la oportunidad de analizar cada caso y cuestionar su inclusión. Todo se hace de forma transparente”, asegura McCarthy.
Roytman reconoce que, a veces, el grupo empresarial que solicita información o el propio equipo de ciencia de datos simplemente no está dispuesto a concluir que los hallazgos fueron inciertos, poco claros o no lo suficientemente sólidos para una aplicación comercial.
“Es una respuesta igualmente aceptable y valiosa decir: ‘El modelo no es lo suficientemente bueno para generar ROI [Retorno de la Inversión] para el negocio’”, afirma.
El científico de datos en jefe de la empresa de seguridad cibernética. Seguridad de Kenna explica que su equipo pasó dos meses construyendo un modelo de clasificación de vulnerabilidades que generaría, automáticamente, una enumeración de debilidades comunes para una vulnerabilidad.
“El modelo funcionó. Fue una respuesta sólida a un problema a nivel de curso de posgrado. Pero no funcionó lo suficientemente bien como para ser valioso para nuestros clientes. [La] precisión fue demasiado baja. Así que descartamos el proyecto a pesar de que habíamos invertido tiempo y obtenido resultados”, reconoció.
Los esfuerzos de la ciencia de datos necesitan un campeón en el C-suite para garantizar que los proyectos obtengan suficientes recursos y soporte.
“Ayuda si es el CIO. Consideramos que la ciencia de datos es una parte integral de nuestra operación y me he asegurado de ser campeón de nuestros esfuerzos”, asegura Riley.
Insiste en que, aún si los CIO no son los campeones internos de la ciencia de datos, deberían ser responsables de mantener seguros toda la data involucrada. Pero la participación debería ir mucho más allá de la seguridad.
“Aprovechar al máximo la información que se captura es lo que yo llamaría la responsabilidad de un CIO moderno. Con todos estos datos a mano, tiene los medios para aprender de ellos automatización-de-procesos-el-imperativo-de-la-nube y usarlos de manera inteligente, y eso es algo que los CIO pueden utilizar para ayudar a sus organizaciones de manera transversal”, asegura Riley.
En este sentido, explicó que Adaptavist ha aprovechado al máximo su trabajo de ciencia de datos para determinar nuevas tácticas y modificaciones que puede realizar con el proceso de ventas.
“No ha tenido nada que ver con nuestro producto o la infraestructura de TI, el marketing, nada de eso. Nos ha ayudado más desde el punto de vista de la optimización de procesos de negocio, para manejar y gestionar mejor los clientes potenciales desde las ventas internas”, explicó.
La brecha de habilidades para plagar muchos aspectos de la TI. La ciencia de datos no es una excepción.
Muchas organizaciones simplemente no cuentan con las habilidades necesarias para mantener proyectos u obtener el máximo valor.
“Los científicos de datos de buena fe tienen una gran demanda, son difíciles de conseguir y caros. El puesto suele requerir un doctorado en física o ciencias, así como la capacidad de escribir código en R y Python”, refiere Tracy Huitika, CIO de ingeniería y datos de Beanworks, un proveedor de automatización de cuentas por pagar basado en la nube.
Johnson coincide y destaca la falta de talento operativo para continuar administrando el proyecto como una de las principales razones por las que fracada los de ciencia de datos, incluso cuando llegan a la implementación.
“Tomar a un científico de datos brillante para crear el modelo sin un plan para ejecutar las operaciones de mejora continua, con ajustes para el mercado y los cambios de datos es como diseñar un automóvil y entregarle las llaves a un niño de 10 años”, resaltó.
Las empresas necesitan disponer de los conjuntos de habilidades adecuados para mantener el modelo después de que haya entrado en producción, ya sea contratando o recurriendo a expertos externos, como consultores que estén bien entrenados en ciencia de datos.
¿Qué pasa si un problema en particular no requiere ciencia de datos como solución en primer lugar?
Este uso equivocado de la disciplina puede conducir al fracaso, por lo que vale la pena pensar mucho en cuándo sí y cuándo no aplicar métodos, procesos y herramientas de esta especialidad.
Para Riley, una de las cosas más importantes que provocará el fracaso de los proyectos de ciencia de datos es si esta, los algoritmos y/o el aprendizaje automático no son siquiera la solución adecuada.
“Es posible que no necesite un modelo de aprendizaje automático en absoluto. Es posible que necesite una regresión simple, y puede dedicar mucho tiempo y esfuerzo a revisar todas las diferentes permutaciones sin usar la ciencia de datos. Quedamos atrapados en una de esas situaciones en las que buscábamos modelos de ciencia de datos financieros para visualizar predictores del éxito futuro de las líneas de nuestro negocio. Resultó que lo mejor que se pudo utilizar era, simplemente, una regresión estadística”, ejemplificó Riley.