Las estrategias que las compañías utilizan para aproximarse al machine learning, sin duda uno de los desarrollos analíticos con más posibilidades de cara al futuro, tienen un problema fundamental: en el 87% de las ocasiones, se quedan en simples experimentos que nunca son puestos en producción.
¿Qué lleva a que muchas compañías, tomando decisiones racionales, adopten con algo como el machine learning una actitud meramente exploratoria, e incluso después de acometer cuantiosas inversiones, de incorporar científicos de datos a su plantilla y de invertir recursos, tiempo y dinero en ello, no sean capaces de poner esos desarrollos en producción?
Sencillamente, la mentalidad experimental. Durante años, nos hemos empeñado en afirmar que el machine learning, que en realidad es una disciplina con muchas décadas de historia que simplemente detuvo temporalmente su progreso porque la tecnología aún no era capaz de posibilitar una potencia de análisis determinada, era algo que para acometer, necesitabas rodearte de equipos de científicos de datos, que armados con lenguajes de programación como Python, R y similares, desarrollarían herramientas ad hoc para llevar a cabo los complejísimos análisis necesarios para diseñar y educar los míticos algoritmos. La totalidad del proyecto se planificaba como eso, un experimento. Consultes la fuente que consultes, sea el popularísimo curso de Andrew Ng, o aunque se titule «Machine learning for average humans« o incluso «Absolute beginning into machine learning«, insiste en la necesidad de aprender a programar y de revisar y reforzar nuestros cimientos de estadística, como si de verdad necesitásemos desarrollar unas herramientas de machine learning que, en realidad, llevan ya bastante tiempo desarrolladas.
¿Por qué creemos – erróneamente – que para hacer machine learning es preciso empezar desde cero y desarrollar las herramientas necesarias para ello? ¿A alguien se le ocurriría dedicarse a contratar ingenieros de software para desarrollar una herramienta para llevar la contabilidad de su compañía? No, ¿verdad? Sencillamente, se escoge una herramienta de contabilidad, y se utiliza. Pues la única diferencia entre la contabilidad y el machine learning es la materia prima de la que parten: por lo general, los datos contables con los que alimentamos nuestras cuentas están perfectamente disponibles, se calculan de manera razonablemente estandarizada, y no generan dudas sobre su procedencia. Y sin embargo, los datos con los que abastecemos nuestros análisis de machine learning pueden ser, en ocasiones, algo más difíciles de obtener, de localizar o de preparar. Eso es todo. Hablamos, en realidad, de un problema de cultura de datos, de desarrollar una mentalidad en nuestra compañía con respecto a la importancia de los datos, de reinterpretar nuestra cadena de valor para poder obtener datos a los que posiblemente no dábamos importancia o no recogíamos. Si disponemos de los datos, analizarlos mediante machine learning debería ser, simplemente, una cuestión de aplicar herramientas adecuadas para ello. Si en lugar de simplemente utilizar esas herramientas te dedicas a intentar inventarlas, darás a tu proyecto una dimensión absurda y, seguramente, no lograrás ponerlo en producción.
Si te dicen que poner en marcha un proyecto de machine learning en tu compañía te va a exigir contratar a uno o varios científicos de datos y escribir nosecuántos programas en Python o en R, entra en modo pánico y da marcha atrás. Replantéalo radicalmente con personas que sepan de verdad de lo que están hablando, porque no debería ser así. Si continúas con un proyecto estructurado así, terminarás no solo reinventando la rueda, sino además, con un proyecto para hacer una rueda que será mucho peor que las ruedas ya existentes, y que además, estará sujeto con alfileres, como todos los experimentos de ese tipo llevados a cabo en compañías no especializadas en el desarrollo de herramientas. Las posibilidades de que ese tipo de experimentos acaben realmente puestos en producción, que es la única métrica válida para evaluarlos, son tan escasas como ese 13% que se cita al principio de este artículo. Tienes un 87% de posibilidades de perder tiempo, esfuerzo y dinero. Simplemente, no lo hagas.
El machine learning hace ya tiempo que superó la fase experimental, pasó a la fase de servicio para convertirse en MLaaS, machine learning as a service, y está ya incluso entrando en la fase de commodity. Si quienes quieren poner en marcha un proyecto de machine learning en tu compañía ignoran esa realidad y pretenden volver atrás a la fase experimental, es que no saben de qué están hablando, que están mal orientados, o que alguien les ha querido vender una moto estropeada. Es lo mismo que si te traen a un montón de ingenieros para desarrollar una hoja de cálculo: no, mire usted, hojas de cálculo ya existen, no necesito crear una. Pongamos las cosas en su sitio. En algún sitio, habrá competidores tuyos utilizando herramientas estándar para hacer las cosas que están moviéndose mucho más rápido que tu compañía.
Aplicar machine learning no es sencillo: son procedimientos analíticos complejos en los que las fases de definición de objetivos y de recolección y transformación de datos se llevarán un porcentaje muy elevado del esfuerzo del proyecto. No son proyectos triviales. Pero tampoco son absurdamente complejos, ni requieren expertos en la construcción de herramientas analíticas experimentales, porque esas herramientas analíticas hace ya mucho tiempo que están construidas. Si abandonamos esa absurda mentalidad experimental en machine learning, producto de la ignorancia y del temor reverencial, seguro que conseguimos avanzar mucho más rápido.
Si tienes proyectos de Ciencia de datos, Machine Learning o IoT nuestro equipo esta a tu disposición.
Fuente: Enrique Dans