
Va In Crescendo la tendencia a incorporar datos para la toma de decisiones en diferentes ámbitos, en primer lugar tenemos la recolección masiva de datos casi como un hábito en todas las industrias y sobre todo en el Estado. Lo cual es una excelente práctica, pero siempre debemos tener en cuenta que el objetivo de medir, recolectar, clasificar etc. los datos no es en sí obtener cifras, o información sino poder transformar esa información en conocimiento de valor para el proyecto en cuestión. Es decir obtener Insights. Aunque la verdadera pregunta que en deberíamos hacernos es: dado un problema que eventualmente quisiéramos resolver, ¿Qué data necesitaríamos para poder resolverlo? (Recomendado realizar esta pregunta antes de la recolección de datos). O bien si ya no tenemos esta posibilidad, dado un Data Set, ¿A qué situaciones realmente puede aportar insights de valor?
Una vez que comenzamos a sumergirnos en las grandes masas de datos debemos tener en cuenta conceptos claves que pueden ser de mala influencia si son interpretados incorrectamente. Observemos ahora algunos de estos conceptos ejemplificados a través hipotéticos de casos urbanos para entender la profundidad del asunto y el enorme sesgo al cual someteríamos el análisis si no los tuviéramos en cuenta.
Veamos un ejemplo claro relativo a los outliers, que son aquellos valores atípicos que pueden influir en algunas variantes que son muy sensibles a éstos, sesgando todo el análisis y pudiendo dar resultados catastróficos. Planteamos un caso hipotético y solo a fines didácticos. Tomamos un muestreo de personas que utilizan como transporte el subte basado en la tecnología RDFI (vinculación a un punto por contacto) de las tarjetas SUBE. Medimos entonces la cantidad de pasajeros que suben al subte cada día en la estación (100.000 pasajeros en un día). Si estamos diseñando una nueva estación de subte y decidimos realizar un promedio de la cantidad de personas que viajan por hora obtendríamos una cifra de 4.166 personas viajando por hora en la estación de subte, considerando que cada persona necesita al menos 1/2 metro cuadrado para poder estar esperando dentro de la estación y considerando que el subte pasa 10 veces en una hora, obtenemos que dentro de la estación al menos debería haber lugar para 416 personas paradas esperando. En este caso hablamos de una superficie construible para el sitio de espera de la estación de 208 m2. Pero este análisis no tuvo en cuenta los outliers que están influyendo sobre nuestro muestreo. Aquellas horas que representan a los viajeros que no viajan en horas pico deberían ser desestimadas ya que de modo contrario la estación quedaría enormemente infradimensionada.
Veamos ahora entonces de nuevo la data que tenemos, nuestros outliers aquí son aquellos viajeros que no viajan en horas pico, o más bien las horas no pico en sí. Desestimemos entonces el 30% de viajeros que viajan en horas no pico. Nos queda un saldo de 70.000 personas y consideremos que estas personas viajan entre las 6:00 am y las 9:30 am y luego entre las 16:00 y las 19:30 pm. Entonces obtenemos 7 horas clave para la definición de la calidad de nuestra estación de subte, el número de nuestros pasajeros por hora en horas pico asciende a 10.000 y el subte sigue pasando con la misma frecuencia. Por lo tanto ahora debemos considerar como mínimo una estación que resguarde a 1.000 pasajeros, ascendiendo los m2 mínimamente construibles a 500 m2. Una diferencia de 292 m2 y en valor considerando que aproximadamente el valor de construir valor transporte subterráneo es de U$S 1.000.000 de dólares el m2, podríamos estimar el error o la diferencia entre el primer análisis y el segundo análisis considerando los outliers en 292.000.000 millones de dólares, sin mencionar el desastre colosal que obtendríamos el primer día de funcionamiento de la nueva línea dado que un 60% de pasajeros no podrían siquiera ingresar a la estación. Adicionalmente también se pueden imaginar la nefasta propaganda política que obtendría el gobierno de turno que haya impulsado este desarrollo. Ahora bien ¿Crees que es importante tener conocimiento sobre los outliers?
Deja un comentario