2018-11-26

Toma de decisiones (I). Auditoría del sesgo y del ruido o imprecisión.

Cómo evitar el ruido en la toma de decisiones.
Por Carlos L. Marco Ortega.
Excelente Management.

measuring-bias-dispersion.jpg
Toma de decisiones (I). Auditoría del sesgo y del ruido o imprecisión

En una firma global de servicios financieros con la que trabajamos, un cliente de toda la vida presentó accidentalmente el mismo archivo de solicitud a dos oficinas. Aunque se suponía que los empleados que revisaban el archivo seguían las mismas pautas y, por lo tanto, llegaban a resultados similares, las oficinas separadas devolvieron presupuestos muy diferentes.


Sorprendido, el cliente dio el negocio a un competidor. Desde el punto de vista de la empresa, los empleados con el mismo rol deberían haber sido intercambiables, pero en este caso no lo fueron. Desafortunadamente, este es un problema común.

Los profesionales de muchas organizaciones se asignan arbitrariamente a casos: tasadores en agencias de calificación crediticia, médicos en salas de emergencia, aseguradores de préstamos y seguros, etc. Las organizaciones esperan consistencia de estos profesionales: los casos idénticos deben tratarse de manera similar, si no idénticamente.

El problema es que los humanos no son responsables de la toma de decisiones. Sus juicios están muy influenciados por factores irrelevantes, como su estado de ánimo actual, el tiempo transcurrido desde su última comida y el clima. Llamamos ruido a la variabilidad casual de los juicios. Es un impuesto invisible en la línea de fondo de muchas compañías.

Algunos trabajos están libres de ruido (dispersión).


Los empleados de un banco o una oficina postal realizan tareas complejas, pero deben seguir estrictas reglas que limitan el juicio subjetivo y garantizan, por diseño, que los casos idénticos se traten de manera idéntica. Por el contrario, los profesionales médicos, los oficiales de crédito, los directores de proyectos, los jueces y los ejecutivos hacen juicios, que se rigen por la experiencia informal y los principios generales en lugar de reglas rígidas.

Y si no alcanzan exactamente la misma respuesta que cualquier otra persona en su rol, eso es aceptable. Esto es a lo que nos referimos cuando decimos que una decisión es “una cuestión de juicio”. Una empresa cuyos empleados ejercen su juicio no espera que las decisiones estén libres de ruido en su totalidad. Pero a menudo el ruido está muy por encima del nivel que los ejecutivos considerarían tolerable y no lo saben por completo.

La prevalencia del ruido se ha demostrado en varios estudios. Investigadores académicos han confirmado repetidamente que los profesionales a menudo contradicen sus propios juicios previos cuando se les dan los mismos datos en diferentes ocasiones.

  • Por ejemplo, cuando se solicitó a los desarrolladores de software en dos días separados que estimaran el tiempo de finalización de una tarea determinada, las horas que proyectaban diferían, en promedio, en un 71%.
  • Cuando los patólogos realizaron dos evaluaciones de la gravedad de los resultados de la biopsia, la correlación entre sus calificaciones fue de solo 0,61 (de un valor perfecto de 1,0), indicando que hicieron diagnósticos inconsistentes con bastante frecuencia.

Los juicios hechos por diferentes personas tienen incluso más probabilidades de divergir. La investigación ha confirmado que, en muchas tareas, las decisiones de los expertos son muy variables: valorar las acciones, evaluar los bienes inmuebles, sentenciar a los delincuentes, evaluar el desempeño laboral, auditar los estados financieros, etc.

La conclusión inevitable es que los profesionales a menudo toman decisiones que se desvían significativamente de las de sus compañeros, de sus propias decisiones previas y de las reglas que ellos mismos afirman seguir.

El ruido suele ser traicionero. Incluso las empresas exitosas pierden cantidades sustanciales de dinero sin darse cuenta. Pero, ¿cuánto pueden llegar a perder? Para obtener una estimación, preguntamos lo siguiente a los ejecutivos de una de las organizaciones que estudiamos:

“Supongamos que la evaluación óptima de un caso es de 100.000 dólares (cerca 83.000 de euros). ¿Cuál sería el coste para la organización si el profesional a cargo del caso evaluara un valor de 115.000 dólares (alrededor de 96.000 euros)? ¿Cuál sería el coste de evaluarlo en 85.000 (unos 71.000 euros) dólares?”. Las estimaciones de coste fueron altas.

Agregado a las evaluaciones hechas cada año, el precio del ruido se midió en miles de millones, un número inaceptable incluso para una gran empresa global. El valor de reducir el ruido incluso en unos pocos puntos porcentuales sería de decenas de millones. Sorprendentemente, la organización había ignorado por completo la cuestión de la coherencia hasta entonces.

Se sabe desde hace tiempo que las predicciones y decisiones generadas por algoritmos estadísticos simples a menudo son más precisas que las hechas por expertos, incluso cuando los expertos tienen acceso a más información que la que usan las fórmulas. Casi no se conoce que la ventaja clave de los algoritmos es que no tienen ruido: a diferencia de los humanos, una fórmula siempre devolverá la misma salida para cualquier entrada dada.

La consistencia superior permite incluso algoritmos simples e imperfectos para lograr una mayor precisión si se comparan con los profesionales humanos. Por supuesto, hay ocasiones en que los algoritmos serán inviables desde el punto de vista operativo o político, como discutiremos.

En este artículo explicamos la diferencia entre el ruido y el sesgo y observamos cómo los ejecutivos pueden auditar el nivel y el impacto del ruido en sus organizaciones. A continuación, describimos un método económico y subutilizado para construir algoritmos que remedian el ruido, y esbozamos procedimientos que pueden promover la consistencia cuando los algoritmos no son una opción.

Ruido vs Sesgo:


Cuando las personas consideran los errores en el juicio y la toma de decisiones, lo más probable es que piensen en sesgos sociales como el estereotipo de las minorías o en sesgos cognitivos como el exceso de confianza y el optimismo infundado. La variabilidad inútil que llamamos ruido es un tipo diferente de error.

Para apreciar la distinción, piense en su báscula de baño. Diríamos que la escala es parcial si sus lecturas son generalmente demasiado altas o demasiado bajas. Si su peso parece depender de dónde coloque los pies, la balanza es ruidosa. Una escala que constantemente subestima el peso verdadero en exactamente cuatro libras (unos 1,80 kilos) es muy parcial, pero está libre de ruido. Una escala que da dos lecturas diferentes cuando la pisa dos veces es ruidosa. Muchos errores de medición surgen de una combinación de sesgo y ruido. La mayoría de las básculas de baño de bajo coste son algo parciales y bastante ruidosas.
 
Para ilustrar visualmente la distinción, considere las dianas de la imagen Cómo el ruido y el sesgo afectan la precisión. La imagen muestra los resultados de la práctica de tiro para equipos de cuatro personas en los que cada individuo dispara una vez.

El Equipo A es exacto: los tiros de los compañeros del equipo están a la altura y cerca el uno del otro. Los otros tres equipos son inexactos, pero en diferentes formas. El equipo B es ruidoso: los tiros de sus miembros están cerca del blanco, pero están muy dispersos. El Equipo C es parcial: ningún tiro dio en el blanco, pero están todos agrupados. El equipo D es ruidoso y parcial.

Como lo ilustra una comparación de los equipos A y B, un aumento en el ruido siempre afecta la precisión cuando no hay sesgo. Cuando hay prejuicios, aumentar el ruido en realidad puede causar un golpe de suerte, como sucedió con el equipo D. Por supuesto, ninguna organización confiaría en la suerte. El ruido siempre es indeseable y, a veces, desastroso.

Obviamente, tener conocimientos del sesgo y el ruido en las decisiones de sus empleados es útil para una organización, pero recopilar esa información no es sencillo. Al medir estos errores, surgen diferentes problemas. Un problema importante es que los resultados de las decisiones a menudo no se conocen hasta después, si es que lo llegan a hacer.

Los funcionarios de préstamos, por ejemplo, con frecuencia deben esperar varios años para ver cómo se resolvieron los préstamos que aprobaron, y casi nunca saben qué le sucede a un solicitante que rechazan.

Donde hay juicio, hay ruido, y por lo general hay más de lo que piensa.

A diferencia del sesgo, el ruido puede medirse sin saber qué respuesta exacta sería. Para ilustrarlo, imagine que los objetivos a los que apuntaban los tiradores se borraron de la muestra. No sabría nada acerca de la precisión general de los equipos, pero podría estar seguro de que algo andaba mal con los tiros dispersos de los equipos B y D: dondequiera que estuviese el blanco, no todos estuvieron cerca de dar en el blanco.

Todo lo que se necesita para medir el ruido en los juicios es un experimento simple en el que varios profesionales evalúan de forma independiente algunos casos reales. Aquí de nuevo, la dispersión de los juicios se puede observar sin conocer la respuesta correcta. Llamamos a tales experimentos auditorías de ruido.

Realizando una auditoría de ruido:


El objetivo de una auditoría de ruido no es generar un informe. El objetivo final es mejorar la calidad de las decisiones, y una auditoría solo puede tener éxito si los líderes de la unidad están preparados para aceptar resultados desagradables y actuar en consecuencia. Tal aceptación se logra más fácil si los ejecutivos ven el estudio como su propia creación. Con ese fin, los casos deben ser compilados por miembros respetados del equipo y deben cubrir la gama de problemas que se encuentran normalmente.

Para que los resultados sean relevantes para todos, todos los miembros de la unidad deben participar en la auditoría. Un científico social con experiencia en la realización de experimentos conductuales rigurosos debe supervisar los aspectos técnicos de la auditoría, pero la unidad profesional debe ser la propietaria del proceso.

Hace poco ayudamos a dos organizaciones de servicios financieros a realizar auditorías de ruido. Los deberes y la experiencia de los dos grupos que estudiamos eran bastante diferentes, pero ambos requerían la evaluación de materiales moderadamente complejos y, a menudo, implicaban decisiones sobre cientos de miles de dólares. Seguimos el mismo protocolo en ambas organizaciones.

Primero, solicitamos a los gerentes de los equipos profesionales involucrados que construyeran varios archivos de casos realistas para su evaluación. Para evitar que se filtrara la información sobre el experimento, todo el ejercicio se realizó el mismo día. Se les pidió a los empleados que pasaran la mitad del día analizando de dos a cuatro casos. Debían decidir una cantidad en dólares para cada uno, como en su rutina normal.

Para evitar la colusión, no se les dijo a los participantes que el estudio estaba relacionado con la fiabilidad. En una organización, por ejemplo, se describieron los objetivos como la comprensión del pensamiento profesional de los empleados, el aumento de la utilidad de sus herramientas y la mejora de la comunicación entre colegas. Participaron unos 70 profesionales de la organización A y unos 50 en la organización B.

Tipo de sesgo
Ejemplos
Acciones correctivas
General
El juicio promedio es incorrecto.
Falacia de planificación: los pronósticos de resultados son en su mayoría optimistas.
Excesiva aversión al riesgo: una empresa de capital riesgo rechaza demasiadas inversiones prometedoras pero arriesgadas.
Monitoreo continuo de las decisiones.
Directrices y objetivos para la frecuencia de ciertos resultados (como las aprobaciones de préstamos).
Eliminar los incentivos que favorecen los sesgos.
Social
La discriminación ocurre contra o para ciertas categorías de casos.
Frecuente denegación de crédito a solicitantes cualificados de ciertos grupos étnicos.
Sesgo de género en las evaluaciones del desempeño laboral.
Monitoreo de estadísticas para diferentes grupos.
Cegamiento de aplicaciones.
Métricas objetivas y cuantificables.
Abrir canales para quejas.
Pautas y entrenamiento.
Cognitivo
Las decisiones están muy influenciadas por factores irrelevantes o insensibles a las relevantes.
Efectos excesivos de las primeras impresiones.
Efectos de los anclajes (como una oferta de apertura en la negociación).
Descuido miope de consecuencias futuras.
Capacitar a los empleados para detectar situaciones en las que es probable que surjan sesgos.
Críticas de decisiones importantes, enfocadas en posibles sesgos.
Variabilidad a través de ocasiones
Las decisiones varían cuando el mismo caso se presenta más de una vez al mismo individuo.
Los juicios de un archivo de un oficial de contratación están influenciados por su estado de ánimo o la calidad del solicitante anterior.
Algoritmos para reemplazar el juicio humano.
Listas de verificación que fomentan un enfoque coherente para las decisiones.
Variabilidad a través de individuos
Los profesionales en el mismo rol toman decisiones diferentes.
Algunas personas son generalmente más indulgentes que otras.
Algunas personas son más cautelosas que otras.
Algoritmos para reemplazar el juicio humano.
Monitoreo frecuente de las decisiones de los individuos.
Mesas redondas en las cuales se exploran y resuelven las diferencias.
Listas de verificación que fomentan un enfoque coherente para las decisiones.

Construimos un índice de ruido para cada caso, que respondió la siguiente pregunta: “¿En qué medida difieren los juicios de dos empleados elegidos al azar?” Expresamos esta cantidad como un porcentaje de su promedio. Supongamos que las evaluaciones de un caso por dos empleados son de 600 y 1.000 dólares (de 500 y 800 euros). El promedio de sus evaluaciones es de 800 dólares (cerca de 670 euros), y la diferencia entre ellos es de 400 dólares (alrededor de 330 euros), así que el índice de ruido es del 50 % para este par. Realizamos el mismo cálculo para todos los pares de empleados y luego calculamos un índice de ruido promedio general para cada caso.

Las entrevistas previas a la auditoría con ejecutivos de las dos organizaciones indicaron que esperaban que las diferencias entre las decisiones de sus profesionales tuvieran una variación de entre el 5% y el 10%, un nivel que consideraban aceptable para “cuestiones de juicio”. Los resultados fueron un shock. El índice de ruido varió del 34% al 62% para los seis casos en la organización A, y el promedio general fue del 48%. En los cuatro casos en la organización B, el índice de ruido varió de 46% a 70%, con un promedio de 60%. Tal vez lo más decepcionante es que la experiencia en el trabajo no pareció reducir el ruido. Entre los profesionales con cinco o más años en el trabajo, el desacuerdo promedio fue del 46% en la organización A y del 62% en la organización B.

Nadie había visto esto venir. Pero debido a que eran los dueños del estudio, los ejecutivos de ambas organizaciones aceptaron la conclusión de que los juicios de sus profesionales no eran confiables en un grado que no podía tolerarse. Todos acordaron rápidamente que había que hacer algo para controlar el problema.

Debido a que los hallazgos fueron consistentes con investigaciones previas sobre la baja fiabilidad del juicio profesional, no nos sorprendieron. El principal enigma para nosotros fue el hecho de que ninguna organización había considerado la fiabilidad como un problema.

El problema del ruido es efectivamente invisible en el mundo de los negocios. Hemos observado que las audiencias están bastante sorprendidas cuando se menciona la confiabilidad del juicio profesional como un problema. ¿Qué impide que las empresas reconozcan que los juicios de sus empleados tienen ruido? La respuesta radica en dos fenómenos familiares: los profesionales experimentados tienden a tener una gran confianza en la precisión de sus propios juicios y también tienen gran consideración por la inteligencia de sus colegas.

Esta combinación conduce inevitablemente a una sobreestimación del acuerdo. Cuando se les preguntó acerca de lo que dirían sus colegas, los profesionales esperaban que los juicios de los demás fueran mucho más cercanos a los suyos de lo que realmente eran. La mayoría de las veces, por supuesto, los profesionales con experiencia no se preocupan por lo que otros puedan pensar y simplemente suponen que su argumento es la mejor respuesta. Una razón por la cual el problema del ruido es invisible es que las personas no pasan por la vida imaginando alternativas plausibles a cada juicio que hacen.

A veces la expectativa de que los demás estén de acuerdo con usted está justificada, particularmente cuando los juicios son tan hábiles que son intuitivos. El ajedrez de alto nivel y la conducción son ejemplos estándar de tareas que se han practicado casi a la perfección. Los jugadores maestros que observan una situación en un tablero de ajedrez tendrán evaluaciones muy similares del estado del juego si la reina blanca está en peligro o la defensa del rey es débil.

Lo mismo pasa con los conductores. Gestionar el tráfico sería increíblemente peligroso si no pudiéramos asumir que los conductores que nos rodean comparten nuestra comprensión de las prioridades en las intersecciones y las rotondas. Hay poco o nada de ruido en los niveles altos de habilidad.

La alta habilidad se desarrolla en el ajedrez y la conducción a través de años de práctica en un entorno predecible, en el que las acciones son seguidas por comentarios que son tanto inmediatos como claros. Desafortunadamente, pocos profesionales operan en un mundo así. En la mayoría de los trabajos, las personas aprenden a emitir juicios al escuchar a los directores y colegas explicar y criticar, esto es una fuente de conocimiento mucho menos confiable que aprender de los propios errores. La larga experiencia en un trabajo siempre aumenta la confianza de las personas en sus juicios, pero en ausencia de una respuesta rápida, la confianza no es garantía de exactitud o consenso.

Ofrecemos este aforismo como resumen: donde hay juicio, hay ruido y, por lo general, hay más de lo que piensa. Como regla general, creemos que ni los profesionales ni sus gerentes pueden adivinar la fiabilidad de sus juicios. La única forma de obtener una evaluación precisa es realizando una auditoría de ruido. Al menos en algunos casos el problema será lo suficientemente grave como para requerir una acción.

Fuente: Noise: How to Overcome the High, Hidden Cost of Inconsistent Decision Making  https://hbr.org/2016/10/noise por Daniel Kahneman, Andrew M. Rosenfield, Linnea Gandhi, Tom Blaser.

C. Marco – ExceLence Management
Publicado el 07/09/2018 por excelencemanagement

Carlos L. Marco Ortega

Logistics and Assembly Manager en Grupo Plastic
Valencia y alrededores, España. Ingeniería industrial o mecánica
Actual: Grupo Plastic, Excellence Management
Anterior: Ford Motor Company, Rain Bird, TECFISA
Educación: Universidad Polítécnica de Bucarest
LinkedIn: https://www.linkedin.com/in/carlosmarcoortega

Licencia:
No especificada.

---------------------

Fuente: ExceLence Management

Imagen: measuring-bias-dispersion.jpg


Del mismo autor:

Carlos L. Marco:

Artículos relacionados: 

  

No hay comentarios:

Publicar un comentario