Lo que se documenta, se premia
La IA generativa promete anclar las evaluaciones de desempeño en evidencia en lugar de en narrativa. El cambio sustituye un sesgo por otro más silencioso—y el nuevo sesgo castiga a un tipo distinto de persona.

La IA generativa en las evaluaciones de desempeño se vende como la cura para la ficción gerencial—sacar a la luz los artefactos, sustituir la narración por la recuperación, anclar la evaluación en lo que quedó por escrito. Boston Consulting Group reporta que su herramienta interna recorta el tiempo de redacción de evaluaciones en un 40 por ciento. Citi y JPMorgan han lanzado las suyas. La promesa es que los gerentes dejarán de contar historias y empezarán a leer evidencia.
Es el remedio equivocado, presentado como el correcto.
Chrysanthos Dellarocas, de Boston University, plantea una versión más afilada del caso en un ensayo. La IA generativa no debería pulir narrativas; debería sacar a la luz los artefactos—el memorando donde se cuestionó un supuesto erróneo, el análisis post mortem donde se reestructuró una iniciativa fallida, y el hilo de correo donde se condujo una reestructuración regional. Tiene razón en que los despliegues actuales apuntan en la dirección equivocada. También parte de un supuesto que se cae cuando observas cómo se distribuye el trabajo dentro de una organización.
La disyuntiva
Las evaluaciones narrativas tienen un problema de sesgo. Distintos gerentes describen un mismo desempeño de formas distintas, moldeados por la memoria, la relación, y el instinto narrativo. Sucede, y vale la pena corregirlo.
Las evaluaciones basadas en artefactos tienen un problema de sesgo distinto. Sólo pueden ver el trabajo que dejó rastro. Un sistema de evaluación anclado en evidencia recuperada reconocerá a los colaboradores cuyo trabajo genera documentación. Pasará por alto silenciosamente a los colaboradores cuyo valor reside en trabajo que no la genera.
Ninguna de las dos distorsiones es neutral. Ambas reconocen menos a los operadores silenciosos—la primera porque los gerentes cuentan historias sobre las personas que recuerdan, la segunda porque el sistema sólo puede contar lo que quedó archivado. El cambio que habilita la IA generativa no es de sesgado a imparcial. Es de un sesgo a otro.
El sesgo nuevo es más difícil de cuestionar. La narrativa de un gerente es discutible—un empleado puede objetar, un comité de calibración puede interrogarla, un revisor externo puede detectar los puntos débiles. Un corpus de artefactos parece datos, y las decisiones justificadas con “el sistema sacó a la luz estos episodios” son difíciles de impugnar. Las personas más perjudicadas por lo que el sistema no sacó a la luz son las que tienen menos margen para argumentar la diferencia.
El trabajo que se vuelve invisible
Imagina cuatro personas en un equipo.
El ingeniero senior que desenreda un sistema crítico en una tarde y escribe “enviado” en Slack. El diseñador principal que forma a una persona junior en seis meses de reuniones uno a uno y nunca escribe nada de ello. El operador que entra a una reunión multifuncional atascada y la realinea en 20 minutos—una invitación de calendario y las notas de alguien más son los únicos artefactos visibles. El colaborador individual técnico que depura una decisión arquitectónica errada en vivo en una llamada de Zoom, antes de que se envíe, antes de que haya algo que documentar.
Un régimen de evaluación que opera sobre artefactos no reconocerá a ninguno de ellos en proporción a su contribución. La gerente de producto del mismo equipo que relata su razonamiento en un hilo público de Slack antes de cada decisión parecerá estratégica en comparación. Tal vez sí lo sea—pero el sistema no puede distinguir entre la estrategia y la documentación de la estrategia.
Nada de esto es nuevo. La investigación sobre reconocimiento en el trabajo lleva años documentándolo. El trabajo que no genera artefactos visibles—mentoría, trabajo de pegamento, resolución de problemas sobre la marcha, y la traducción poco glamorosa entre funciones—queda sistemáticamente sin crédito. Las personas que lo hacen se inclinan en una dirección previsible: más mujeres, más operadores en mitad de carrera, y más colaboradores individuales cuya efectividad reside en conversaciones más que en commits.
Las evaluaciones con evidencia curada por IA generativa no introducen este sesgo. Lo industrializan.
Por qué la IA generativa acelera el sesgo
Antes de la IA generativa, la evaluación basada en evidencia tenía un resguardo accidental.
Era caro.
Un gerente que sólo podía leer cierta cantidad de artefactos tenía que decidir cuáles. Ese juicio dejaba espacio para “sé que esta persona entrega, los recibos no están en esta carpeta”. Ese margen desapareció. Cuando la recuperación se vuelve barata y el análisis semántico se automatiza, el corpus de artefactos se convierte en la definición de facto del trabajo.
También crea un efecto de segundo orden. La higiene documental se convierte en la función de aptitud. La gente aprende que el sistema califica lo que le resulta legible, y se adapta.
Se escriben memorandos de decisión para futuros evaluadores, no para decidir. Se publica en canales públicos en lugar de mensajes directos. Se generan retrospectivas para trabajo que antes no las requería. La escritura performativa que la propuesta actual intentaba eliminar en la capa gerencial reaparece en la capa del empleado—y ahora todos la producen. Es la misma dinámica que hace que la adopción de IA se estanque dentro de despliegues por lo demás funcionales: la herramienta sirve, el flujo de trabajo alrededor no se ha rediseñado, y los empleados se adaptan a las partes que el sistema sí puede ver.
Por qué las organizaciones lo desplegarán
Nada de esto frenará la adopción. Las organizaciones no compran estas herramientas principalmente por precisión. Las compran por defensibilidad.
Un rastro de evidencia curado por IA generativa es un documento legal y de recursos humanos sin importar si captura el trabajo correcto. Las reuniones de calibración avanzan más rápido cuando cada calificación enlaza a un párrafo y una cita. Las decisiones de compensación son más fáciles de defender en una demanda judicial cuando la evidencia de respaldo luce sistemática. Lo mismo aplica para los planes de mejora de desempeño, los despidos, y las denegaciones de ascenso.
Nada de eso es una agenda oculta—es el producto racional de las restricciones bajo las que opera el área de recursos humanos. Pero significa que la lógica de implementación de estas herramientas se moldea por la defensibilidad, no por la señal. La precisión de la señal es una característica del mismo sistema. No es el criterio de compra.
Qué preguntar antes de desplegar
Para un CEO o director de personas que evalúa este despliegue, la jugada no es rechazarlo. Es saber para qué se está optimizando el sistema, e instrumentar el despliegue para que el sesgo no gane silenciosamente.
Tres jugadas.
Ejecuta un piloto comparativo, no un despliegue de un solo sistema
En el trimestre del piloto, realiza dos evaluaciones sobre la misma población: una sólo con evidencia de IA generativa, otra con evidencia de IA generativa más narrativa del gerente. Compara los resultados de calibración. Las personas que tienen puntuaciones distintas entre las dos son las que el sistema de artefactos está dejando fuera. Si esa diferencia correlaciona con rol, nivel, o demografía, ya tienes tu respuesta sobre el sesgo y dónde actuar.
Cuestiona la gobernanza, no la adoptes sin más
Dellarocas propone tres pilares:
- Verificación de que cada pieza de evidencia traída a la luz enlaza a su fuente
- Control del empleado sobre qué se incluye en el portafolio
- Límites de alcance que excluyen los mensajes directos y conversaciones informales
Tienen sentido. También son gobernanza para el modo de fallo al que él presta atención—la deriva hacia la vigilancia.
No hacen nada respecto al modo de fallo al que apunta esta pieza: el corpus mismo es desigual. Adopta los tres pilares, luego añade un cuarto—una verificación estructural sobre qué trabajo se está sacando a la luz y cuál no.
Financia lo que la IA no puede reemplazar
Lo que la IA generativa no proporciona es un gerente que haya pasado suficiente tiempo con cada subordinado para saber qué hizo sin tener que recuperarlo. Eso es función del tramo de control, la antigüedad del gerente, y la composición del comité de calibración. Cada uno es una partida presupuestal.
Si el despliegue de IA generativa se usa para ampliar el tramo del gerente o reducir su antigüedad, los ahorros salen de la precisión del reconocimiento. Nombra esa concesión cuando el despliegue se justifique por motivos de productividad.
• • •
Las tres jugadas aún dejan una pregunta abierta.
¿Puede una organización operar un sistema de curaduría de artefactos sin que el sistema redefina qué cuenta como buen trabajo?
La respuesta varía según industria, según función, y según la madurez del cuadro gerencial.
El trabajo legible no es lo mismo que el buen trabajo.
Lleva dos preguntas a la próxima revisión de liderazgo.
- Qué patrones en el sistema actual de desempeño ya premian la visibilidad por encima de la contribución.
- La IA que se está desplegando va a escalar esos patrones o a corregirlos.
Los despliegues que no ponen la pregunta sobre la mesa terminan escalando los patrones que les vendieron como solución.