Contenidos

Crea tu propia encuesta hoy

Constructor de encuestas gratis y fácil de usar sin límites de respuestas. Comienza a recopilar comentarios en minutos.

Empezar gratis
Logo SurveyNinja

IRR (Confiabilidad entre evaluadores)

Has recopilado 500 respuestas abiertas en una encuesta y se las entregas a dos analistas para que las codifiquen en las categorías "queja", "agradecimiento", "pregunta".

El primer analista encuentra 120 quejas, el segundo encuentra 180. ¿A quién creerle? Si sus códigos difieren en un 30%, entonces cualquier conclusión basada en esta clasificación es cuestionable. La confiabilidad entre evaluadores es la métrica que evalúa formalmente si distintos expertos leen los mismos datos de la misma manera.

Definición

Confiabilidad entre evaluadores (IRR) es el grado de concordancia entre las valoraciones o clasificaciones que asignan distintos expertos independientes (evaluadores) a los mismos objetos o respuestas. Se utiliza en la codificación de respuestas abiertas, la evaluación de datos cualitativos, la retroalimentación de 360 grados y las valoraciones de expertos. Una IRR alta significa que la categorización o valoración es objetiva y reproducible, y no depende de la percepción individual de un experto en particular.

Para qué medir la IRR

Cualquier dato que pase por el juicio subjetivo de una persona necesita ser verificado: ¿distintos expertos producen el mismo resultado? Sin la IRR no sabes si los códigos reflejan la estructura real de los datos o las preferencias individuales de un analista en particular.

Tres escenarios típicos en los que la IRR es crítica:

Codificación de respuestas abiertas. Tras una encuesta con preguntas abiertas, las respuestas se clasifican por tema. Si los códigos son subjetivos, las estadísticas agregadas ("el 40% mencionó la calidad del soporte") se vuelven poco fiables.

Análisis cualitativo de entrevistas, grupos focales y retroalimentación. Identificar temas, patrones e ideas es un proceso subjetivo en el que la IRR garantiza la reproducibilidad.

Procedimientos de evaluación. Assessments, evaluaciones de desempeño, valoraciones de expertos sobre la calidad del trabajo. Si distintos evaluadores otorgan calificaciones diferentes a la misma persona, el proceso es injusto y poco informativo.

Cómo se mide la IRR

La elección del coeficiente depende del tipo de datos:

Porcentaje de acuerdo (Percent Agreement). El más simple: la proporción de casos en los que los evaluadores coincidieron. Es intuitivo, pero sobreestima el acuerdo: incluso una coincidencia al azar se incluye en el porcentaje. No se recomienda como única métrica.

Kappa de Cohen (κ). Para dos evaluadores y categorías nominales. Tiene en cuenta el acuerdo descontando las coincidencias al azar. Los valores van de -1 a 1:

  • κ < 0 — acuerdo peor que el azar (raro)
  • 0 ≤ κ < 0,4 — débil
  • 0,4 ≤ κ < 0,6 — moderado
  • 0,6 ≤ κ < 0,8 — sustancial
  • κ ≥ 0,8 — acuerdo casi perfecto

Kappa de Fleiss. Una generalización de la kappa de Cohen para el caso de tres o más evaluadores.

Alfa de Krippendorff (α). Un coeficiente universal: funciona para cualquier número de evaluadores, cualquier tipo de datos (nominales, ordinales, de intervalo) y tiene en cuenta las valoraciones faltantes. Se considera el estándar moderno.

Coeficiente de correlación intraclase (ICC). Para valoraciones cuantitativas (puntuaciones numéricas). Se utiliza en psicometría y assessments. Los umbrales son análogos a los de la kappa.

Ejemplo: codificación de respuestas abiertas sobre una experiencia de servicio

Una encuesta recopiló 300 respuestas abiertas a la pregunta "Cuéntanos sobre tu interacción más reciente con el soporte". Dos analistas codifican de forma independiente cada respuesta en una de 5 categorías: "experiencia positiva", "neutral", "problema con el producto", "problema con el personal", "no es sobre el soporte".

Resultados de la primera pasada:

  • Porcentaje de acuerdo: 78% (234 de 300 respuestas clasificadas de la misma manera)
  • Kappa de Cohen: 0,64 — acuerdo sustancial

El 78% suena bien, pero una kappa de 0,64 está en el límite de lo aceptable. Revisaron los 66 casos en disputa y descubrieron que los analistas difieren en las categorías "problema con el producto" frente a "problema con el personal": los límites entre ellas son difusos. Actualizaron las instrucciones de codificación con ejemplos concretos para cada categoría y realizaron un breve taller de calibración. Después de eso, una nueva medición sobre una porción nueva de los datos: κ = 0,82 — acuerdo casi perfecto. Ahora los datos pueden analizarse y tomarse decisiones a partir de ellos.

Procedimiento para verificar y mejorar la IRR

1. Desarrollo del esquema de codificación. Categorías claras y mutuamente excluyentes, con definiciones y ejemplos. Cuanto más claro sea el esquema, mayor será la IRR. Los límites difusos entre categorías son la principal causa de un acuerdo bajo.

2. Capacitación de los evaluadores. Calibración conjunta sobre una muestra pequeña: análisis de casos difíciles, debate sobre los principios de categorización, alineación de las interpretaciones.

3. Codificación piloto. Ambos evaluadores codifican de forma independiente 30-50 casos. Se calcula la IRR. Si es baja, se analizan las discrepancias, se refina el esquema y se recalibra.

4. Codificación principal. Una vez que la IRR piloto es aceptable (κ ≥ 0,7), los evaluadores codifican todo el conjunto de datos. Una parte de los datos (10-20%) la codifican ambos evaluadores para controlar la estabilidad.

5. Verificación periódica. En trabajos prolongados, reevaluar la IRR cada 100-200 unidades para detectar la "deriva" en las interpretaciones.

Qué influye en la IRR

Claridad de las categorías. Las categorías difusas o solapadas son la principal causa de un acuerdo bajo. "Experiencia negativa" e "insatisfacción" pueden significar casi lo mismo, y esto genera discrepancias constantes.

Número de categorías. Más categorías → menor acuerdo. De 3 a 5 categorías suelen dar una IRR más alta que 15. Si necesitas una clasificación detallada, hazla en dos niveles: primero las categorías base (IRR alta) y luego las subcategorías dentro de ellas (una concordancia más compleja).

Experiencia de los evaluadores. Los analistas nuevos producen códigos más variables. La calibración previa y el debate conjunto de los primeros casos aumentan la IRR.

Complejidad del material. Las respuestas largas y de múltiples temas se codifican con menor acuerdo que las cortas e inequívocas. Para datos complejos puede requerirse una codificación multietiqueta (varias etiquetas por respuesta) en lugar de una sola categoría.

IRR frente a otros tipos de confiabilidad

La IRR complementa otras métricas de confiabilidad:

  • IRR — concordancia entre evaluadores
  • Test-retest — estabilidad en el tiempo
  • Alfa de Cronbach — consistencia dentro de una escala

Para valoraciones subjetivas, la IRR es una métrica crítica. Para escalas estandarizadas (elegir una opción de una lista) la IRR es menos importante: allí la confiabilidad clave es la interna y la temporal.

Errores típicos al trabajar con la IRR

Usar solo el porcentaje de acuerdo. Para datos con una distribución desigual de las categorías (el 90% de las respuestas son "neutrales"), incluso una elección al azar dará un alto porcentaje de acuerdo. La kappa corrige este sesgo y ofrece una estimación más honesta.

Que los evaluadores comenten los casos durante el proceso de codificación. Si los analistas se consultan mientras trabajan, alinean artificialmente sus códigos, y la IRR no mide un acuerdo independiente, sino un debate colectivo. La independencia de las valoraciones es crítica.

No fijar el esquema de codificación. El esquema debe fijarse antes de iniciar la codificación y no cambiar durante el proceso. Si las categorías aparecen o se refinan sobre la marcha, los casos codificados previamente deben reevaluarse.

No documentar las discrepancias. El análisis de los casos de desacuerdo es un diagnóstico valioso: muestra dónde el esquema es ambiguo, qué tipos de respuestas se confunden de forma sistemática y dónde se necesitan aclaraciones. Sin este análisis, la IRR se convierte en una cifra sin conclusiones prácticas.

La IRR en investigaciones basadas en encuestas

En el trabajo con datos de encuestas, la IRR se aplica principalmente en el análisis de respuestas abiertas y la investigación cualitativa. La práctica estándar: dos analistas independientes codifican una muestra de respuestas, se calcula la kappa de Cohen, el esquema se refina si es necesario y luego un solo analista codifica todo el conjunto de datos con reverificaciones periódicas sobre una muestra.

La IRR también forma parte de la triangulación en diseños de investigación de métodos mixtos: cuando los datos cuantitativos se complementan con un análisis cualitativo de respuestas abiertas o entrevistas, la confiabilidad de la codificación de estas últimas debe estar documentada. Sin ello, las conclusiones de la parte cualitativa no pueden respaldar los resultados cuantitativos.

La confiabilidad entre evaluadores es una medida objetiva de cuán consistentes son las valoraciones de distintos expertos. Sin la IRR, cualquier análisis cualitativo permanece en la zona de "así lo vio el analista". Con ella, se convierte en un procedimiento reproducible. Una kappa de Cohen de 0,7 es un umbral aceptable; por encima de 0,8 es el estándar para investigaciones serias. Una IRR baja es una señal para refinar el esquema de codificación, no para resignarse a los desacuerdos.

Preguntas frecuentes

¿Cuántos evaluadores se necesitan para verificar la IRR?

Al menos dos: este es el caso clásico para la kappa de Cohen. Para tres o más se utiliza la kappa de Fleiss o el alfa de Krippendorff. En la práctica, dos son suficientes para la mayoría de las tareas: el aumento en la confiabilidad de la estimación al añadir un tercer evaluador es pequeño, mientras que el costo del trabajo se duplica.

¿Qué umbral de IRR se considera aceptable?

Kappa de Cohen ≥ 0,6 — el mínimo para fines de investigación. ≥ 0,7 — el umbral estándar para uso aplicado. ≥ 0,8 — concordancia alta, adecuada para tomar decisiones importantes. Por debajo de 0,6 — el esquema o los evaluadores requieren mejoras.

¿Qué hacer si la IRR es baja?

No "promediar" las valoraciones, sino analizar las discrepancias. Analiza los casos de desacuerdo: encontrarás dónde el esquema es ambiguo o dónde los evaluadores lo interpretan de forma distinta. Refina las definiciones de las categorías, añade ejemplos, realiza una sesión de calibración. Después de eso, una nueva medición de la IRR sobre una muestra nueva.

¿Se puede usar la IRR con un solo evaluador?

No: por definición, la IRR requiere al menos dos evaluadores independientes. Para un solo evaluador se puede comprobar la confiabilidad intraevaluador: la misma persona codifica los mismos datos de nuevo después de un tiempo. Esto es una comprobación de la estabilidad del trabajo individual, no de la concordancia entre expertos.

¿Es necesario verificar la IRR con categorías simples y un etiquetado evidente?

Si las categorías son realmente evidentes (por ejemplo, extraídas automáticamente de datos estructurados), la IRR no es necesaria. Pero si en el proceso interviene la interpretación humana (clasificación de texto, valoración del tono, reconocimiento de la intención), la IRR es obligatoria, aunque la tarea parezca simple. La "evidencia" a menudo resulta ser subjetiva.

1