Conteúdo

Crie sua própria pesquisa hoje

Criador de pesquisas grátis e fácil de usar sem limite de respostas. Comece a coletar feedback em minutos.

Comece grátis
Logo SurveyNinja

IRR (Confiabilidade entre avaliadores)

Você coletou 500 respostas abertas em uma pesquisa e as entrega a dois analistas para codificá-las nas categorias "reclamação", "agradecimento", "pergunta".

O primeiro analista encontra 120 reclamações, o segundo encontra 180. Em quem confiar? Se os códigos deles divergem em 30%, então qualquer conclusão baseada nessa classificação é questionável. A confiabilidade entre avaliadores é a métrica que avalia formalmente se diferentes especialistas leem os mesmos dados da mesma maneira.

Definição

Confiabilidade entre avaliadores (IRR) é o grau de concordância entre as avaliações ou classificações atribuídas por diferentes especialistas independentes (avaliadores) aos mesmos objetos ou respostas. É usada na codificação de respostas abertas, na avaliação de dados qualitativos, no feedback de 360 graus e em avaliações de especialistas. Uma IRR alta significa que a categorização ou avaliação é objetiva e reproduzível, e não depende da percepção individual de um especialista em particular.

Para que medir a IRR

Qualquer dado que passe pelo julgamento subjetivo de uma pessoa precisa ser verificado: diferentes especialistas produzem o mesmo resultado? Sem a IRR você não sabe se os códigos refletem a estrutura real dos dados ou as preferências individuais de um analista em particular.

Três cenários típicos em que a IRR é crítica:

Codificação de respostas abertas. Após uma pesquisa com perguntas abertas, as respostas são classificadas por tema. Se os códigos são subjetivos, as estatísticas agregadas ("40% mencionaram a qualidade do suporte") tornam-se pouco confiáveis.

Análise qualitativa de entrevistas, grupos focais e feedback. Identificar temas, padrões e insights é um processo subjetivo no qual a IRR garante a reprodutibilidade.

Procedimentos de avaliação. Assessments, avaliações de desempenho, avaliações de especialistas sobre a qualidade do trabalho. Se diferentes avaliadores dão notas diferentes à mesma pessoa, o processo é injusto e pouco informativo.

Como a IRR é medida

A escolha do coeficiente depende do tipo de dados:

Percentual de concordância (Percent Agreement). O mais simples: a proporção de casos em que os avaliadores concordaram. É intuitivo, mas superestima a concordância: até uma coincidência ao acaso é incluída no percentual. Não é recomendado como única métrica.

Kappa de Cohen (κ). Para dois avaliadores e categorias nominais. Leva em conta a concordância descontando as coincidências ao acaso. Os valores vão de -1 a 1:

  • κ < 0 — concordância pior que o acaso (raro)
  • 0 ≤ κ < 0,4 — fraca
  • 0,4 ≤ κ < 0,6 — moderada
  • 0,6 ≤ κ < 0,8 — substancial
  • κ ≥ 0,8 — concordância quase perfeita

Kappa de Fleiss. Uma generalização do kappa de Cohen para o caso de três ou mais avaliadores.

Alfa de Krippendorff (α). Um coeficiente universal: funciona para qualquer número de avaliadores, qualquer tipo de dados (nominais, ordinais, intervalares) e leva em conta as avaliações ausentes. É considerado o padrão moderno.

Coeficiente de correlação intraclasse (ICC). Para avaliações quantitativas (pontuações numéricas). É usado em psicometria e assessments. Os limiares são análogos aos do kappa.

Exemplo: codificação de respostas abertas sobre uma experiência de atendimento

Uma pesquisa coletou 300 respostas abertas à pergunta "Conte sobre a sua interação mais recente com o suporte". Dois analistas codificam de forma independente cada resposta em uma de 5 categorias: "experiência positiva", "neutra", "problema com o produto", "problema com o atendente", "não é sobre o suporte".

Resultados da primeira passagem:

  • Percentual de concordância: 78% (234 de 300 respostas classificadas da mesma maneira)
  • Kappa de Cohen: 0,64 — concordância substancial

78% soa bem, mas um kappa de 0,64 está no limite do aceitável. Eles revisaram os 66 casos contestados e descobriram que os analistas divergem nas categorias "problema com o produto" versus "problema com o atendente": os limites entre elas são imprecisos. Atualizaram as instruções de codificação com exemplos concretos para cada categoria e realizaram um breve workshop de calibração. Depois disso, uma nova medição em uma parte nova dos dados: κ = 0,82 — concordância quase perfeita. Agora os dados podem ser analisados e decisões podem ser tomadas com base neles.

Procedimento para verificar e aumentar a IRR

1. Desenvolvimento do esquema de codificação. Categorias claras e mutuamente exclusivas, com definições e exemplos. Quanto mais claro o esquema, maior a IRR. Limites imprecisos entre categorias são a principal causa de baixa concordância.

2. Treinamento dos avaliadores. Calibração conjunta em uma pequena amostra: análise de casos difíceis, discussão dos princípios de categorização, alinhamento das interpretações.

3. Codificação piloto. Ambos os avaliadores codificam de forma independente 30-50 casos. A IRR é calculada. Se for baixa, analisam-se as divergências, refina-se o esquema e recalibra-se.

4. Codificação principal. Depois que a IRR piloto é aceitável (κ ≥ 0,7), os avaliadores codificam todo o conjunto de dados. Parte dos dados (10-20%) é codificada por ambos os avaliadores para controlar a estabilidade.

5. Verificação periódica. Em trabalhos prolongados, reavaliar a IRR a cada 100-200 unidades para detectar o "desvio" nas interpretações.

O que influencia a IRR

Clareza das categorias. Categorias imprecisas ou sobrepostas são a principal causa de baixa concordância. "Experiência negativa" e "insatisfação" podem significar quase a mesma coisa, e isso gera divergências constantes.

Número de categorias. Mais categorias → menor concordância. De 3 a 5 categorias geralmente dão uma IRR mais alta que 15. Se você precisa de uma classificação detalhada, faça-a em dois níveis: primeiro as categorias base (IRR alta) e depois as subcategorias dentro delas (uma concordância mais complexa).

Experiência dos avaliadores. Analistas novos produzem códigos mais variáveis. A calibração prévia e a discussão conjunta dos primeiros casos aumentam a IRR.

Complexidade do material. Respostas longas e com vários temas são codificadas com menor concordância do que as curtas e inequívocas. Para dados complexos pode ser necessária uma codificação multirrótulo (várias etiquetas por resposta) em vez de uma única categoria.

IRR versus outros tipos de confiabilidade

A IRR complementa outras métricas de confiabilidade:

  • IRR — concordância entre avaliadores
  • Test-retest — estabilidade ao longo do tempo
  • Alfa de Cronbach — consistência dentro de uma escala

Para avaliações subjetivas, a IRR é uma métrica crítica. Para escalas padronizadas (escolher uma opção de uma lista) a IRR é menos importante: ali a confiabilidade-chave é a interna e a temporal.

Erros típicos ao trabalhar com a IRR

Usar apenas o percentual de concordância. Para dados com uma distribuição desigual das categorias (90% das respostas são "neutras"), até uma escolha ao acaso dará um alto percentual de concordância. O kappa corrige esse viés e fornece uma estimativa mais honesta.

Os avaliadores discutem os casos durante o processo de codificação. Se os analistas se consultam enquanto trabalham, alinham artificialmente seus códigos, e a IRR não mede uma concordância independente, mas uma discussão coletiva. A independência das avaliações é crítica.

Não fixar o esquema de codificação. O esquema deve ser fixado antes de iniciar a codificação e não mudar durante o processo. Se as categorias surgem ou são refinadas ao longo do caminho, os casos codificados anteriormente precisam ser reavaliados.

Não documentar as divergências. A análise dos casos de discordância é um diagnóstico valioso: mostra onde o esquema é ambíguo, quais tipos de respostas se confundem de forma sistemática e onde são necessários esclarecimentos. Sem essa análise, a IRR se transforma em um número sem conclusões práticas.

A IRR em pesquisas baseadas em surveys

No trabalho com dados de pesquisas, a IRR é aplicada principalmente na análise de respostas abertas e na pesquisa qualitativa. A prática padrão: dois analistas independentes codificam uma amostra de respostas, calcula-se o kappa de Cohen, o esquema é refinado se necessário, e então um único analista codifica todo o conjunto de dados com reverificações periódicas em uma amostra.

A IRR também faz parte da triangulação em desenhos de pesquisa de métodos mistos: quando os dados quantitativos são complementados com uma análise qualitativa de respostas abertas ou entrevistas, a confiabilidade da codificação destas últimas deve ser documentada. Sem isso, as conclusões da parte qualitativa não podem sustentar os resultados quantitativos.

A confiabilidade entre avaliadores é uma medida objetiva de quão consistentes são as avaliações de diferentes especialistas. Sem a IRR, qualquer análise qualitativa permanece na zona do "foi assim que o analista viu". Com ela, torna-se um procedimento reproduzível. Um kappa de Cohen de 0,7 é um limiar aceitável; acima de 0,8 é o padrão para pesquisas sérias. Uma IRR baixa é um sinal para refinar o esquema de codificação, não para se conformar com as discordâncias.

Perguntas frequentes

Quantos avaliadores são necessários para verificar a IRR?

No mínimo dois: este é o caso clássico para o kappa de Cohen. Para três ou mais, usa-se o kappa de Fleiss ou o alfa de Krippendorff. Na prática, dois são suficientes para a maioria das tarefas: o ganho na confiabilidade da estimativa ao adicionar um terceiro avaliador é pequeno, enquanto o custo do trabalho dobra.

Qual limiar de IRR considerar aceitável?

Kappa de Cohen ≥ 0,6 — o mínimo para fins de pesquisa. ≥ 0,7 — o limiar padrão para uso aplicado. ≥ 0,8 — concordância alta, adequada para tomar decisões importantes. Abaixo de 0,6 — o esquema ou os avaliadores precisam de aprimoramento.

O que fazer se a IRR for baixa?

Não "fazer a média" das avaliações, mas analisar as divergências. Analise os casos de discordância: você encontrará onde o esquema é ambíguo ou onde os avaliadores o interpretam de forma diferente. Refine as definições das categorias, adicione exemplos, realize uma sessão de calibração. Depois disso, uma nova medição da IRR em uma amostra nova.

É possível usar a IRR para um único avaliador?

Não: por definição, a IRR requer pelo menos dois avaliadores independentes. Para um único avaliador é possível verificar a confiabilidade intra-avaliador: a mesma pessoa codifica os mesmos dados novamente depois de um tempo. Isso é uma verificação da estabilidade do trabalho individual, não da concordância entre especialistas.

É necessário verificar a IRR com categorias simples e rotulagem evidente?

Se as categorias são realmente evidentes (por exemplo, extraídas automaticamente de dados estruturados), a IRR não é necessária. Mas se no processo houver interpretação humana (classificação de texto, avaliação do tom, reconhecimento da intenção), a IRR é obrigatória, mesmo que a tarefa pareça simples. A "evidência" muitas vezes acaba sendo subjetiva.

1