IRR (Confiabilidade entre avaliadores)
31 mai 2026 Tempo de leitura ≈ 10 min
Você coletou 500 respostas abertas em uma pesquisa e as entrega a dois analistas para codificá-las nas categorias "reclamação", "agradecimento", "pergunta".
O primeiro analista encontra 120 reclamações, o segundo encontra 180. Em quem confiar? Se os códigos deles divergem em 30%, então qualquer conclusão baseada nessa classificação é questionável. A confiabilidade entre avaliadores é a métrica que avalia formalmente se diferentes especialistas leem os mesmos dados da mesma maneira.
Definição
Confiabilidade entre avaliadores (IRR) é o grau de concordância entre as avaliações ou classificações atribuídas por diferentes especialistas independentes (avaliadores) aos mesmos objetos ou respostas. É usada na codificação de respostas abertas, na avaliação de dados qualitativos, no feedback de 360 graus e em avaliações de especialistas. Uma IRR alta significa que a categorização ou avaliação é objetiva e reproduzível, e não depende da percepção individual de um especialista em particular.
Para que medir a IRR
Qualquer dado que passe pelo julgamento subjetivo de uma pessoa precisa ser verificado: diferentes especialistas produzem o mesmo resultado? Sem a IRR você não sabe se os códigos refletem a estrutura real dos dados ou as preferências individuais de um analista em particular.
Três cenários típicos em que a IRR é crítica:
Codificação de respostas abertas. Após uma pesquisa com perguntas abertas, as respostas são classificadas por tema. Se os códigos são subjetivos, as estatísticas agregadas ("40% mencionaram a qualidade do suporte") tornam-se pouco confiáveis.
Análise qualitativa de entrevistas, grupos focais e feedback. Identificar temas, padrões e insights é um processo subjetivo no qual a IRR garante a reprodutibilidade.
Procedimentos de avaliação. Assessments, avaliações de desempenho, avaliações de especialistas sobre a qualidade do trabalho. Se diferentes avaliadores dão notas diferentes à mesma pessoa, o processo é injusto e pouco informativo.
Como a IRR é medida
A escolha do coeficiente depende do tipo de dados:
Percentual de concordância (Percent Agreement). O mais simples: a proporção de casos em que os avaliadores concordaram. É intuitivo, mas superestima a concordância: até uma coincidência ao acaso é incluída no percentual. Não é recomendado como única métrica.
Kappa de Cohen (κ). Para dois avaliadores e categorias nominais. Leva em conta a concordância descontando as coincidências ao acaso. Os valores vão de -1 a 1:
- κ < 0 — concordância pior que o acaso (raro)
- 0 ≤ κ < 0,4 — fraca
- 0,4 ≤ κ < 0,6 — moderada
- 0,6 ≤ κ < 0,8 — substancial
- κ ≥ 0,8 — concordância quase perfeita
Kappa de Fleiss. Uma generalização do kappa de Cohen para o caso de três ou mais avaliadores.
Alfa de Krippendorff (α). Um coeficiente universal: funciona para qualquer número de avaliadores, qualquer tipo de dados (nominais, ordinais, intervalares) e leva em conta as avaliações ausentes. É considerado o padrão moderno.
Coeficiente de correlação intraclasse (ICC). Para avaliações quantitativas (pontuações numéricas). É usado em psicometria e assessments. Os limiares são análogos aos do kappa.
Exemplo: codificação de respostas abertas sobre uma experiência de atendimento
Uma pesquisa coletou 300 respostas abertas à pergunta "Conte sobre a sua interação mais recente com o suporte". Dois analistas codificam de forma independente cada resposta em uma de 5 categorias: "experiência positiva", "neutra", "problema com o produto", "problema com o atendente", "não é sobre o suporte".
Resultados da primeira passagem:
- Percentual de concordância: 78% (234 de 300 respostas classificadas da mesma maneira)
- Kappa de Cohen: 0,64 — concordância substancial
78% soa bem, mas um kappa de 0,64 está no limite do aceitável. Eles revisaram os 66 casos contestados e descobriram que os analistas divergem nas categorias "problema com o produto" versus "problema com o atendente": os limites entre elas são imprecisos. Atualizaram as instruções de codificação com exemplos concretos para cada categoria e realizaram um breve workshop de calibração. Depois disso, uma nova medição em uma parte nova dos dados: κ = 0,82 — concordância quase perfeita. Agora os dados podem ser analisados e decisões podem ser tomadas com base neles.
Procedimento para verificar e aumentar a IRR
1. Desenvolvimento do esquema de codificação. Categorias claras e mutuamente exclusivas, com definições e exemplos. Quanto mais claro o esquema, maior a IRR. Limites imprecisos entre categorias são a principal causa de baixa concordância.
2. Treinamento dos avaliadores. Calibração conjunta em uma pequena amostra: análise de casos difíceis, discussão dos princípios de categorização, alinhamento das interpretações.
3. Codificação piloto. Ambos os avaliadores codificam de forma independente 30-50 casos. A IRR é calculada. Se for baixa, analisam-se as divergências, refina-se o esquema e recalibra-se.
4. Codificação principal. Depois que a IRR piloto é aceitável (κ ≥ 0,7), os avaliadores codificam todo o conjunto de dados. Parte dos dados (10-20%) é codificada por ambos os avaliadores para controlar a estabilidade.
5. Verificação periódica. Em trabalhos prolongados, reavaliar a IRR a cada 100-200 unidades para detectar o "desvio" nas interpretações.
O que influencia a IRR
Clareza das categorias. Categorias imprecisas ou sobrepostas são a principal causa de baixa concordância. "Experiência negativa" e "insatisfação" podem significar quase a mesma coisa, e isso gera divergências constantes.
Número de categorias. Mais categorias → menor concordância. De 3 a 5 categorias geralmente dão uma IRR mais alta que 15. Se você precisa de uma classificação detalhada, faça-a em dois níveis: primeiro as categorias base (IRR alta) e depois as subcategorias dentro delas (uma concordância mais complexa).
Experiência dos avaliadores. Analistas novos produzem códigos mais variáveis. A calibração prévia e a discussão conjunta dos primeiros casos aumentam a IRR.
Complexidade do material. Respostas longas e com vários temas são codificadas com menor concordância do que as curtas e inequívocas. Para dados complexos pode ser necessária uma codificação multirrótulo (várias etiquetas por resposta) em vez de uma única categoria.
IRR versus outros tipos de confiabilidade
A IRR complementa outras métricas de confiabilidade:
- IRR — concordância entre avaliadores
- Test-retest — estabilidade ao longo do tempo
- Alfa de Cronbach — consistência dentro de uma escala
Para avaliações subjetivas, a IRR é uma métrica crítica. Para escalas padronizadas (escolher uma opção de uma lista) a IRR é menos importante: ali a confiabilidade-chave é a interna e a temporal.
Erros típicos ao trabalhar com a IRR
Usar apenas o percentual de concordância. Para dados com uma distribuição desigual das categorias (90% das respostas são "neutras"), até uma escolha ao acaso dará um alto percentual de concordância. O kappa corrige esse viés e fornece uma estimativa mais honesta.
Os avaliadores discutem os casos durante o processo de codificação. Se os analistas se consultam enquanto trabalham, alinham artificialmente seus códigos, e a IRR não mede uma concordância independente, mas uma discussão coletiva. A independência das avaliações é crítica.
Não fixar o esquema de codificação. O esquema deve ser fixado antes de iniciar a codificação e não mudar durante o processo. Se as categorias surgem ou são refinadas ao longo do caminho, os casos codificados anteriormente precisam ser reavaliados.
Não documentar as divergências. A análise dos casos de discordância é um diagnóstico valioso: mostra onde o esquema é ambíguo, quais tipos de respostas se confundem de forma sistemática e onde são necessários esclarecimentos. Sem essa análise, a IRR se transforma em um número sem conclusões práticas.
A IRR em pesquisas baseadas em surveys
No trabalho com dados de pesquisas, a IRR é aplicada principalmente na análise de respostas abertas e na pesquisa qualitativa. A prática padrão: dois analistas independentes codificam uma amostra de respostas, calcula-se o kappa de Cohen, o esquema é refinado se necessário, e então um único analista codifica todo o conjunto de dados com reverificações periódicas em uma amostra.
A IRR também faz parte da triangulação em desenhos de pesquisa de métodos mistos: quando os dados quantitativos são complementados com uma análise qualitativa de respostas abertas ou entrevistas, a confiabilidade da codificação destas últimas deve ser documentada. Sem isso, as conclusões da parte qualitativa não podem sustentar os resultados quantitativos.
A confiabilidade entre avaliadores é uma medida objetiva de quão consistentes são as avaliações de diferentes especialistas. Sem a IRR, qualquer análise qualitativa permanece na zona do "foi assim que o analista viu". Com ela, torna-se um procedimento reproduzível. Um kappa de Cohen de 0,7 é um limiar aceitável; acima de 0,8 é o padrão para pesquisas sérias. Uma IRR baixa é um sinal para refinar o esquema de codificação, não para se conformar com as discordâncias.
Perguntas frequentes
Quantos avaliadores são necessários para verificar a IRR?
No mínimo dois: este é o caso clássico para o kappa de Cohen. Para três ou mais, usa-se o kappa de Fleiss ou o alfa de Krippendorff. Na prática, dois são suficientes para a maioria das tarefas: o ganho na confiabilidade da estimativa ao adicionar um terceiro avaliador é pequeno, enquanto o custo do trabalho dobra.
Qual limiar de IRR considerar aceitável?
Kappa de Cohen ≥ 0,6 — o mínimo para fins de pesquisa. ≥ 0,7 — o limiar padrão para uso aplicado. ≥ 0,8 — concordância alta, adequada para tomar decisões importantes. Abaixo de 0,6 — o esquema ou os avaliadores precisam de aprimoramento.
O que fazer se a IRR for baixa?
Não "fazer a média" das avaliações, mas analisar as divergências. Analise os casos de discordância: você encontrará onde o esquema é ambíguo ou onde os avaliadores o interpretam de forma diferente. Refine as definições das categorias, adicione exemplos, realize uma sessão de calibração. Depois disso, uma nova medição da IRR em uma amostra nova.
É possível usar a IRR para um único avaliador?
Não: por definição, a IRR requer pelo menos dois avaliadores independentes. Para um único avaliador é possível verificar a confiabilidade intra-avaliador: a mesma pessoa codifica os mesmos dados novamente depois de um tempo. Isso é uma verificação da estabilidade do trabalho individual, não da concordância entre especialistas.
É necessário verificar a IRR com categorias simples e rotulagem evidente?
Se as categorias são realmente evidentes (por exemplo, extraídas automaticamente de dados estruturados), a IRR não é necessária. Mas se no processo houver interpretação humana (classificação de texto, avaliação do tom, reconhecimento da intenção), a IRR é obrigatória, mesmo que a tarefa pareça simples. A "evidência" muitas vezes acaba sendo subjetiva.
Publicado: 31 mai 2026
Mike Taylor