IRR (Confiabilidade entre avaliadores)

Q: Quantos avaliadores são necessários para verificar a IRR?

No mínimo dois para o kappa de Cohen. Para três ou mais, usa-se o kappa de Fleiss ou o alfa de Krippendorff. Na prática, dois são suficientes: o ganho na confiabilidade ao adicionar um terceiro avaliador é pequeno, enquanto o custo do trabalho dobra.

Q: Qual limiar de IRR considerar aceitável?

Kappa de Cohen ≥ 0,6 — o mínimo para fins de pesquisa. ≥ 0,7 — o padrão para uso aplicado. ≥ 0,8 — concordância alta, adequada para decisões importantes. Abaixo de 0,6 — o esquema ou os avaliadores precisam de aprimoramento.

Q: O que fazer se a IRR for baixa?

Não fazer a média das avaliações, mas analisar as divergências. Analise os casos de discordância, refine as definições das categorias, adicione exemplos, realize uma sessão de calibração. Depois, uma nova medição da IRR em uma amostra nova.

Q: É possível usar a IRR para um único avaliador?

Não: a IRR requer pelo menos dois avaliadores independentes. Para um único é possível verificar a confiabilidade intra-avaliador: a mesma pessoa codifica os mesmos dados novamente depois de um tempo. Isso é uma verificação da estabilidade do trabalho individual.

Q: É necessário verificar a IRR com categorias simples?

Se as categorias são extraídas automaticamente, não. Mas se no processo houver interpretação humana (classificação de texto, avaliação do tom), a IRR é obrigatória, mesmo que a tarefa pareça simples.

Mike Taylor 31 mai 2026 Tempo de leitura ≈ 10 min

Você coletou 500 respostas abertas em uma pesquisa e as entrega a dois analistas para codificá-las nas categorias "reclamação", "agradecimento", "pergunta".

O primeiro analista encontra 120 reclamações, o segundo encontra 180. Em quem confiar? Se os códigos deles divergem em 30%, então qualquer conclusão baseada nessa classificação é questionável. A confiabilidade entre avaliadores é a métrica que avalia formalmente se diferentes especialistas leem os mesmos dados da mesma maneira.

Definição

Confiabilidade entre avaliadores (IRR) é o grau de concordância entre as avaliações ou classificações atribuídas por diferentes especialistas independentes (avaliadores) aos mesmos objetos ou respostas. É usada na codificação de respostas abertas, na avaliação de dados qualitativos, no feedback de 360 graus e em avaliações de especialistas. Uma IRR alta significa que a categorização ou avaliação é objetiva e reproduzível, e não depende da percepção individual de um especialista em particular.

Para que medir a IRR

Qualquer dado que passe pelo julgamento subjetivo de uma pessoa precisa ser verificado: diferentes especialistas produzem o mesmo resultado? Sem a IRR você não sabe se os códigos refletem a estrutura real dos dados ou as preferências individuais de um analista em particular.

Três cenários típicos em que a IRR é crítica:

Codificação de respostas abertas. Após uma pesquisa com perguntas abertas, as respostas são classificadas por tema. Se os códigos são subjetivos, as estatísticas agregadas ("40% mencionaram a qualidade do suporte") tornam-se pouco confiáveis.

Análise qualitativa de entrevistas, grupos focais e feedback. Identificar temas, padrões e insights é um processo subjetivo no qual a IRR garante a reprodutibilidade.

Procedimentos de avaliação. Assessments, avaliações de desempenho, avaliações de especialistas sobre a qualidade do trabalho. Se diferentes avaliadores dão notas diferentes à mesma pessoa, o processo é injusto e pouco informativo.

Como a IRR é medida

A escolha do coeficiente depende do tipo de dados:

Percentual de concordância (Percent Agreement). O mais simples: a proporção de casos em que os avaliadores concordaram. É intuitivo, mas superestima a concordância: até uma coincidência ao acaso é incluída no percentual. Não é recomendado como única métrica.

Kappa de Cohen (κ). Para dois avaliadores e categorias nominais. Leva em conta a concordância descontando as coincidências ao acaso. Os valores vão de -1 a 1:

κ < 0 — concordância pior que o acaso (raro)
0 ≤ κ < 0,4 — fraca
0,4 ≤ κ < 0,6 — moderada
0,6 ≤ κ < 0,8 — substancial
κ ≥ 0,8 — concordância quase perfeita

Kappa de Fleiss. Uma generalização do kappa de Cohen para o caso de três ou mais avaliadores.

Alfa de Krippendorff (α). Um coeficiente universal: funciona para qualquer número de avaliadores, qualquer tipo de dados (nominais, ordinais, intervalares) e leva em conta as avaliações ausentes. É considerado o padrão moderno.

Coeficiente de correlação intraclasse (ICC). Para avaliações quantitativas (pontuações numéricas). É usado em psicometria e assessments. Os limiares são análogos aos do kappa.

Exemplo: codificação de respostas abertas sobre uma experiência de atendimento

Uma pesquisa coletou 300 respostas abertas à pergunta "Conte sobre a sua interação mais recente com o suporte". Dois analistas codificam de forma independente cada resposta em uma de 5 categorias: "experiência positiva", "neutra", "problema com o produto", "problema com o atendente", "não é sobre o suporte".

Resultados da primeira passagem:

Percentual de concordância: 78% (234 de 300 respostas classificadas da mesma maneira)
Kappa de Cohen: 0,64 — concordância substancial

78% soa bem, mas um kappa de 0,64 está no limite do aceitável. Eles revisaram os 66 casos contestados e descobriram que os analistas divergem nas categorias "problema com o produto" versus "problema com o atendente": os limites entre elas são imprecisos. Atualizaram as instruções de codificação com exemplos concretos para cada categoria e realizaram um breve workshop de calibração. Depois disso, uma nova medição em uma parte nova dos dados: κ = 0,82 — concordância quase perfeita. Agora os dados podem ser analisados e decisões podem ser tomadas com base neles.

Procedimento para verificar e aumentar a IRR

1. Desenvolvimento do esquema de codificação. Categorias claras e mutuamente exclusivas, com definições e exemplos. Quanto mais claro o esquema, maior a IRR. Limites imprecisos entre categorias são a principal causa de baixa concordância.

2. Treinamento dos avaliadores. Calibração conjunta em uma pequena amostra: análise de casos difíceis, discussão dos princípios de categorização, alinhamento das interpretações.

3. Codificação piloto. Ambos os avaliadores codificam de forma independente 30-50 casos. A IRR é calculada. Se for baixa, analisam-se as divergências, refina-se o esquema e recalibra-se.

4. Codificação principal. Depois que a IRR piloto é aceitável (κ ≥ 0,7), os avaliadores codificam todo o conjunto de dados. Parte dos dados (10-20%) é codificada por ambos os avaliadores para controlar a estabilidade.

5. Verificação periódica. Em trabalhos prolongados, reavaliar a IRR a cada 100-200 unidades para detectar o "desvio" nas interpretações.

O que influencia a IRR

Clareza das categorias. Categorias imprecisas ou sobrepostas são a principal causa de baixa concordância. "Experiência negativa" e "insatisfação" podem significar quase a mesma coisa, e isso gera divergências constantes.

Número de categorias. Mais categorias → menor concordância. De 3 a 5 categorias geralmente dão uma IRR mais alta que 15. Se você precisa de uma classificação detalhada, faça-a em dois níveis: primeiro as categorias base (IRR alta) e depois as subcategorias dentro delas (uma concordância mais complexa).

Experiência dos avaliadores. Analistas novos produzem códigos mais variáveis. A calibração prévia e a discussão conjunta dos primeiros casos aumentam a IRR.

Complexidade do material. Respostas longas e com vários temas são codificadas com menor concordância do que as curtas e inequívocas. Para dados complexos pode ser necessária uma codificação multirrótulo (várias etiquetas por resposta) em vez de uma única categoria.

IRR versus outros tipos de confiabilidade

A IRR complementa outras métricas de confiabilidade:

IRR — concordância entre avaliadores
Test-retest — estabilidade ao longo do tempo
Alfa de Cronbach — consistência dentro de uma escala

Para avaliações subjetivas, a IRR é uma métrica crítica. Para escalas padronizadas (escolher uma opção de uma lista) a IRR é menos importante: ali a confiabilidade-chave é a interna e a temporal.

Erros típicos ao trabalhar com a IRR

Usar apenas o percentual de concordância. Para dados com uma distribuição desigual das categorias (90% das respostas são "neutras"), até uma escolha ao acaso dará um alto percentual de concordância. O kappa corrige esse viés e fornece uma estimativa mais honesta.

Os avaliadores discutem os casos durante o processo de codificação. Se os analistas se consultam enquanto trabalham, alinham artificialmente seus códigos, e a IRR não mede uma concordância independente, mas uma discussão coletiva. A independência das avaliações é crítica.

Não fixar o esquema de codificação. O esquema deve ser fixado antes de iniciar a codificação e não mudar durante o processo. Se as categorias surgem ou são refinadas ao longo do caminho, os casos codificados anteriormente precisam ser reavaliados.

Não documentar as divergências. A análise dos casos de discordância é um diagnóstico valioso: mostra onde o esquema é ambíguo, quais tipos de respostas se confundem de forma sistemática e onde são necessários esclarecimentos. Sem essa análise, a IRR se transforma em um número sem conclusões práticas.

A IRR em pesquisas baseadas em surveys

No trabalho com dados de pesquisas, a IRR é aplicada principalmente na análise de respostas abertas e na pesquisa qualitativa. A prática padrão: dois analistas independentes codificam uma amostra de respostas, calcula-se o kappa de Cohen, o esquema é refinado se necessário, e então um único analista codifica todo o conjunto de dados com reverificações periódicas em uma amostra.

A IRR também faz parte da triangulação em desenhos de pesquisa de métodos mistos: quando os dados quantitativos são complementados com uma análise qualitativa de respostas abertas ou entrevistas, a confiabilidade da codificação destas últimas deve ser documentada. Sem isso, as conclusões da parte qualitativa não podem sustentar os resultados quantitativos.

A confiabilidade entre avaliadores é uma medida objetiva de quão consistentes são as avaliações de diferentes especialistas. Sem a IRR, qualquer análise qualitativa permanece na zona do "foi assim que o analista viu". Com ela, torna-se um procedimento reproduzível. Um kappa de Cohen de 0,7 é um limiar aceitável; acima de 0,8 é o padrão para pesquisas sérias. Uma IRR baixa é um sinal para refinar o esquema de codificação, não para se conformar com as discordâncias.

Perguntas frequentes

Quantos avaliadores são necessários para verificar a IRR?

No mínimo dois: este é o caso clássico para o kappa de Cohen. Para três ou mais, usa-se o kappa de Fleiss ou o alfa de Krippendorff. Na prática, dois são suficientes para a maioria das tarefas: o ganho na confiabilidade da estimativa ao adicionar um terceiro avaliador é pequeno, enquanto o custo do trabalho dobra.

Qual limiar de IRR considerar aceitável?

Kappa de Cohen ≥ 0,6 — o mínimo para fins de pesquisa. ≥ 0,7 — o limiar padrão para uso aplicado. ≥ 0,8 — concordância alta, adequada para tomar decisões importantes. Abaixo de 0,6 — o esquema ou os avaliadores precisam de aprimoramento.

O que fazer se a IRR for baixa?

Não "fazer a média" das avaliações, mas analisar as divergências. Analise os casos de discordância: você encontrará onde o esquema é ambíguo ou onde os avaliadores o interpretam de forma diferente. Refine as definições das categorias, adicione exemplos, realize uma sessão de calibração. Depois disso, uma nova medição da IRR em uma amostra nova.

É possível usar a IRR para um único avaliador?

Não: por definição, a IRR requer pelo menos dois avaliadores independentes. Para um único avaliador é possível verificar a confiabilidade intra-avaliador: a mesma pessoa codifica os mesmos dados novamente depois de um tempo. Isso é uma verificação da estabilidade do trabalho individual, não da concordância entre especialistas.

É necessário verificar a IRR com categorias simples e rotulagem evidente?

Se as categorias são realmente evidentes (por exemplo, extraídas automaticamente de dados estruturados), a IRR não é necessária. Mas se no processo houver interpretação humana (classificação de texto, avaliação do tom, reconhecimento da intenção), a IRR é obrigatória, mesmo que a tarefa pareça simples. A "evidência" muitas vezes acaba sendo subjetiva.

Publicado: 31 mai 2026

Crie sua própria pesquisa hoje