Confronto tra Modelli LLM per la Classificazione di Genere
Il genere e' stato classificato usando piu' modelli linguistici di grandi dimensioni. Questa sezione confronta i tassi di accordo e le differenze tra i modelli, evidenziando dove le classificazioni divergono.
Tasso di accordo tra modelli
Metodologia e formula
Cosa mostra: il tasso di accordo tra ogni coppia di modelli LLM nella classificazione di genere.
Per ogni coppia autore-articolo, si confrontano le classificazioni dei due modelli. Se entrambi dicono M o entrambi F → accordo.
I casi dove un modello ha classificato e l'altro no sono riportati come "A only" o "B only".
Formula:
Formula:
agreement % = agree / (agree + disagree) × 100
SELECT "[col_a]", "[col_b]"
FROM article_authors
-- For each row: normalize to m/f, compare
-- agree++ if both valid AND equal
-- disagree++ if both valid AND different
-- Scanned in chunks of 5M rows by id range
Tasso di accordo
| Model A | Model B | Tasso di accordo | Agree | Disagree | A only | B only |
|---|
Matrice di confusione
Metodologia e formula
Cosa mostra: la matrice di confusione tra due modelli LLM selezionati. Le celle sulla diagonale (verde) mostrano dove i modelli concordano, quelle fuori diagonale (rosso) dove discordano.
Esempio: la cella "M × F" indica quante volte il modello A ha detto M e il modello B ha detto F.
Esempio: la cella "M × F" indica quante volte il modello A ha detto M e il modello B ha detto F.
SELECT "[col_a]" AS label_a, "[col_b]" AS label_b, COUNT(*)
FROM article_authors
WHERE "[col_a]" IN ('m','f') AND "[col_b]" IN ('m','f')
GROUP BY label_a, label_b