Confronto tra Modelli LLM per la Classificazione di Genere

Il genere e' stato classificato usando piu' modelli linguistici di grandi dimensioni. Questa sezione confronta i tassi di accordo e le differenze tra i modelli, evidenziando dove le classificazioni divergono.

Tasso di accordo tra modelli
Metodologia e formula
Cosa mostra: il tasso di accordo tra ogni coppia di modelli LLM nella classificazione di genere. Per ogni coppia autore-articolo, si confrontano le classificazioni dei due modelli. Se entrambi dicono M o entrambi F → accordo. I casi dove un modello ha classificato e l'altro no sono riportati come "A only" o "B only".
Formula: agreement % = agree / (agree + disagree) × 100
SELECT "[col_a]", "[col_b]" FROM article_authors -- For each row: normalize to m/f, compare -- agree++ if both valid AND equal -- disagree++ if both valid AND different -- Scanned in chunks of 5M rows by id range
Tasso di accordo
Model A Model B Tasso di accordo Agree Disagree A only B only
Matrice di confusione
Metodologia e formula
Cosa mostra: la matrice di confusione tra due modelli LLM selezionati. Le celle sulla diagonale (verde) mostrano dove i modelli concordano, quelle fuori diagonale (rosso) dove discordano.
Esempio: la cella "M × F" indica quante volte il modello A ha detto M e il modello B ha detto F.
SELECT "[col_a]" AS label_a, "[col_b]" AS label_b, COUNT(*) FROM article_authors WHERE "[col_a]" IN ('m','f') AND "[col_b]" IN ('m','f') GROUP BY label_a, label_b