Confronto tra Modelli LLM per la Classificazione di Genere

Il genere e' stato classificato usando piu' modelli linguistici di grandi dimensioni. Questa sezione confronta i tassi di accordo e le differenze tra i modelli, evidenziando dove le classificazioni divergono.

Tasso di accordo tra modelli

Metodologia e formula

Cosa mostra: il tasso di accordo tra ogni coppia di modelli LLM nella classificazione di genere. Per ogni coppia autore-articolo, si confrontano le classificazioni dei due modelli. Se entrambi dicono M o entrambi F → accordo. I casi dove un modello ha classificato e l'altro no sono riportati come "A only" o "B only".
Formula: agreement % = agree / (agree + disagree) × 100

SELECT "[col_a]", "[col_b]" FROM article_authors -- For each row: normalize to m/f, compare -- agree++ if both valid AND equal -- disagree++ if both valid AND different -- Scanned in chunks of 5M rows by id range

Tasso di accordo

Model A	Model B	Tasso di accordo	Agree	Disagree	A only	B only

Matrice di confusione

Model pair

Metodologia e formula

Cosa mostra: la matrice di confusione tra due modelli LLM selezionati. Le celle sulla diagonale (verde) mostrano dove i modelli concordano, quelle fuori diagonale (rosso) dove discordano.
Esempio: la cella "M × F" indica quante volte il modello A ha detto M e il modello B ha detto F.

SELECT "[col_a]" AS label_a, "[col_b]" AS label_b, COUNT(*) FROM article_authors WHERE "[col_a]" IN ('m','f') AND "[col_b]" IN ('m','f') GROUP BY label_a, label_b