Pre-calcolo in corso... La prima esecuzione richiede diverse ore. Controlla i log del container.

Panoramica del Dataset

Questa analisi copre l'intero database PubMed, esaminando oltre 32 milioni di articoli e 140 milioni di coppie autore-articolo dal 1945 al 2024. Rappresenta il dataset piu' grande mai analizzato in questo campo, circa 320 volte piu' ampio degli studi precedenti.

Articoli totali
--
Coppie autore-articolo
--
Autori unici
~18.7M
Periodo
--
Discipline mediche
32
Modelli LLM utilizzati
4
% Donne nel 2024
--
Gap leaky pipeline
--
Maschi / Femmine
Metodologia e formula
Cosa mostra: la distribuzione di genere complessiva per l'anno più recente (2024), calcolata dalla colonna DeepSeek v3. Ogni autore è classificato come M (maschio) o F (femmina) dall'LLM sulla base del nome e cognome. I casi non classificabili o ambigui sono esclusi dal donut.
SELECT py.year, aa."gender", COUNT(*) FROM article_authors aa JOIN pmid_year py ON aa.pmid = py.pmid WHERE aa."gender" IN ('m','f') GROUP BY py.year, aa."gender"
% Autrici donne per anno
Metodologia e formula
Formula: % F = female / (male + female + other) × 100 per ogni anno.
Il grafico mostra l'andamento della percentuale di autrici donne dal 1945 al 2024. I dati provengono dalla tabella article_authors JOIN con pmid_year (deduplicata per PMID). Ogni coppia autore-articolo è contata una sola volta.
SELECT py.year, aa."gender", COUNT(*) FROM article_authors aa JOIN pmid_year py ON aa.pmid = py.pmid WHERE aa."gender" IS NOT NULL AND aa."gender" != '' GROUP BY py.year, aa."gender" -- Aggregated in Python: % female = f / (m+f+other) × 100