Pre-calcolo in corso... La prima esecuzione richiede diverse ore. Controlla i log del container.
Panoramica del Dataset
Questa analisi copre l'intero database PubMed, esaminando oltre 32 milioni di articoli e 140 milioni di coppie autore-articolo dal 1945 al 2024. Rappresenta il dataset piu' grande mai analizzato in questo campo, circa 320 volte piu' ampio degli studi precedenti.
Articoli totali
--
Coppie autore-articolo
--
Autori unici
~18.7M
Periodo
--
Discipline mediche
32
Modelli LLM utilizzati
4
% Donne nel 2024
--
Gap leaky pipeline
--
Maschi / Femmine
Metodologia e formula
Cosa mostra: la distribuzione di genere complessiva per l'anno più recente (2024), calcolata dalla colonna DeepSeek v3.
Ogni autore è classificato come M (maschio) o F (femmina) dall'LLM sulla base del nome e cognome. I casi non classificabili o ambigui sono esclusi dal donut.
SELECT py.year, aa."gender", COUNT(*)
FROM article_authors aa
JOIN pmid_year py ON aa.pmid = py.pmid
WHERE aa."gender" IN ('m','f')
GROUP BY py.year, aa."gender"
% Autrici donne per anno
Metodologia e formula
Formula:
Il grafico mostra l'andamento della percentuale di autrici donne dal 1945 al 2024. I dati provengono dalla tabella
% F = female / (male + female + other) × 100 per ogni anno.Il grafico mostra l'andamento della percentuale di autrici donne dal 1945 al 2024. I dati provengono dalla tabella
article_authors JOIN con pmid_year (deduplicata per PMID). Ogni coppia autore-articolo è contata una sola volta.
SELECT py.year, aa."gender", COUNT(*)
FROM article_authors aa
JOIN pmid_year py ON aa.pmid = py.pmid
WHERE aa."gender" IS NOT NULL AND aa."gender" != ''
GROUP BY py.year, aa."gender"
-- Aggregated in Python: % female = f / (m+f+other) × 100