Metodologia
<h3>Fonte dei Dati</h3>
<p>Il database PubMed baseline completo e' stato ottenuto dai server FTP del National Center for Biotechnology Information (NCBI) nel febbraio 2025. I file XML sono stati analizzati con script Python personalizzati (libreria lxml) per estrarre: metadati degli articoli (PMID, titolo, abstract, data di pubblicazione), informazioni sugli autori (nome, cognome, posizione), dati della rivista, Medical Subject Headings (MeSH) e dati di citazione.</p>
methods_data_source_text
<h3>Classificazione di Genere</h3>
<p>Il genere e' stato assegnato utilizzando piu' modelli linguistici di grandi dimensioni (LLM) tramite API REST. Ogni modello ha ricevuto il nome completo dell'autore (nome e cognome) con un prompt personalizzato che richiedeva una classificazione binaria del genere (maschio/femmina) basata sull'inferenza dal nome e dal contesto culturale.</p>
<p><strong>Modelli utilizzati:</strong></p>
<ul>
<li><strong>DeepSeek v3</strong> - Colonna "gender" (classificazione primaria)</li>
<li><strong>Ministral 3B</strong> - Colonna "mistralai/ministral-3b-2512"</li>
<li><strong>Qwen3 VL 8B</strong> - Colonna "qwen/qwen3-vl-8b"</li>
<li><strong>Hunter Alpha</strong> - Colonna "openrouter/hunter-alpha"</li>
<li><strong>GLM 4.7 Flash</strong> - Colonna "z-ai/glm-4.7-flash"</li>
<li><strong>Claude Sonnet</strong> - Colonna "claude-sonnet-4-6"</li>
</ul>
<p>Studi di validazione precedenti hanno dimostrato un'accuratezza di circa il 97% per la classificazione del genere basata su LLM a partire dai nomi.</p>
methods_gender_text
<h3>Classificazione delle Discipline</h3>
<p>I termini MeSH sono stati mappati a 32 categorie di specialita' medica predefinite utilizzando DeepSeek v3. I termini MeSH di ogni articolo sono stati sottoposti con un prompt che richiedeva l'assegnazione a una o piu' categorie di specialita'. Ogni categoria e' stata conteggiata al massimo una volta per articolo, anche se gli articoli potevano contribuire a piu' categorie.</p>
methods_disciplines_text
Modelli LLM utilizzati
| Column ID | Label |
|---|---|
gender |
DeepSeek v3 |
mistralai/ministral-3b-2512 |
Ministral 3B |
qwen/qwen3-vl-8b |
Qwen3 VL 8B |
openrouter/hunter-alpha |
Hunter Alpha |
z-ai/glm-4.7-flash |
GLM 4.7 Flash |
claude-sonnet-4-6 |
Claude Sonnet |