La statistica testuale – approccio all’analisi del contenuto che costituisce per molti versi l’erede naturale della classica semantica quantitativa, sviluppata fra gli anni Quaranta e gli anni Cinquanta negli Usa – viene utilizzata per analizzare il linguaggio e/o il contenuto di testi e documenti testuali con gli strumenti della statistica.
Un esempio molto semplice è rappresentato dalle ‘word-clouds‘ (nuvole di parole, o nuvole di frequenza), divenute oramai molto familiari nel Web grazie ad applicazioni online come Wordle.net, che calcola le frequenze delle parole presenti in un testo (o una pagina web, o un feed rss) inserito dall’utente, e le rappresenta mediante grafici molto accattivanti (vedi anche Makecloud.com).
Anche con riferimento ai testi, l’analisi statistica viene spesso contrapposta all’interpretazione (intesa come ermeneutica): misure ed indici statistici che forniscono una descrizione sintetica dei contenuti (o forse, meglio, dei linguaggi) di un numero anche molto ampio di testi possono però costituire un supporto affidabile per il lavoro di interpretazione.
Fra i diversi software dedicati a questo tipo di analisi, segnaliamo in particolare gli italiani TalTac e T-Lab (quest’ultimo con dizionari multilingue). Esistono però anche strumenti “open” e gratuiti (vedi il repertorio di ReStore, dell’ESRC). Lo stesso Atlas.ti prevede la funzione di conteggio delle frequenze delle parole contenute nei documenti del progetto (Aggiornamento – 28 agosto 2010: I pacchetti per l’analisi dei testi utilizzabili con R (vedi) sono elencati e descritti a questo indirizzo).
Si tratta di software complessi da utilizzare, come complesse sono le tecniche statistiche utilizzate e la lettura dei risultati prodotti. Prima di decidere se e in quali circostanze utilizzarli per affiancare o sostituire l’analisi interpretativa, è opportuno quindi tenere conto di alcuni aspetti.
1) Tutte queste tecniche si basano sulla scomposizione dei testi in unità elementari di significato (le forme grafiche, cioè le parole e le espressioni composte quali ad es. “analisi_testuale”), come se il significato fosse veicolato (solo) da tali unità, e non anche dalle relazioni che si instaurano fra gli elementi che compongono il testo, o fra il testo ed il contesto (come interazione, ad esempio).
Può quindi risultare difficile interpretare una “wordcloud” in quanto le relazioni delle parole fra di loro e con il loro contesto vengono ad essere perdute. E questo a maggior ragione quando (come in Figura 1) la nuvola viene costruita senza procedere ad alcun intervento sul testo.
D’altra parte, questo limite può essere compensato dalla possibilità di analizzare sistematicamente un numero molto elevato di testi. Inoltre, la statistica testuale consente oramai di fare molto più del semplice conteggio delle frequenze, e dunque anche di recuperare, almeno in parte, il rapporto fra la parola e il testo nel quale è inserita – con le funzioni di navigazione all’interno dei testi e dei segmenti – nonché le relazioni delle parole fra di loro – mediante il calcolo di associazioni (Fig. 2), co-occorrenze, specificità dei testi, e molto altro (rimando a questo testo di Francesca Della Ratta, dal quale è peraltro tratta la wordcloud in Fig. 1).
2) In ogni caso – poiché misure e indici hanno un valore solo ed esclusivamente rispetto alle parole contenute nei testi – queste tecniche vanno applicate ad un corpus non solo ampio, ma anche omogeneo: ampio (almeno 15.000 occorrenze) affinché gli indici statistici siano basati su un numero consistente di occorrenze; omogeneo, perché i risultati siano interpretabili sul piano sostantivo.
I testi inclusi nell’analisi dovranno cioè essere omogenei sia sul piano formale sia su quello dei temi trattati, in modo da garantire (a priori) che i termini in analisi possano essere attribuiti ad un certo campo semantico. I testi dovrebbero insomma parlare di uno stesso argomento, e/o appartenere ad uno stesso contesto, e/o essere stati prodotti da uno stesso autore.
Se può essere giustificato senza (troppi) problemi l’uso dell’analisi statistica del corpus prodotto da un singolo autore (ad esempio l’opera di Shakespeare), più problematico può essere il caso di un corpus formato da tanti articoli di giornale, o da diversi messaggi pubblicitari. Possiamo considerare il corpus omogeneo? Non potrebbe essere che autori diversi, o testate diverse, risultino non comparabili? E comunque, i testi possono essere considerati omogenei rispetto a quali criteri?
3) La statistica – infine – non garantisce in quanto tale l’“oggettività” dei risultati. Come si è visto considerando i due punti precedenti, infatti, i fattori “soggettivi” e contestuali (l’influenza del ricercatore cioè e la rilevanza del contesto nella produzione ed interpretazione dei testi) svolgono pur sempre un ruolo determinante, tant’è che Bolasco suggerisce di utilizzare l’espressione analisi semi-automatica dei testi.
È infatti il ricercatore scegliere i testi da analizzare, a valutarne l’omogeneità, e ad operare su di essi i molti necessari interventi da effettuare prima dell’analisi. La stessa lettura dei risultati di solito non è affatto scontata ed auto-evidente (né del resto potrebbe mai essere auto-evidente qualcosa di prodotto attraverso procedure tanto complesse). A partire quindi dagli stessi testi, anche con la statistica testuale, ricercatori diversi potrebbero giungere a risultati e conclusioni diversi.
Resta sempre preferibile (in base anche al semplice buon senso) integrare laddove possibile i diversi strumenti, e soprattutto evitare di utilizzarli a sproposito, come non di rado accade.
















