|
di Leonardo Gnesi
1. Intro
Esiste una "sana" interdisciplinarietà, in cui specifiche
metodologie e prassi sono condivise tra distinti settori delle conoscenze,
ancora prima di improbabili corrispondenze di contenuti e significati
purtroppo perseguite nei più recenti progetti di riforma scolastica
[1]. Questo scambio di idee e metodi
tra diverse discipline allo scopo di affrontare determinati problemi,
generalmente provvede nuove chiavi di lettura e rischiara strade percorribili
di cui difficilmente ci saremmo altrimenti immaginati l'esistenza. L'esempio
che vogliamo considerare in questo scritto concerne la linguistica, la
biologia e la fisica (o meglio, la biofisica, una scienza interdisciplinare,
per l'appunto, unita dalla biologia, dalla chimica e dalla fisica) ed
in particolare un recente studio (1994) volto ad approfondire il ruolo
di circa il 95% del DNA umano.

2. Bio
Il DNA è un acido presente in ogni cellula di ogni
essere vivente, ed è il responsabile di ogni processo vitale che
si compie negli organismi. Esso è composto di 4 sostanze (dette
"basi") le cui iniziali sono A,T,C,G; per i nostri fini, possiamo immaginare
che esse siano disposte in sequenza, come una stringa di caratteri, ad
esempio:
....ATCGCGATGATGCGATTTGATCATGAAAAATAGATAGATAACCCATTAGGA....
In ogni molecola di DNA vi sono milioni di sequenze di questo tipo, il
cui significato è -eccezion fatta per organismi estremamente semplici,
come i batteri- pressoché ignoto. La difficoltà nel capire
il ruolo di una così enorme quantità di basi e di un loro
specifico allineamento può essere paragonato [2]
alla difficoltà che noi occidentali potremmo avere ad esempio volendo
tradurre l'intero Corano dall'arabo. Infatti, non saremmo mediamente in
grado di riconoscere l'alfabeto, né il significato delle parole,
né la grammatica e la sintassi del linguaggio.
Davanti all'enorme testo scritto che è il DNA i biologi, nell'intento
di tradurlo, devono dunque affrontare il problema di capire:
1. quali sono le "parole", cioè quante basi occorrono per fare
una sequenza con una certa pur minima funzione;
2. qual è la "grammatica", cioè come tali sequenze funzionali
interagiscano tra loro al fine di governare un certo processo vitale;
3. persino qual è l'alfabeto, cioè se ad ogni "lettera"
corrisponde una singola base A,T,C,G o piuttosto un gruppo (coppie, triplette...)
di basi.
La sequenza di basi del DNA è composta di parti "codificanti" e
parti "non codificanti": nelle prime figurano soltanto parole di 3 basi
e quindi tutte le possibili parole (sono 43 = 64) sono state
studiate dai biologi che ne hanno costruito il corrispondente dizionario,
più familiarmente noto come Codice Genetico. In esso si contemplano
le corrispondenze tra ogni tripletta di basi e la corrispondente funzione,
ad esempio:
GCC,GCA,GCG,GCT --> costruire l'Alanina;
TGG --> costruire il Triptofano; [3]
....
"Sfortunatamente", le zone codificanti negli organismi evoluti (certamente
l'uomo, ma anche un modestissimo lievito di birra!) sono soltanto una
piccola percentuale del DNA totale: nell'uomo, ad esempio, solo il 5%.
Il restante 95% di DNA è non-codificante: si tratta infatti di
sequenze che non vengono tradotte col meccanismo delle triplette di basi
e che perciò appare "silente". Attualmente, sul ruolo di queste
larghe porzioni di DNA sono state fatte varie ipotesi, sembrando strano
infatti che la Natura, altrove così parsimoniosa, possa aver fornito
- o quanto meno, dimenticato - una tale quantità di materia, energia,
informazioni. Una delle ipotesi più interessanti è che le
zone non codificanti celino un linguaggio "naturale" ancora sconosciuto.
Per verificare la correttezza di questa ipotesi, mostreremo tra breve
come alcuni scienziati abbiano cercato di capire se tali sequenze soddisfano
alcuni requisiti fondamentali comuni ad ogni linguaggio esistente. È
bene comunque ricordare, per tenere la discussione ad un livello concreto,
che l'obiettivo di tradurre il DNA è, dato lo stato delle conoscenze
e delle ricerche attuali, del tutto irraggiungibile.

3. Linguistica
3.1 Un certo signor Zipf
George Kingsley Zipf (1902-1950), americano, è stato
una figura molto controversa, e non a torto, del mondo accademico del
suo tempo [4]. Esperto di filologia
germanica, durante i venti anni di insegnamento a Harvard amava definirsi
un "ecologista umano statistico". Egli morì subito dopo aver pubblicato,
pare a sue spese, "Human Behaviour and the Principle of Least Effort"
che, considerata la summa delle sue ricerche, è un testo in cui
la genialità di base delle sue osservazioni resta offuscata da
un'enorme quantità di nozioni triviali ed opinioni inopportune,
come l'indagine sulla forma degli organi sessuali o la giustificazione
dell'Anschlub dell'Austria in base ad un miglior accordo con le leggi
da lui scoperte.
I risultati innovativi ottenuti erano in forte contrapposizione con le
idee degli scienziati dell'epoca che non riconobbero mai il valore delle
sue ricerche, a maggior ragione perché nel suo libro Zipf non fu
in grado di interpretare tutte le osservazioni in un omogeneo quadro di
lettura. L'influenza di Zipf sarebbe dunque stata destinata a un ruolo
marginale, se non fosse che nei decenni successivi alla sua morte le scienze
naturali (dalla fisica alla biologia) e le discipline umanistiche (dalla
linguistica alla politica) hanno riconosciuto la veridicità delle
sue affermazioni. Come Mandelbrot [5]
ha giustamente fatto notare, in Zipf "si riconosce, in modo chiaro
ed anche caricaturale, la straordinaria difficoltà che soggiace
ad ogni approccio interdisciplinare".
Ma qual è stato dunque il lavoro di questo stravagante personaggio?
Zipf ha analizzato una mole di scritti in lingua inglese, conteggiando
le volte che ogni parola era ripetuta; poi ha classificato le parole in
ordine decrescente di conteggi ed infine ha rappresentato su un grafico
il numero di conteggi in funzione della posizione in classifica. Fu così
evidenziato che c'è una relazione ben precisa tra il punteggio
di ogni parola e la relativa posizione in classifica: con una certa approssimazione,
si può affermare che la seconda in classifica ha un numero di conteggi
che è la metà del punteggio della prima; la terza ha 1/3
dei conteggi della prima; la quarta, 1/4 e così via. Questa è
la celebre Legge di Zipf.
Ad esempio, un recente conteggio su un campione di 46449 articoli del
Wall Street Journal anno '87, per un totale di circa 19 milioni di occorrenze,
ha evidenziato che le prime 20 parole sono [6]:
the, of, to, a, in, and, that, for, is, said, it, on, by, as, at, mr,
with, from, he, million,......
La legge di Zipf fu contrastata in ambiente scientifico perché
appariva come uno schiaffo al cosiddetto "dogma gaussiano" che regnava
indisturbato in virtù dei secoli di prestigio di cui aveva goduto
grazie ai successi nelle scienze naturali (specialmente in fisica e chimica).
Tuttavia essa è stata confermata negli anni in molti linguaggi:
la maggioranza di lingue europee, inglese americano, inglese americano
orale, inglese americano orale "adult-oriented", cinese, giapponese, ...Una
lista completa di referenze può essere consultata nel sito di W.
Li della Rockefeller University.
Quindi la legge di Zipf concerne le lingue scritte/parlate dall'uomo.
In altri termini, se un testo fosse scritto disponendo parole in modo
casuale, senza voler trasmettere un significato, la legge di Zipf non
sarebbe valida, a favore della legge gaussiana; questo è quanto
accade in certi fenomeni naturali (ad esempio soddisfa legge gaussiana
la distribuzione delle velocità tra gli atomi di un gas). Dunque
stiamo parlando di una legge inerente l'attività umana in quanto
presuppone l'esistenza di un messaggio da trasmettere. Essa si applica
cioè ad insiemi contenenti tantissimi oggetti (ad esempio 19 milioni
di occorrenze) solo apparentemente casuali, essendo in realtà stati
estratti da testi, quindi vincolati da regole estetiche, di sintassi e
grammatica [7].
È chiaro che in quest'ottica la legge di Zipf può assumere
un valore più generale, potendo essere estesa ad ogni attività
umana in cui ci sia un messaggio sottinteso: ad esempio, statistiche analoghe
valgono nei modelli di crescita urbana (classificando le città
in base alla loro popolazione), previsioni di terremoti, sistemi di catalogazione
bibliotecaria, traffico di Internet, strategie di marketing, metodi per
intercettare evasori fiscali,... (vedi sito di W.
Li). Non c'è da stupirsi perciò se certi fenomeni naturali,
emersi a partire dagli anni '60, avvengono secondo leggi di tipo Zipf:
essi sono detti fenomeni di scala ed investono la fisica, la biologia,
la chimica,..e si può dunque affermare che solo apparentemente
avvengano casualmente, recando in realtà un significato "nascosto".

3.2 Ridondanza
Vale la pena introdurre un'altra caratteristica dei linguaggi,
di cui tra breve parleremo a proposito del DNA, che è la ridondanza.
Con questo termine, in teoria della comunicazione si intende la parte
di un messaggio (lettere, parole,..) che può essere eliminata senza
sostanziale perdita di informazione; può essere perciò vista
come una "generalizzazione" dell'omonima figura retorica. La ridondanza
essenzialmente misura la "flessibilità" del linguaggio essendo
proprio quest'ultima che fa sì che noi capiamo un testo anche quando
ad esempio ci sono errori di stampa. Ovviamente in un messaggio composto
di parole scelte a caso non v'è informazione e quindi neanche ridondanza;
è anche vero in ogni modo che non tutti i linguaggi che portano
un significato sono ridondanti, tipici esempi essendo i linguaggi di programmazione
o il formalismo matematico. Vedremo tra breve linguaggi ridondanti e non
nelle sequenze di DNA.

4. L'Analisi [8]
Il lavoro che presentiamo è frutto di una collaborazione
tra fisici, chimici, medici e biologi statunitensi ed è stato pubblicato
sull'autorevole Physical Review Letters. L'obiettivo della ricerca, che
nasce dall'ipotesi che le zone non codificanti celino un linguaggio ancora
incomprensibile, è duplice:
1. Verificare la legge di Zipf nelle sequenze codificanti e non del DNA;
2. "Misurare" la ridondanza di quelle stesse sequenze.
Il lavoro consiste nell'inserire sequenze note di DNA (e presenti in Banche
Dati condivisibili da tutti gli interessati) come stringhe di caratteri
in potenti elaboratori, ed analizzarle "alla Zipf", cioè conteggiando
tutte le ripetizioni di parole identiche. Ovviamente, nel caso di regioni
codificanti le sole parole che vengono contate sono le triplette; nelle
regioni non codificanti invece la lunghezza delle parole è lasciata
variare da un minimo di 3 a un massimo di 8 basi. Come controllo degli
algoritmi usati, è stata eseguita un conteggio su una sequenza
"veramente" casuale [9]: il risultato
è che - giustamente - la legge di Zipf non è soddisfatta
e anzi, tutte le parole hanno (circa) lo stesso conteggio.
Il risultato delle analisi sul DNA comunque è molto chiaro e non
lascia spazio a dubbi: le zone non codificanti si adattano meglio alla
legge di Zipf che non le parti codificanti. In altri termini, queste porzioni
"silenti" di DNA in realtà somigliano ad un linguaggio naturale
più di quanto non faccia il codice genetico!
Un'ulteriore conferma è data dalla ridondanza, quantitativamente
misurata secondo l'approccio di Shannon, il padre della teoria dell'informazione,
che ne scrisse una precisa definizione matematica in termini dell'entropia
di un testo [10]. Ebbene, il risultato
è che le zone non codificanti hanno una ridondanza molto più
grande delle porzioni codificanti che, viceversa, hanno una ridondanza
prossima a zero cioè non sono ridondanti (come la sequenza di controllo).
Quest'ultime osservazioni sulle parti codificanti erano attese, infatti
il codice genetico deve essere rigido, tendente a ottimizzare le risorse
dell'organismo con essenziali e puntuali affermazioni; la ripetizione
di una parola o un "errore di stampa" non devono essere ammessi in quanto
potrebbero condurre a situazioni patologiche dell'organismo. La vera e
propria novità di queste ricerche è invece l'evidenza che
le regioni non codificanti di DNA condividono simili proprietà
dei linguaggi. Quindi queste osservazioni sono consistenti con l'ipotesi
di esistenza di uno (o più) linguaggi strutturati in queste porzioni
di DNA, solo apparentemente silenti.

5. Conclusione
Molto (quasi tutto, in verità!) resta da capire
sul DNA; eppure questi studi, se da un lato certamente mancano un po'di
concretezza, dall'altro spingono più di altre la ricerca verso
territori finora inimmaginabili. Linguisti, biologi e fisici tutt'oggi
si avventurano in queste direzioni sperando di intravedere, tra le parole
di linguaggi sconosciuti, le risposte che ci riserva la Natura.

1. Per un commento breve ma efficace
sull'argomento, vedi:
F. Acerbi "Riflessi Condizionali", Punti Critici 4 (2001), 105-122.
[torna al testo]
2. Sono debitore alla prof.essa Silvia Morante per questa
acuta osservazione.
[torna al testo]
3. Alanina e Triptofano sono due amminoacidi, cioè
due dei venti mattoni fondamentali con cui sono costruite le proteine.
Notare che il codice genetico è degenere, cioè più
parole hanno lo stesso significato.
[torna al testo]
4. Questa, e le altre informazioni biografiche su G. K.
Zipf sono tratte dall'articolo di
A. Bogomolny "Benford's law and Zipf's law", consultabile al
sito http://www.cut-the-knot.com/do_you_know/zipfLaw.html.
[torna al testo]
5. B. Mandelbrot "The Fractal Geometry of Nature",
Freeman&Co, 1983.
[torna al testo]
6. I dati sono tratti da una ricerca consultabile al sito
http://hobart.cs.umass.edu/~allan/cs646-f97/char_of_text.html.
In quella sede giustamente si scrive una versione della legge di Zipf
leggermente più complicata rispetto a quella su enunciata; il senso
tuttavia della legge è esattamente lo stesso.
[torna al testo]
7. Alla luce di questo sarebbe interessante analizzare
certi testi di letteratura aleatoria o di avanguardie novecentesche, in
cui le regole grammaticali sono messe in crisi, al fine di esaminare possibili
deviazioni dalla legge di Zipf. Ad esempio, l'uso depresso di articoli
e preposizioni negli scritti futuristi crea certamente sostanziali differenze
rispetto agli articoli di un quotidiano.
[torna al testo]
8. R. N. Mantegna et al. "Linguistic Features of
Noncoding DNA Sequences" Phys. Rev. Lett. 73 (1994), 3169-3172.
[torna al testo]
9. Si tratta di una sequenza binaria di 0 e 1.
[torna al testo]
10. L'entropia è una funzione fondamentale della
fisica, che interviene quando si studiano insiemi statistici, contenenti
cioè molti oggetti; essa esprime, in pratica, il livello di disordine
che c'è in questo insieme.
[torna al testo]
|
|