R: R: R: [aha] MANIFESTO DEL DOPOFUTURISMO
lo|bo
lo_bo at ecn.org
Sun Jan 25 18:21:15 CET 2009
Luigi Pagliarini ha scritto:
> parlavo dell'universo e delle sue dinamiche.
> poi, mi perdonerai se, per farlo, uso una lingua, quindi ciò che chiamiamo
> un sistema di regole: logiche!
> ad esempio, a la genetica, tu, ci credi?!?
> o per te son tutte chiacchiere e desideri scoprirti creazionista?
> ebbene!
> nella genetica l'avanguardia è evidentemente implicita.
> capisci cos'intendo?
No non ci CREDO proprio alla gentica, ma alla fine mi dispiace che si
riduca ad un discorso in cosa credo io e cosa non credo. Per questo
inserisco un testo proprio sul sequenziamento genomico e sul perchè io
non ci CREDO, solo perchè ti devo interessato e siccome l'ho studiato
parecchio magari ti interessa leggerlo. L'ho scritto parecchio tempo fa
adesso lo integrerei con delle teorie di Greimas e Jakobson, ma chi lo
sa. Poi io vivo benissimo senza credere in qualcosa,senza sapere
esattamente cosa sono lo spazio e il tempo, non ho bisogno di trovare
una origine e una fonte.
Il sistema di regole logiche mi fa sorridere, certo io adotto dei
sistemi come validi e mi do delle spiegazioni, ma non metto in
discussione che ci siano degli errori e dei limiti.
Sincermente è vero ognuno si da le spiegazione che vuole ma a me pare un
pò riduttivo un sistema di regole perfettamente logiche che hanno dei
significati univoci. Ora capisco perchè ti è semplice incasellare cosa è
arte cosa non lo è. Però poi ci sono dei problemi nel capire perchè una
cosa è politica perchè non lo è, o gli insiemi combinati e ibridi. Certo
diveta noioso quando la discussione si riduce a guardare nei vocabolari
cosa significa una parola perchè quello è lo strumento di regolazione
massimo forse in questo sistema.
Scusate la lunghezza del messaggio, attacco un testo che non interessa a
nessuno credo, ma solo per un discorso particolare...è il mio punto di
vista sulla genomica e non si ha la pretesa di essere una verità.
La Bioinformatica
Sin dalla sua origine la biologia è stata una scienza osservativa. Negli
ultimi anni non si può dire che questo orientamento sia venuto meno ma
sicuramente si è assistito ad enormi cambiamenti relativi al tipo di
dati che tale scienza si è trovata ad elaborare.
A partire dagli anni novanta la genomica si è avvalsa di sistemi
informatici per sequenziare e immagazzinare le catene nucleotidiche e
amminoacidiche. Questo ha permesso lo sviluppo di un nuovo campo
denominato bioinformatica, considerata una scienza applicativa. Migliaia
di genomi di esseri viventi differenti sono stati interamente o
parzialmente sequenziati. I dati ottenuti sono stati immagazzinati in
enormi banche dati accessibili via web da chiunque ed in ogni momento.
La biologia si confrontata con dei dati non solo quantitativamente
maggiori e precisi, ma anche discreti. Questo, tuttavia, non ha
trasformato la biologia in una scienza deduttiva, poiché la complessità
della vita non è spiegabile nel dettaglio partendo da semplici principi
di base. Attualmente le banche dati di sequenze nucleotidiche
contengono 16 x 106 basi. La dimensione del genoma umano, composto da
3.2 x 109 basi, è utilizzata come metro per l’ideazione di una nuova
unità di misura, l’huge (Human Genome) pari a 2,5 volte il genoma umano.
L’estrapolazione di una singola sequenza da questi database è in sé poco
produttiva. L’obiettivo fondamentale della bioinformatica è quello di
individuare sequenze di basi significative, cioè che codificano
proteine, attraverso la comparazione con i dati di cui disponiamo.
Le basi azotate, adenina, timina, citosina, guanina sono simili fra loro
dal punto di vista chimico e quindi complessivamente la struttura del
DNA appare uniforme. Le fasi che portano alla scoperta di nuovi geni
sono diverse, si passa da una prima attività di mappatura per poi
individuare una sequenza ritenuta rilevante. Normalmente i geni sono una
regione di DNA con un codone di inizio prestabilito (ATG) e uno di fine.
La loro lunghezza può variare da 600 a 1200 basi. La corrispondenza tra
la sequenza di basi azotate del DNA e la sequenza degli aminoacidi che
formano una proteina non è però così immediata. Mentre per i
microrganismi vi è una sostanziale corrispondenza tra la dimensione di
un gene e quelle della proeina da esso codificata, la stessa cosa non
può dirsi per gli organismi complessi. I geni si trovano normalmente
divisi in parti differenti. Le sezioni dette esoni sono quelle utili per
la codifica proteica e sono intervallate da sequenze interposte dette
introni che non hanno alcuna rilevanza nella sintesi proteica. Gli
introni sono in molti casi estremamente lunghi, a volte più degli stessi
esoni. Il sistema cellulare si occupa di tagliare e unire le diverse
informazioni date dagli esoni.
Tutto questo non consente una facile individuazione delle proteine
corrispondenti ai diversi geni. Nella maggior parte dei casi le proteine
sono ricavate dalle sequenze di basi attraverso una retrotraduzione e
non da un diretto sequenziamento. La proteina dedotta è un oggetto
ipotetico fino a che i ricercatori non ne verificano l’esistenza,
attraverso una ricerca empirica o attraverso la consultazione delle
banche dati per individuare una molecola simile già esistente in natura.
È evidente che la riduzione dei dati genetici alla sola sequenza lineare
di basi comporta diversi problemi.
La reale natura dei semplici legami ad idrogeno che uniscono gli acidi
nucleici è molto più complessa sia per l’elevata quantità di rapporti
tra le diverse basi sia per l’impossibilità di ignorare gli aspetti
evolutivi e interattivi del genoma. Risulta a questo proposito
interessate la metafora utilizzata da R. J. Robbins per descrivere il
processo di ricerca della bioinformatica:
“[…] Consideriamo 3,2 gigabyte di genoma umano come equivalenti a 3,2
gigabyte di file della memoria di alcuni sistemi di computer di
progettazione sconosciuta. L’ottenimento di una sequenza equivale
all’ottenimento di un’immagine del contenuto della memoria. La
comprensione della sequenza equivale a invertire il processo di
ingegnerizzazione in modo da risalire da questo sistema sconosciuto di
computer (sia il disco fisso sia i 3,2 gigabyte di software) fino
all’insieme completo del progetto e delle specifiche di mantenimento. Il
processo di ingegnerizzazione inversa della sequenza è complicato dal
fatto che l’immagine risultante della memoria non sarà una copia da file
a file, ma piuttosto uno scaricamento continuo dei bytes nell’ordine in
cui essi erano stati inseriti nella macchina. Inoltre si sa che i file
sono frammentati. In aggiunta a ciò, alcune macchine contengono file
cancellati e altra spazzatura. Una volta che la spazzatura è stata
riconosciuta e scartata e che i file frammentati sono stati
riassemblati, l’ingegnerizzazione inversa dei codici può essere
intrapresa, pur avendo solamente una parziale, e a volte scorretta,
comprensione della unità centrale di processamento (CPU, Central
Processing Unit) sulla quale girano i codici.
Infatti, dedurre la struttura e la funzione della CPU è parte del
progetto, poiché alcuni dei 3,2 gigabyte sono specifiche binarie per il
processo di fabbricazione svolto dal computer che costruisce la CPU. In
aggiunta a ciò, si deve anche considerare che l’enorme database contiene
anche un codice generato dal risultato di letteralmente milioni di
revisioni di mantenimento effettuate dal peggiore insieme possibile di
hackers smanettoni opportunisti, che si deliziano in abili giochetti
come scrivere un codice automodificante e basarsi su trucchi di sistema
non documentati” .
In questo brano Robbins utilizza spesso il termine ingegnerizzazione
paragonando l’analisi biologica alla ricostruzione di un processo
meccanico di formazione e sviluppo degli esseri viventi e del corpo
umano. Tuttavia riesce bene a rendere l’impossibilità di confrontare un
sistema informatico con quello biologico, sottolineando come gli esseri
viventi non siano macchine che funzionano secondo regole determinabili
singolarmente e come il genoma contenga, anche, le indecifrabili
istruzioni per la costruzione dell’intero organismo.
Il sistema scientifico si relaziona a questo tipo di complessità
cercando delle forme di semplificazione. La prima fra tutte è la
riduzione del DNA a sequenza lineare. Se pur di enormi dimensioni la
sequenza in sé non fornisce informazioni utili. Quindi diventa
determinante il confronto di porzioni di un determinato genoma con le
sequenze gnomiche contenute nelle banche dati. Per individuare le
corrispondenze si sono sviluppati diversi sistemi di allineamento.
“L’allineamento di una sequenza consiste nell’identificazione di
corrispondenze base per base” . Questo costituisce lo strumento
fondamentale della bioinformatica.
Le sequenze di basi sono trattate come sequenze di lettere dette
stringhe. Il confronto tra le diverse stringhe non è immediato ma
prevede un processo di elaborazione sulla base dei risultati ottenibili.
Spesso la complessità degli organismi e i processi evolutivi fanno si
che stringhe simili differiscano solo per poche basi in posizioni
differenti. Possono essere allora introdotti dei gap tra le basi per
consentire una migliore ricerca.
Per esempio date due stringhe abcde e acdef
Uno dei loro possibili allineamenti potrebbe essere:
abcde-
a-cdef
L’obbiettivo della ricerca è quello di stabilire i criteri per elaborare
un algoritmo in grado di selezionare gli allineamenti che forniscano
risultati attendibili. Per le sequenze gctgaacg e ctataatc posso essere
previsti vari tipi di allineamenti:
Un allineamento privo di contenuto informativo
-------gctgaacg
ctataatc-------
Un allineamento senza gap
gctgaacg
ctataatc
Diversi allineamenti con gap
gctga-a--cg
--ct-ataatc
gctg-aa-cg
-ctataatc-
Per decidere quale sia la migliore tra tutte le possibilità è necessario
individuare un metodo in grado di analizzare sistematicamente tutti i
possibili allineamenti e che ci permetta di stabilire un punteggio sulla
base del quale poter scegliere la soluzione ottimale. Il sistema
maggiormente diffuso è il dotplot, uno strumento che permette una veloce
raffigurazione visiva delle similarità tra due sequenze. È un tabella o
matrice in cui le righe corrispondono alle basi di una sequenza e le
colonne alle basi di una seconda sequenza. Un altro modo di pensare al
dotplot è quello di editare un algoritmo che segnala i passaggi
necessari per trasformare la stringa di partenza nella stringa di
confronto. Alla fine dell’elaborazione l’effetto sarà quello di
trasformare una stringa in un’altra. Sulla base di questi presupposti,
data una sequenza non nota è difficile che un ricerca nei database
mondiali porti ad un risultato utile a meno che questa non sia molto
simile a una o più sequenze già presenti.
PSI-BLAST è uno degli ultimi sistemi elaborato per confrontare una
singola stringa con tutte le sequenze note. Analizza le sequenze
contenute nel database una per volta rispetto alla sequenza campione,
individua così un pattern di allineamento probabile e quindi sonda
nuovamente il database.
Un’analisi di questo tipo richiede tempi molto lunghi e tuttavia risulta
poco proficua se non accompagnata da delle ipotesi iniziali di possibili
corrispondenze. Per esempio se si vuole cercare nel genoma umano delle
proteine omologhe a una proteina di topo, la similarità sarà molto alta.
Ma se si vogliono cercare nel batterio C. elegans delle proteine
omologhe a una proteina umana i possibili risultati saranno molto bassi
o richiederanno procedimenti più lenti e complessi.
Nel sistema di ricerca e confronto tra sequenze è necessario distinguere
tra il concetto di sSimilarità e quello di omologia. La similarità è
l’analisi delle somiglianze o delle differenze tra campioni
indipendentemente dall’organismo da cui provengono. Si utilizza invece
il termine omologia per indicare sequenze che appartengono ad organismi
con un antenato comune, in questo caso le omologie consisteranno in
caratteristiche ancestrali comuni. La similarità delle sequenze è
osservabile per tutti i tipi di campioni e si riferisce ad un
determinato momento che non comporta alcuna ipotesi storica. Al
contrario affermare l’omologia tra due sequenze comporta l’ipotesi di un
evento storico quasi sempre non osservabile. Nella ricerca medica la
similarità è il principio di base attraverso cui è possibile individuare
eventuali mutazioni e difetti nel genoma.
Negli anni, il lavoro di calibrazione delle similarità e delle
divergenze nelle sequenze ha portato a risultati sufficientemente
attendibili e tali da poter essere in parte utilizzato nella ricerca di
relazioni filogenetiche tra specie. In questo campo sono numerosi i
problemi che si posso riscontrare. I valori di similarità ottenuti posso
essere al di sotto della significatività statistica. Inoltre le velocità
evolutive delle specie sono significativamente differenti. I problemi
maggiori si incontrano quando si cerca di trovare una giustificazione
storica per similarità tra sequenze che codificano proteine.
Una delle scoperte più importanti derivate dal Progetto Genoma Umano e
dal sequenziamento di interi genomi di altre specie è stata la scoperta
della presenza delle medesime sequenze ripetitive non codificanti in
specie diverse. I SINE e i LINE (Short and Long Interspersed Nuclear
Elements) costituiscono un’ampia frazione del genoma degli eucarioti,
almeno il 30% del DNA umano e oltre il 50% del genoma di alcune piante
superiori. I SINE sono lunghi circa 70-500 coppie di basi e possono
trovarsi in un numero di copie fino a 106. I LINE sono lunghi fino a
7000 coppie di basi e possono comparire in 105 copie . I SINE posso
essere assenti o presenti perciò la loro analisi non comporta misure
complicate di allineamento. Essi appaiono in modo casuale in regioni non
codificanti del DNA e per questo la presenza di SINE nella stessa
posizione in due specie diverse implica che esse abbiano un progenitore
in comune. Non è noto alcun caso in cui ci sia stata la perdita di SINE
in una specie.
Queste caratteristiche rendono i SINE e i LINE gli strumenti più adatti
all’individuazione di linee filogenetiche tra le specie. Se due specie
hanno in comune un SINE nello stesso punto del proprio genoma, l’assenza
di questo in una terza specie indica che le prime due debbano essere più
strettamente imparentate l’una con l’altra di quanto ognuna di esse non
lo sia con la terza. Tuttavia anche questo tipo di ricerca incontra
difficoltà evidenti date da numerosi casi di trasferimento genico
orizzontale, il passaggio di materiale genetico tra diverse specie
dovuto a cause naturali come l’assunzione diretta o l’acquisizione per
via virale.
Questo comporta una discrepanza tra gli alberi evolutivi e crea delle
relazioni tra sequenze di specie diverse. Nonostante le prove a favore
della sua importanza, il trasferimento genico orizzontale è stato per
lungo tempo considerato un fenomeno raro e di scarsa rilevanza. La
trasmissione dei geni da genitore a figlio è al centro del modello
darwiniano dell’evoluzione biologica. L’albero evolutivo come principio
organizzatore è un concetto profondamente radicato.
Lewontin afferma: “[…] Darwin cambiò l’oggetto di studio nel campo
dell’evoluzione portando al centro dell’attenzione non più tanto il tipo
di una specie quanto la mutazione effettiva fra i singoli organismi
all’interno della specie. La forza motrice del cambiamento nei caratteri
medi delle specie stava negli scostamenti della media dispiegati dagli
stessi organismi. Così le differenze tipiche fra le specie nello spazio
e nel tempo sorgono per accumulo di differenze che erano già presenti
come mutazione all’interno di una specie in un certo posto in un certo
tempo” .
Il fatto che i figli possano ereditare materiale genetico da altre
fonti al di fuori dei genitori mette parzialmente in crisi questa
concezione. Un confronto tra i genomi di lievito, moscerino verme e uomo
ha rilevato 1308 gruppi di proteine che appaiono in tutti e quattro gli
organismi. Le ricerche che si effettuano quotidianamente sui database
pubblici si basano su semplici confronti logici AND, OR o NOT che sono
la trasposizione digitale degli operatori essenziali della teoria degli
insiemi. L’impossibilità di definire degli insiemi in cui suddividere
nettamente le specie ha portato gli scienziati ad agire più cautamente.
L’orientamento generale, oggi, è quello di utilizzare le differenze tra
coppie di campioni in modo da ricostruire la complessità della vita
attraverso la somma delle singole relazioni.
[1] Robert J. Robbins è vice presidente della Information Technology
Fred Hutchinson Cancer Research Center. È stato tra il 1993-1995,
direttore del dipartimento Bioinformation Infrastructure in the Office
of Health and Environmental Research del DOE. È considerato uno dei
maggiori esperi di bioinformatica.
[2] R.J. Robbins, Challenge in the Human Genome Project, IEEE
Engineering in Medicine and Biology, 1992, n. 11, pp. 25-34, da A. Lesk,
Introduzione alla Bioinformatica, Milano , McGraw Hill, 2002, p. 59.
[3] A. Lesk, Introduzione alla Bioinformatica, Milano, McGraw Hill,
2002, p. 143.
[4] A. Lesk, Introduzione alla Bioinformatica, Milano, McGraw Hill,
2002, p. 26.
[5] Cfr. Richard Lewontin, Il sogno del genoma umano e altre illusioni
della scienza, Roma-Bari, Laterza, 2004, p.67.
--
[IIIII] lo|bo
)"""(
/ \
/`-...-'\
|asprin |
_ |`-...-'j _
\)`-.___.(I) _(/) email: lo_bo [at] ecn [dot ] org
(I) (/)(I)(\)
--------------------------------------------------------------------
More information about the AHA
mailing list