DE69627768T2

DE69627768T2 - Reihenanalyse-Verfahren der Genexpression

Info

Publication number: DE69627768T2
Application number: DE69627768T
Authority: DE
Inventors: Kenneth W. Bel Air Kinzler; Victor E. Baltimore Velculescu; Bert Baltimore Vogelstein; Lin Zhang
Original assignee: Johns Hopkins University; School of Medicine of Johns Hopkins University
Current assignee: Johns Hopkins University; School of Medicine of Johns Hopkins University
Priority date: 1995-09-12
Filing date: 1996-09-12
Publication date: 2004-04-08
Anticipated expiration: 2016-09-13
Also published as: EP0761822A3; GB2305241A; US5866330A; AU7018896A; EP1231284A3; US6746845B2; AU6561496A; GB2305241B; GB9619024D0; ATE239093T1; JP2001145495A; DK0761822T3; EP0761822A2; EP1231284A2; JPH10511002A; WO1997010363A1; DE761822T1; EP0761822B1; US20030049653A1; US6383743B1

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Genexpression und im Besonderen ein Verfahren zur Reihenanalyse der Genexpression (SAGE) für die Analyse einer Vielzahl von Transkripten durch die Herstellung von Doppelmarker-Oligonucleotiden, die mindestens zwei definierte Nucleotidsequenzmarker umfassen, wobei die definierten Nucleotidsequenzmarker eine definierte Region eines Transkripts umfassen, das einer Region des exprimierten Gens entspricht.
Hintergrund der Erfindung
Die Bestimmung der genomischen Sequenz höherer Organismen, einschließlich des Menschen, ist jetzt ein reales und erreichbares Ziel. Diese Analyse stellt jedoch nur eine Ebene der genetischen Komplexizität dar. Die geordnete und zeitliche Expression von Genen ist eine andere Ebene der Komplexizität und für die Definition und Biologie des Organismus ebenso von Bedeutung.
Die Rolle der Sequenzierung von aus mRNA revers transkribierter komplementärer DNA (cDNA) als Teil des Humanen Genomprojekts ist in der Weise diskutiert worden, dass Befürworter der genomischen Sequenzierung die Schwierigkeiten, jede, in all den Geweben, Zelltypen und Entwicklungssstadien exprimierte mRNA aufzufinden, darstellten und sie führten aus, dass viele wertvolle Informationen aus den Intron- und Intergenregionen, einschließlich Kontroll- und Regulatorsequenzen, durch die cDNA-Sequenzierung nicht gefunden werden würden (Report of the Comittee on Mapping and Sequencing the Human Genome, National Academy Press, Washington, D. C., 1988). Die Sequenzierung transkribierter Regionen des Genoms unter Verwendung von cDNA-Libraries ist hierfür bislang als unzureichend angesehen worden. Man nimmt an, dass Libraries für cDNA dominant sind, infolge repetitiver Elemente, mitochondrialer Gene, ribosomaler RNA-Gene und anderer nuklearer Gene, die allgemeine oder Housekeeping-Sequenzen umfassen. Man nimmt an, dass cDNA-Libraries nicht alle Sequenzen bereitstellen, die den strukturellen und regulatorischen Polypeptiden oder Peptiden entsprechen (Putney, et al., Nature, 302: 718, 1983).
Ein anderer Nachteil der herkömmlichen cDNA-Klonierung ist, dass manche mRNAs häufig vorkommen, während andere selten vorkommen. Die zellulären Mengen an mRNA von verschiedenen Genen können um mehrere Größenordnungen variieren.
Verfahren, die auf der cDNA-Subtraktion oder dem Differential-Display basieren, können für den Vergleich der Genexpression zwischen zwei Zelltypen ganz geeignet sein (Hedrick, et al., Nature, 308: 149, 1984; Liang und Pardee, Science, 257: 967, 1992), sie liefern jedoch nur eine teilweise Analyse, ohne direkte Informationen bezüglich der Häufigkeit von Messenger-RNA. Es ist gezeigt worden, dass das Verfahren des exprimierten Sequenzmarkers (EST) ein wertvolles Arbeitsmittel in der Genforschung darstellt (Adams, et al., Science, 252: 1656, 1991; Adams, et al., Nature, 355: 632, 1992; Okubo, et al., Nature Genetics, 2: 173, 1992), jedoch ähnlich wie das Northern Blotting, die RNase-Protektion und die Analyse mittels reverser Transkriptase-Polymerase-Kettenreaktion (RT-PCR) (Alwine, et al., Proc. Natl. Acad. Sci, U. S. A., 74: 5350, 1977; Zinn, et al., Cell, 34: 865, 1983; Veres, et al., Science, 237: 415, 1987) bewertet sie nur eine begrenzte Anzahl von Genen zur gleichen Zeit. Zudem werden in dem EST-Verfahren vorzugsweise Nucleotidsequenzen von 150 Basenpaaren oder mehr für die Suche nach Ähnlichkeiten und die Zuordnung (mapping) angewendet.
Sequenz markierte Stellen (STSs) (Olson, et al., Science, 245: 1434, 1989) sind ebenfalls genutzt worden, um genomi sche Marker für die physikalische Zuordnung des Genoms zu identifizieren. Diese kurzen Sequenzen von physikalisch zugeordneten Klonen stellen eindeutig identifizierte Stellen in der Zuordnungskarte des Genoms dar. Im Gegensatz dazu beruht die Identifizierung von exprimierten Genen auf exprimierten Sequenzmarkern, die Marker für diejenigen Gene sind, die tatsächlich in vivo transkribiert und exprimiert werden.
Es besteht Bedarf für ein verbessertes Verfahren, das die schnelle, genaue Analyse von Tausenden von exprimierten Genen für die Untersuchung einer Vielzahl biologischer Anwendungen gestattet, insbesondere zur Untersuchung des Gesamtmusters der Genexpression in verschiedenen Zelltypen oder in dem gleichen Zelltyp unter verschiedenen physiologischen oder pathologischen Bedingungen. Die Identifizierung verschiedener Genexpressionsmuster hat mehrere Anwendungsmöglichkeiten, einschließlich der Identifizierung geeigneter therapeutischer Ziele und von Genen, die Kandidaten für die Gentherapie (z. B. Genersatz) sein könnten, die Gewebetypisierung, ale forensische Identifizierung, die Zuordnung der Lokalisation von Genen, die mit Krankheiten assoziiert sind, und die Identifizierung von diagnostischen und prognostischen Indikator-Genen.
Kurzdarstellung der Erfindung
Die vorliegende Erfindung liefert ein Verfahren zur schnellen Analyse einer Vielzahl von Transkripten, zur Identifizierung des Gesamtmusters der Genexpression in verschiedenen Zelltypen oder dem gleichen Zelltyp unter verschiedenen physiologischen, Entwicklungs- oder Krankheitsbedingungen. Dieses Verfahren basiert auf der Identifizierung eines kurzen Nucleotidsequenzmarkers an einer definierten Position in einer Messenger-RNA. Dieser Marker wird verwendet, um das entsprechende Transkript und das Gen zu identifizieren, von dem es transkribiert wurde. Durch Verwendung dimerisierter Marker, die als ein "Doppelmarker" bezeichnet werden, gestattet es das Verfahren der vorliegenden Erfindung, bestimmte Typen von Bias zu entfernen, die während der Klonierung und/oder der Amplifikation und möglicherweise während der Auswertung der Daten auftreten können. Die Verknüpfung dieser kurzen Nucleotidsequenzmarker gestattet die wirksame Analyse von Transkripten in der Art einer Reihenanalyse, indem multiple Marker an einem einzelnen DNA-Molekül sequenziert werden, beispielsweise an einem DNA-Molekül, das in einen Vektor oder einen einzelnen Klon eingefügt wurde.
Das hier beschriebene Verfahren ist die Reihenanalyse der Genexpression (SAGE), ein neuartiger Ansatz, der die Analyse einer Vielzahl von Transkripten gestattet. Um diese Strategie zu veranschaulichen, wurden aus mRNA kurze cDNA-Sequenzmarker erzeugt, die aus Pankreas isoliert wurde, zufällig unter Bildung von Doppelmarkern miteinander gepaart, verknüpft und kloniert. Die manuelle Sequenzierung von 1 000 Markern lieferte ein Genexpressionsmuster, das für die Funktion des Pankreas charakteristisch ist. Die Identifizierung derartiger Muster ist beispielsweise in diagnostischer und therapeutischer Hinsicht von Bedeutung. Außerdem wurde die Anwendung der SAGE als ein Arbeitsmittel für die Genforschung durch die Identifizierung und Isolierung neuer pankreatischer Transkripte, die den neuartigen Markern entsprechen, dokumentiert. Die SAGE liefert ein breit anwendbares Mittel für die quantitative Katalogisierung und den Vergleich der exprimierten Gene in einer Vielzahl von normalen, entwickelten und Krankheitszuständen.
Kurzbeschreibung der Zeichnungen
1 zeigt das Schema der SAGE. In diesem Beispiel ist das erste Enzym, oder das Verankerungsenzym, NlaIII und zweite Enzym, oder das Markierungsenzym, ist FokI. Die Sequenzen stellen die Primer abgeleiteten Sequenzen und Transkript abgeleitete Sequenzen dar, wobei "X" und "O" die Nucleotide der verschiedenen Marker darstellen.
2 zeigt einen Vergleich der Häufigkeit der Transkripte. Die Balken stellen die prozentuale Häufigkeit dar, die mittels SAGE (dunkle Balken) oder Hybridisierungsanalyse (helle Balken) bestimmt wurde. Die Quantifizierungen mittels SAGE wurden aus Tabelle 1 wie folgt abgeleitet: TRY1/2 schließt die Marker für Trypsinogen 1 und 2 ein, PROCAR kennzeichnet die Marker für Procarboxypeptidase A1, CHYMO kennzeichnet die Marken für Chymotrypsinogen und ELA/PRO schließt die Marken für Elastase IIIB und Protease E ein. Die Fehlerbalken kennzeichnen die Standardabweichung, die bestimmt wurde, indem die Quadratwurzel der gezählten Ereignisse ermittelt wurde und in eine prozentuale Häufigkeit umgewandelt wurde (unter Annahme der Poisson-Verteilung).
3 zeigt die Ergebnisse des Screenings einer cDNA-Library mittels SAGE-Marken. P1 und P2 zeigen typische Ergebnisse einer Hybridisierung, die mit 13 Bp Oligonucleotiden erhalten wurden, wie in den Beispielen beschrieben. P1 und P2 entsprechen den in Tabelle 2 beschriebenen Transkripten. Die Bildgebung wurde durch Anwendung eines Molecular Dynamics PhosphorImagers erhalten und der Kreis kennzeichnet den äußeren Rand der Filtermembran, auf die der rekombinante Phage vor der Hybridisierung übertragen wurde.
4 ist ein Blockdiagramm eines Zugangssystems einer Datenbank für einen Markercode gemäß der vorliegenden Erfindung.
Beschreibung der bevorzugten Ausführungsformen
Die vorliegende Erfindung liefert ein schnelles, quantitatives Verfahren zur Bestimmung der Häufigkeit und Natur von Transkripten, die exprimierten Genen entsprechen. Dieses Verfahren, bezeichnet als Reihenanalyse der Genexpression (SA-GE), basiert auf der Identifizierung und Charakterisierung von teilweise definierten Sequenzen von Transkripten, die Gen-Segmenten entsprechen. Diese definierten Transkriptsequenzen sind Marker für Gene, die beispielsweise in einer Zelle, einem Gewebe oder einem Extrakt exprimiert werden.
Die SAGE basiert auf mehreren Prinzipien. Erstens, ein kurzer Nucleotidsequenzmarker (9 bis 10 Bp) enthält ausreichend Informationen zur eindeutigen Identifizierung eines Transkripts, vorausgesetzt, es wird aus einer definierten Position innerhalb des Transkripts isoliert. Eine so kurze Sequenz, wie eine 9 Bp-Sequenz, kann beispielsweise 262 144 Transkripte (4⁹) unterscheiden und gibt eine zufällige Verteilung der Nucleotide an der Markerstelle wieder, wohingegen Abschätzungen vermuten lassen, dass das humane Genom etwa 80 000 bis 200 000 Transkripte codiert (Fields, et al., Nature Genetics, 7: 345, 1994). Die Größe des Markers kann für niedere Eukaryoten oder Prokaryoten kürzer sein, beispielsweise dort, wo die Zahl der durch das Genom codierten Transkripte geringer ist. Ein so kurzer Marker, wie ein 6–7 Bp-Marker, kann beispielsweise zur Unterscheidung von Transkripten in Hefen ausreichend sein.
Zweitens, die zufällige Dimerisierung von Markern gestattet ein Verfahren zur Verringerung von Bias (die durch Amplifikation und/oder Klonierung entstehen). Drittens, die Konkatenation dieser kurzen Sequenzmarker gestattet die wirksame Analyse von Transkripten in der Art einer Reihenanalyse, indem multiple Marker innerhalb eines einzelnen Vektors oder Klons sequenziert werden. Durch die reihenmäßige Kommunikation von Computern, in denen die Information als eine kontinuierliche Datenreihe übertragen wird, erfordert die Reihenanalyse der Markersequenzen ein Mittel zur Festlegung des Registers und der Grenzen jedes Markers. Dimerisierte Marker können mit oder ohne Konkatenation oder in Kombination mit anderen bekannten Verfahren zur Identifizierung von Sequenzen verwendet werden.
Hinsichtlich einer ersten Ausführungsform liefert die vorliegende Erfindung ein Verfahren zum Nachweis der Genexpression in einer/einem einzelnen Zelle oder Gewebe oder Zellextrakt, beispielsweise einschließlich bei einem einzelnen Entwicklungsstadium oder in einem einzelnen Krankheitszustand. Das Verfahren umfasst die Herstellung von komplementären Desoxyribonucleinsäure- (cDNA) -Oligonukleotiden, die Isolierung eines ersten definierten Nucleotidsequenzmarkers aus einem ersten cDNA-Oligonucleotid und eines zweiten definierten Nucleotidsequenzmarkers aus einem zweiten cDNA-Oligonucleotid, das Binden des ersten Markers an einen ersten Oligonucleotid-Linker, wobei der erste Oligonucleotid-Linker eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers umfasst, und das Binden des zweiten Markers an einen zweiten Oligonucleotid-Linker, wobei der zweite Oligonucleotid-Linker eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers umfasst, und die Bestimmung der Nucleotidsequenz des/der Marker(s), wobei der/die Marker einem exprimierten Gen entspricht/entsprechen.
1 ist die schematische Darstellung der Analyse von Messenger-RNA (mRNA) mittels SAGE, wie es im Verfahren der vorliegenden Erfindung beschrieben wird. Die mRNA wird aus einer interessierenden Zelle oder aus interessierendem Gewebe für die in vitro-Synthese einer doppelsträngigen DNA-Sequenz durch die reverse Transkription der mRNA isoliert. Das gebildete doppelsträngige DNA-Komplement der mRNA wird als komplementär (cDNA) bezeichnet.
Der Begriff "Oligonucleotid" bezeichnet hier Primeroder Oligomer-Fragmente, die aus zwei oder mehreren Desoxyribonucleotiden oder Ribonucleotiden bestehen, vorzugsweise aus mehr als drei. Die genaue Größe hängt von vielen Faktoren ab, die wiederum von der endgültigen Funktion oder Anwendung der Oligonucleotide abhängen.
Das Verfahren schließt des weiteren das Ligieren des ersten Markers, der an den ersten Oligonucleotid-Linker gebunden ist, mit dem zweiten Marker, der an den zweiten Oligonucleotid-Linker gebunden ist, und die Bildung eines "Doppelmarkers" ein. Jeder Doppelmarker stellt zwei definierte Nucleo tidsequenzen von mindestens einem Transkript dar, die für mindestens ein Gen repräsentativ sind. Typischerweise stellt ein Doppelmarker zwei Transkripte von zwei unterschiedlichen Genen dar. Die Gegenwart eines definierten cDNA-Markers innerhalb des Doppelmarkers zeigt die Expression eines Gen an, das eine Sequenz des Markers aufweist.
Die Analyse von Doppelmarkern, die vor jedem Amplifikationsschritt gebildet werden, liefert ein Mittel zum Ausschluss potenzieller räumlicher Störungen, die durch die Amplifikation, z. B. die PCR, eingeführt werden. Das Paaren der Marker zur Bildung von Doppelmarkern ist ein zufälliges Ereignis. Es wird erwartet, dass die Zahl der verschiedenen Marker groß ist, daher ist die Möglichkeit, dass zwei Marker im gleichen Doppelmarker miteinander gekuppelt werden, gering, sogar für häufige Transkripte. Daher werden sich wiederholende Marker, die bei den herkömmlichen, gebiasten Amplifikationsund/oder Klonierungsverfahren entstehen, durch das Verfahren der vorliegenden Erfindung ausgeschlossen.
Der Begriff "definierte" Nucleotidsequenz, oder "definierter" Nucleotidsequenzmarker bezeichnet eine Nucleotidsequenz, die entweder von dem 5'- oder dem 3'-Ende eines Transkripts abgeleitet ist. Die Sequenz wird definiert durch die Spaltung mit einer ersten Restriktionsendonuclease und stellt Nucleotide des entweder 5'- oder 3'-Endes der ersten Restriktionsendonucleasestelle dar, abhängig davon, welches Ende für das Einfangen verwendet wird (z. B. 3'-Ende, wenn Oligo-dT zum Einfangen verwendet wird, wie es hier beschrieben wird) .
Die hier verwendeten Begriffe "Restriktionsendonucleasen" oder "Restriktionsenzyme" bezeichnen bakterielle Enzyme, die an eine spezifische doppelsträngige DNA-Sequenz binden, die als eine Erkennungsstelle oder Erkennungsnucleotidsequenz bezeichnet wird, und sie schneiden die doppelsträngige DNA an oder nahe der spezifischen Erkennungsstelle.
Die erste Endonuclease, bezeichnet als "Verankerungsenzym" oder "AE" in 1, wird anhand seiner Fähigkeit ausgewählt, ein Transkript mindestens einmal zu spalten und daher einen definierten Sequenzmarker, entweder von dem 5'- oder von dem 3'-Ende des Transkripts, zu erzeugen. Vorzugsweise wird eine Restriktionsendonuclease verwendet, die mindestens eine Erkennungsstelle aufweist und die daher die Fähigkeit besitzt, eine Vielzahl von cDNAs zu spalten. Wie hier veranschaulicht, erwartet man beispielsweise, dass Enzyme, die eine 4 Basenpaare umfassende Erkennungsstelle besitzen, im Durchschnitt jedes 256. Basenpaar (4⁴) spalten, während die meisten Transkripte beträchtlich länger sind. Restriktionsendonucleasen, die eine 4 Basenpaare umfassende Stelle erkennen, schließen NlaIII ein, wie es in den Beispielen der vorliegenden Erfindung veranschaulicht wird. Andere ähnliche Endonucleasen, die mindestens eine Erkennungsstelle innerhalb eines DNA-Moleküls (z. B. cDNA) besitzen, sind dem Fachmann bekannt (siehe beispielsweise Current Protocols in Molecular Biology, Bd. 2, 1995, Hrsg. Ausubel, et al., Greene Publish. Assoc. & Wiley Interscience, Einheit 3,1,15; New England Biolabs Catalog, 1995).
Nach der Spaltung mit dem Verankerungsenzym kann die 5'- oder die 3'-nächste Region der gespaltenen cDNA isoliert werden, indem sie an ein Einfangmedium gebunden wird. Wie in den Beispielen der vorliegenden Erfindung veranschaulicht, können beispielsweise Streptavidin-Kügelchen verwendet werden, um den definierten 3'-Nucleotidsequenzmarker zu isolieren, wenn der Oligo-dT-Primer für die cDNA-Synthese biotinyliert ist. In diesem Beispiel liefert die Spaltung mit dem ersten oder dem Verankerungsenzym eine eindeutige Stelle an jedem Transkript, die der Restriktionsstelle entspricht, die sich am engsten benachbart zu dem Poly-A-Schwanz befindet. Ähnlich kann für die Isolierung eines 5'-definierten Nucleotidsequenzmarkers das 5'-Ende eines Transkripts (die cDNA) zur Markierung oder Bindung eines einfangenden Mittels genutzt werden. Der Fachmann wird andere ähnliche Einfangsysteme (z. B. Bio tin/Streptavidin, Digoxigenin/anti-Digoxigenin) zur Isolierung des definierten Sequenzmarkers, wie hier beschrieben, kennen.
Die vorliegende Erfindung ist nicht auf die Verwendung einer einzelnen „verankernden" oder ersten Restriktionsendonuclease beschränkt. Es kann erwünscht sein, das Verfahren der vorliegenden Erfindung aufeinanderfolgend, unter Verwendung verschiedener Enzyme auf getrennten Proben einer Präparation durchzuführen, um für eine Zelle oder für Gewebe ein vollständiges Transkriptionsmuster zu identifizieren. Zudem bestätigt die Verwendung von mehr als einem Verankerungsenzym das durch das erste Verankerungsenzym erhaltene Expressionsmuster. Daher ist es auch vorgesehen, dass die erste oder die Verankerungsendonuclease selten cDNA derart schneiden sollte, dass nur wenig oder keine der die häufigen Transkripte darstellenden cDNA gespalten wird. Somit stellen die gespaltenen Transkripte „eindeutige bzw. einzigartige" Transkripte dar. Restriktionsenzyme, die beispielsweise eine 7–8 Bp umfassende Erkennungsstelle aufweisen, sind Enzyme, die selten cDNA schneiden. Ähnlich kann, wie nachstehend beschrieben, mehr als ein Markierungsenzym verwendet werden, um ein vollständiges Transkriptionsmuster zu identifizieren.
Der Begriff „isoliert" schließt hier Polynucleotide ein, die im Wesentlichen frei von anderen Nucleinsäuren, Proteinen, Lipiden, Kohlenhydraten oder anderen Materialien sind, mit denen sie natürlich assoziiert sind. cDNA kommt in dieser Weise nicht natürlich vor, sie wird stattdessen durch die Manipulation einer teilweise gereinigten, natürlich vorkommenden mRNA gewonnen. Die Isolierung eines definierten Sequenzmarkers bezeichnet die Reinigung des 5'- oder 3'-Markers aus anderer als aus gespaltener cDNA.
In einer Ausführungsform werden die isolierten definierten Nucleotidsequenzmarker, dann, wenn die Linker verschiedene Sequenzen aufweisen, in zwei getrennte cDNA-Pools aufgeteilt. Jeder Pool wird über die Verankerungs- oder erste Restriktionsendonucleasestelle an einen der beiden Linker li giert. Besitzen die Linker die gleiche Sequenz, ist es nicht erforderlich, die Marker in getrennte Pools aufzuteilen. Der erste Oligonucleotid-Linker umfasst eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers und der zweite Oligonucleotid-Linker umfasst eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers. Zudem umfassen die Linker des weiteren eine zweite Restriktionsendonucleasestelle, die auch als das „Markierungsenzym" oder „TE" bezeichnet wird. Das Verfahren der vorliegenden Erfindung erfordert nicht die Amplifikation der Doppelmarker-Oligonucleotide nach der Ligierung, umfasst diese jedoch vorzugsweise.
Die zweite Restriktionsendonuclease spaltet an einer Stelle, die sich von der Erkennungsstelle entfernt befindet oder außerhalb dieser liegt. Beispielsweise kann die zweite Restriktionsendonuclease ein IIS Typ-Erkennungsenzym sein. IIS Typ Restriktionsendonucleasen spalten in einer definierten Entfernung, die bis zu 20 Bp von ihrer asymmetrischen Erkennungsstelle entfernt sein kann (Szybalski, W., Gene, 40: 169, 1985). Beispiele für die IIS Typ-Restriktionsendonucleasen schließen BsmFI und FokI ein. Andere ähnliche Enzyme werden dem Fachmann bekannt sein (siehe Current Protocols in Molecular Biology, supra).
Die ersten und zweiten „Linker", die an definierte Nucleotidsequenzmarker ligiert werden, sind Oligonucleotide, die die gleiche oder verschiedene Nucleotidsequenzen aufweisen. Beispielsweise schließen die Linker, die in den Beispielen der vorliegenden Erfindung veranschaulicht sind, Linker ein, die verschiedene Sequenzen aufweisen:

(SEQ-ID-Nr.: 4), worin A ein Didesoxynucleotid ist (z. B. Didesoxy-A). Andere ähnliche Linker können in dem Verfahren der vorliegenden Erfindung verwendet werden, der Fachmann kann derartige alternative Linker gestalten.
Die Linker werden so gestaltet, dass die Spaltung der Ligierungsprodukte mit dem zweiten Restriktionsenzym, oder Markierungsenzym, zur Freisetzung des Linkers führt, der den definierten Nucleotidsequenzmarker aufweist (z. B. 3'-Ende der Spaltstelle der Restriktionsendonuclease, wie hier ausgeführt). Der definierte Nucleotidsequenzmarker kann eine Größe von etwa 6 bis 30 Basenpaare aufweisen. Vorzugsweise kann der Marker eine Größe von etwa 9 bis 11 Basenpaare aufweisen. Daher beträgt die Größe eines Doppelmarkers etwa 12 bis 60 Basenpaare, vorzugsweise von 18 bis 22 Basenpaare.
Der Pool definierter Marker, die an Linker ligiert sind, welche die gleiche Sequenz aufweisen, oder die zwei Pools definierter Nucleotidsequenzmarker, die an Linker ligiert sind, welche verschiedene Nucleotidsequenzen aufweisen, werden zufällig miteinander "Schwanz-an-Schwanz" ligiert. Der Teil des cDNA-Markers, der am weitesten von dem Linker entfernt ist, wird als der "Schwanz" bezeichnet. Wie in 1 veranschaulicht, besitzt das ligierte Markerpaar, oder der Doppelmarker, eine erste Restriktionsendonucleasestelle upstream (strangaufwärts) (5') und eine erste Restriktionsendonucleasestelle downstream (strangabwärts) (3') des Doppelmarkers; eine zweite Spaltstelle der Restriktionsendonuclease upstream und downstream des Doppelmarkers, und ein Linker-Oligonucleotid, das sowohl eine zweite Erkennungsstelle des Restriktionsenzyms und eine Hybridisierungsstelle des Amplifikationsprimers upstream und downstream des Doppelmarkers enthält. Mit anderen Worten, der Doppelmarker wird von der ersten Restriktionsendonucleasestelle, der zweiten Restriktionsendonucleasestelle bzw. den Linkern begrenzt.
Der Doppelmarker kann amplifiziert werden unter Verwendung von Primern, die spezifisch an einen Strang jedes Linkers hybridisieren. Vorzugsweise wird die Amplifikation mittels des herkömmlichen Polymerase-Kettenreaktions-Verfahrens (PCR), wie beschrieben ( US 4 683 195 ) durchgeführt. Alternativ können die Doppelmarker durch Klonierung in Prokaryoten-kompatible Vektoren oder mittels anderer Amplifikationsverfahren, die dem Fachmann bekannt sind, hergestellt werden.
Der Begriff "Primer" bezeichnet hier ein Oligonucleotid, entweder ein natürlich vorkommendes oder ein synthetisch hergestelltes, das in der Lage ist, als ein Startpunkt der Synthese zu wirken, wenn Bedingungen vorliegen, in denen die Synthese des Ausdehnungsprodukts bzw. Verlängerungsprodukts des Primers, das zu einem Nucleinsäurestrang komplementär ist, induziert wird, d.h. in Gegenwart von Nucleotiden und einem Polymersationsmittel, wie einer DNA-Polymerase, und bei einer geeigneten Temperatur und einem geeigneten pH-Wert. Um eine maximale Wirksamkeit in der Amplifikation zu erreichen, ist der Primer vorzugsweise einsträngig. Vorzugsweise ist der Primer Oligodesoxyribonucleotid. Um die Synthese der Ausdehnungsprodukte in Gegenwart des Polymerisationsmittels zu erreichen, muss der Primer ausreichend lang sein. Die genauen Längen der Primer sind von vielen Faktoren abhängig, einschließlich der Temperatur und der Quelle des Primers.
Die hier verwendeten Primer werden danach ausgewählt, ob sie zu den verschiedenen Strängen jeder spezifischen, zu amplifizierenden Sequenz "im Wesentlichen" komplementär sind. Das bedeutet, dass die Primer für die Hybridisierung mit ihren entsprechenden Strängen ausreichend komplementär sein müssen. Daher muss die Primersequenz nicht die genaue Sequenz der Kopiervorlage widerspiegeln. In der vorliegenden Erfindung sind die Primer im Wesentlichen komplementär zu den Oligonucleotid-Linkern.
Für die Amplifikation der hier beispielhaft aufgeführten Linker der SEQ-ID-Nr.: 1–4 geeignete Primer schließen 5'
kann ähnliche Primer für die Amplifikation herstellen, basierend auf der Nucleotidsequenz der Linker, ohne dass er dafür unangemessene Versuche durchführen muss.
Die Spaltung des amplifizierten PCR-Produkts mit der ersten Restriktionsendonuclease gestattet die Isolierung von Doppelmarkern, die durch Ligierung verknüpft werden können. Nach der Ligierung kann es erwünscht sein, die Konkatemere zu klonieren, obwohl es in dem Verfahren der vorliegenden Erfindung nicht erforderlich ist. Die Analyse der Doppelmarker oder Konkatemere, ob nun eine Amplifikation durchgeführt wurde oder nicht, erfolgt mittels herkömmlicher Sequenzierungsverfahren. Konkatemere bestehen im Allgemeinen aus etwa 2 bis 200 Doppelmarkern und vorzugsweise aus etwa 8 bis 20 Doppelmarkern. Da dies bevorzugte Konkatemere sind, ist es augenscheinlich, dass die Zahl der Doppelmarker, die miteinander verknüpft werden können, von der Länge der individuellen Marker abhängt und diese kann von dem Fachmann leicht bestimmt werden, ohne dass er dafür unangemessene Versuche durchführen muss. Nach der Bildung der Konkatemere können für die Sequenzanalyse multiple Marker in einen Vektor kloniert werden, oder alternativ können Doppelmarker oder Konkatemere direkt, ohne Klonierung sequenziert werden, mittels Verfahren, die dem Fachmann bekannt sind.
Unter den Standardverfahren zur Klonierung der definierten Nucleotidsequenzmarker der vorliegenden Erfindung befindet sich das Einfügen der Marker in Vektoren wie in Plasmide oder Phage. Die mittels des hier beschriebenen Verfahrens hergestellten Doppelmarker oder die Konkatemere der Doppelmarker werden für die nachfolgende Analyse, d.h. Sequenzanalyse, Plaque/Plasmid-Hybidisierung unter Verwendung der Marker als Sonden, in rekombinante Vektoren kloniert, mittels Verfahren, die dem Fachmann bekannt sind.
Der Begriff "rekombinanter Vektor" bezeichnet ein Plasmid, Virus oder ein anderes, auf dem Fachgebiet bekanntes Vehikel, das durch Einfügen oder Einschließen der genetischen Sequenzen der Doppelmarker manipuliert worden ist. Derartige Vektoren enthalten eine Promotorsequenz, die beispielsweise die wirksame Transkription der genetischen Sequenz des Markers erleichtert. Der Vektor enthält typischerweise einen Startpunkt für die Replikation, einen Promotor, als auch spezifische Gene, welche die phenotypische Selektion der transformierten Zellen gestatten. Zur Verwendung in der vorliegenden Erfindung geeignete Vektoren schließen beispielsweise pBlueScript (Stratagene, La Jolla, CA); pBC, pSL301 (Invitrogen) und andere ähnliche Vektoren ein, die dem Fachmann bekannt sind. Vorzugsweise werden die Doppelmarker oder die Konkatemere davon zum Zweck der Sequenzierung in einen Vektor ligiert.
Vektoren, in die die Doppelmarker kloniert sind, können in eine geeignete Wirtszelle überführt werden. "Wirtszellen" sind Zellen, in denen sich ein Vektor vermehrt und seine DNA exprimiert. Dieser Begriff schließt auch alle Nachkommen der Wirtszelle ein. Es ist verständlich, dass nicht alle Nachkommen mit den elterlichen Zellen identisch sind, da während der Replikation Mutationen vorkommen können. Derartige Nachkommen sind jedoch auch eingeschlossen, wenn der Begriff "Wirtszelle" verwendet wird. Verfahren der stabilen Übertragung, die bedeuteten, dass die Fremd-DNA ständig in dem Wirt erhalten wird, sind in dem Fachgebiet bekannt.
Die Transformation einer Wirtszelle mit einem Doppelmarker enthaltenden Vektor kann mittels Standverfahren, die dem Fachmann bekannt sind, ausgeführt werden. Ist der Wirt ein Prokaryot, wie E. coli, können kompetente Zellen, die zur Aufnahme von DNA in der Lage sind, aus den nach der exponentiellen Wachstumsphase geernteten Zellen hergestellt werden und darauf folgend mittels des CaCl₂-Verfahrens behandelt werden, unter Anwendung der auf dem Fachgebiet bekannten Verfahren. Alternativ können MgCl₂ oder RbCl verwendet werden. Die Trans formation kann auch durch Elektroporation oder anderer herkömmlicher, auf dem Fachgebiet bekannter Verfahren ausgeführt werden.
Die Doppelmarker in einem einzelnen Klon können mittels Standardverfahren sequenziert werden (siehe beispielsweise Current Protocols in Molecular Biology, supra, Einheit 7), entweder manuell oder durch Anwendung automatisierter Verfahren.
In einer anderen Ausführungsform liefert die vorliegende Erfindung ein Kit, das zum Nachweis der Genexpression geeignet ist, wobei die Gegenwart eines Doppelmarkers die Expression eines Gens anzeigt, das eine Sequenz des Markers aufweist, das Kit einen oder mehrere Behältnisse umfasst, umfassend ein erstes Behältnis, enthaltend einen ersten Oligonucleotid-Linker mit einer ersten Sequenz, die zur Hybridisierung eines Amplifikationsprimers geeignet ist; ein zweites Behältnis, enthaltend einen zweiten Oligonucleotid-Linker mit einer zweiten Sequenz, die zur Hybridisierung eines Amplifikationsprimers geeignet ist, wobei die Linker des weiteren eine Restriktionsendonukleasestelle zur Spaltung von DNA an einer Stelle, die entfernt von der Erkennungsstelle der Restriktionsendonuclease ist, umfassen; und ein drittes und viertes Behältnis mit Nucleinsäureprimern zur Hybidisierung mit der ersten und zweiten eindeutigen Sequenz des Linkers. Es ist augenscheinlich, dass dann, wenn die Oligonucleotid-Linker die gleiche Nucleotidsequenz umfassen, nur ein die Linker enthaltendes Behältnis in dem Kit der vorliegenden Erfindung erforderlich ist.
In einer noch anderen Ausführungsform liefert die vorliegende Erfindung eine Ologonucleotid-Zusammensetzung mit mindestens zwei definierten Nucleotidsequenzmarkern, wobei die definierte Nucleotidsequenzmarker die Sequenz 5' von einer 5'nächsten Spaltstelle einer Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer Restriktionsendonuclease in einer Volllängen-cDNA umfasst, wobei mindestens einer der Sequenzmarker mindestens einem exprimierten Gen entspricht. Die Zusammensetzung besteht aus etwa 1 bis 200 Doppelmarkern, und vorzugsweise aus etwa 8 bis 20 Doppelmarkern. Derartige Zusammensetzungen sind zur Analyse der Genexpression zur Identifizierung des definierten Nucleotidsequenzmarkers, der einem exprimierten Gen z. B. in einer Zelle, in Gewebe oder einem Zellextrakt entspricht, geeignet.
Es ist vorgesehen, dass die Identifizierung von differentiell exprimierten Genen mittels des SAGE-Verfahrens der vorliegenden Erfindung in Kombination mit anderen genomischen Verfahren verwendet werden kann. Doppelmarker können beispielsweise mit Oligonucleotiden hybridisiert werden, die auf einem festen Träger (z. B. Nitrocellulosefilter, Glasplättchen, Silikonchip) immobilisiert sind. Derartige Verfahren schließen die "parallele Sequenzanalyse" oder PSA ein, die nachstehend beschrieben wird. Die Sequenz von Doppelmarkern, die durch das Verfahren der vorliegenden Erfindung gebildet wurden, kann auch mittels eingeschränkter Verdünnungen unter Anwendung von Verfahren, die das klonale Sequenzieren (CS) einschließen, bestimmt werden.
PSA wird somit nach der Herstellung des Doppelmarkers durchgeführt, wobei die Oligonucleotidsequenzen, an die die Doppelmarker hybridisiert werden, vorzugsweise unmarkiert sind und der Doppelmarker ist vorzugsweise nachweisbar markiert. Alternativ kann stattdessen das Oligonucleotid als der Doppelmarker markiert sein. Der Doppelmarker kann nachweisbar markiert sein, beispielsweise mit einem radioaktiven Isotop, einer fluoreszierenden Verbindung, einer biolumineszenten Verbindung, einer chemilumineszenten Verbindung, einem Metallchelator, oder einem Enzym. Der Fachmann wird andere geeignete Markierungen, die zur Bindung an den Doppelmarker geeignet sind, kennen oder er wird in der Lage sein, derartige mittels Durchführung von Routineversuchen zu bestimmen. Die PCR kann beispielsweise mit markierten (z. B. Fluorescein-markiert) Pri mern durchgeführt werden. Die Doppelmarker enthalten vorzugsweise eine fluoreszierende Endmarkierung.
Die markierten oder unmarkierten Doppelmarker werden in einsträngige Moleküle getrennt, die vorzugsweise reihenmäßig verdünnt werden und einem festen Träger (z. B. ein Silikonchip wie beschrieben von Fodor, et al., Science, 251: 767, 1991) zugesetzt werden, der Oligonucleotide enthält, die beispielsweise jede mögliche Permutation eines 10-mers enthalten (z. B. in jedem Raster eines Chips). Der feste Träger wird anschließend verwendet, um die differentielle Expression des in dem Träger (z. B. auf einem Raster auf einem Chip) enthaltenen Markers zu bestimmen, durch Hybridisierung der Oligonucleotide auf dem festen Träger mit den Markern, die von Zellen unter unterschiedlichen Bedingungen (z. B. unterschiedliches Stadium der Entwicklung, Wachstum von Zellen in Gegenwart oder Abwesenheit eines Wachstumsfaktors, normale versus transformierte Zellen, Vergleich unterschiedlicher Gewebeexpression, usw.) hergestellt werden. Im Fall von fluoreszierenden endmarkierten Markern zeigt die Analyse der Fluoreszenz die Hybridisierung an ein einzelnes 10-mer an. Ist das immobilisierte Oligonucleotid beispielsweise Fluoreszenz-markiert, wird ein Fluoreszenzverlust infolge Abschreckens (durch die Nähe des hybridisierten Doppelmarkers zu dem markierten Oligo) beobachtet und hinsichtlich des Genexpressionsmusters analysiert. Ein Veranschaulichungsbeispiel des Verfahrens wird hier in Beispiel 4 dargestellt.
Das SAGE-Verfahren der vorliegenden Erfindung ist auch für die klonale Sequenzierung geeignet, ähnlich der eingeschränkten Verdünnungsverfahren, die zur Klonierung von Zelllinien angewendet werden. Doppelmarker oder Konkatemere davon werden beispielsweise verdünnt und individuellen Aufnahmebehältnissen in der Art zugesetzt, dass jedes Aufnahmebehältnis weniger als ein DNA-Molekül pro Aufnahmebehältnis enthält. Die DNA in jedem Aufnahmebehältnis wird amplifiziert und mittels der auf dem Fachgebiet bekannten Standardverfahren, ein schließlich der Massenspektrometrie, analysiert. Die Auswertung der differentiellen Expression wird ausgeführt, wie vorstehend für die SAGE beschrieben.
Der Fachmann kann leicht andere Analysenverfahren für Doppelmarker, die, wie in der vorliegenden Erfindung beschrieben, durch SAGE hergestellt werden, bestimmen, ohne dass unangemessene Versuche durchgeführt werden müssen.
Das Konzept zum Ableiten eines definierten Markers von einer Sequenz gemäß der vorliegenden Erfindung ist dazu geeignet, die Marker von Proben einer Sequenzdatenbank zuzuordnen. In einer bevorzugten Ausführungsform wird ein Computerverfahren angewendet, um die Sequenz einer Probe bekannten Sequenzen zuzuordnen.
In einer Ausführungsform wird ein Sequenzmarker für eine Probe mit der entsprechenden Information in einer Sequenzdatenbank verglichen, um bekannte Sequenzen zu identifizieren, welche der Probensequenz zugeordnet werden können. Für jede Sequenz in der Sequenzdatenbank lassen sich ein oder mehrere Marker bestimmen, so lange die N Basenpaare sich benachbart zu jeder Verankerungsenzymstelle innerhalb der Sequenz befinden. In der bevorzugten Ausführungsform wird jedoch nur die erste Verankerungsenzymstelle am 3'-Ende zur Bestimmung eines Markers verwendet. In der bevorzugten Ausführungsform befinden sich die benachbarten Basenpaare, die einen Marker definieren, an der 3'-Seite der Verankerungsenzymstelle und N beträgt vorzugsweise 9.
Es kann eine lineare Suche in einer derartigen Datenbank durchgeführt werden. In der bevorzugten Ausführungsform wird jedoch ein Sequenzmarker einer Probe in eine eindeutige numerische Darstellung umgewandelt, indem jedes Basenpaar (A, C, G oder T) eines N-Basenmarkers in eine Nummer oder einen "Markercode" umgewandelt wird (z. B. A = O, C = 1, G = 2, T = 3, oder jede andere geeignete Zuordnung). Für jede Sequenz einer Sequenzdatenbank wird der Marker, wie vorstehend beschrieben, bestimmt und der Marker wird in ähnlicher Weise in einen Mar kercode umgewandelt. In der bevorzugten Ausführungsform wird ein Satz an Markercodes für eine Sequenzdatenbank in einer Signaldatei gespeichert. Der Markercode für eine Probensequenz wird mit den Markercodes in der Signaldatei verglichen, um die Lokalisation der Sequenz, die dem Probenmarkercode entspricht, in der Sequenzdatenbank zu bestimmen. (Es können multiple entsprechende Sequenzen auftreten, wenn die Sequenzdatenbank Redundanzen aufweist).
4 ist ein Blockdiagramm eines Zugangssystems einer Datenbank für einen Markercode gemäß der vorliegenden Erfindung. Eine Sequenzdatenbank 10 (z. B. die Humane Genom Sequenzdatenbank) wird, wie vorstehend beschrieben derart ablaufen lassen, dass die jeweilige Sequenz einen Markercode besitzt, der in der Signaldatei 12 bestimmt und gespeichert wird. Ein Probenmarkercode X für eine Probe wird, wie vorstehend beschrieben, bestimmt und im Datenspeicher 14 eines Computers gespeichert. Der Probenmarkercode X wird in der Signaldatei 12 bezüglich eines Sequenzmarkercodes, der sich zuordnen lässt, verglichen. Wurde eine Zuordnung gefunden, wird ein Signal, das mit dem zugeordneten Sequenzmarkercode assoziiert ist, verwendet, um die entsprechende Sequenz in die Sequenzdatenbank 10 einzugeben.
Die Signaldatei 12 (pointer file 12) kann in jedem beliebigen der verschiedenen Formate vorliegen. In einem Format umfasst jeder Eintrag der Signaldatei 12 einen Markercode und ein Signal eines entsprechenden Datensatzes in der Sequenzdatenbank 10. Der Probenmarkercode X kann in einer linearen Suche mit den Sequenzmarkercodes verglichen werden. Alternativ können die Sequenzmarkercodes sortiert werden und es kann eine binäre (binary) Suche durchgeführt werden. Als andere Alternative können die Sequenzmarkercodes in eine hierachische Baumstruktur strukturiert werden (z. B. ein B-Baum), oder als eine einzel- oder doppel-verknüpfte Liste, oder in jede andere beliebige suchbare Datenbankstruktur oder -format.
In der bevorzugten Ausführungsform umfasst jeder Eintrag der Signaldatei 12 nur ein Signal für einen entsprechenden Datensatz in der Sequenzdatenbank 10. Beim Aufbau der Signaldatei 12 wird jeder Sequenzmarkercode einem Eintrag in der Signaldatei 12 zugeordnet, die dem wert des Markercodes entspricht. Lag beispielsweise ein Sequenzmarkercode von "1043" vor, würde ein Signal in dem entsprechenden Datensatz in der Sequenzdatenbank 10 in dem Eintrag #1043 der Signaldatei 12 gespeichert. Der Wert eines Probenmarkercodes X kann verwendet werden, um direkt die Lokalisation in der Signaldatei 12 anzusteuern, die dem Probenmarkercode X entspricht und somit schnell das Signal zugänglich zu machen, das in der Lokalisation gespeichert ist, um die Sequenzdatenbank 10 anzusteuern.
Da nur vier Werte erforderlich sind, um alle möglichen Basenpaare darzustellen, führt die Verwendung binär codierter Dezimalzahlen (BCD) für Markercodes in Verbindung mit der bevorzugten Struktur der Signaldatei 12 zu einer "ausgedünnten (sparse)" Signaldatei 12, die den Datenspeicher oder den Speicherplatz verwirft. Dem entsprechend überträgt die vorliegende Erfindung in bekannter Weise den Markercode in Base Nummer 4 (d.h. 2 Bits pro Codeziffer), was zu einer kompakten Struktur der Signaldatei 12 führt. Beispielsweise würde die vierbasige Darstellung für eine Markersequenz "AGCT" mit A = 00₂, G = 01₂, G = 10₂, T = 11₂ in binärer Form "00011011" betragen. Im Gegensatz dazu würde die BCD-Darstellung "00000000 00000001 00000010 000000011" sein. Es sollte natürlich klar sein, dass andere Zuordnungen von Basenpaaren zu Codes eine äquivalente Funktion liefern würden.
Das Konzept zur Ableitung eines definierten Markers von einer Probensequenz gemäß der vorliegenden Erfindung ist ebenfalls für den Vergleich verschiedener Proben hinsichtlich Ähnlichkeit geeignet. In einer bevorzugten Ausführungsform wird ein Computerverfahren verwendet, um die Sequenzmarker von verschiedenen Proben zuzuordnen. Beispielsweise kann bei dem Vergleich von Material, das eine große Anzahl von Sequenzen auf weist (d. h. Gewebe), die Häufigkeit des Auftretens von verschiedenen Markern in einer ersten Probe aus der Zuordnung zugeordnet werden, so lange die Markercodes in einer Verteilungsstruktur oder in einer Datenstruktur des Histogramm-Typs gespeichert sind. Es kann beispielsweise eine Tabelle verwendet werden, die ähnlich strukturiert ist wie die Signaldatei 12 in 4, in der jeder Eintrag einen Wert für die Frequenz des Auftretens umfasst. Danach können die verschiedenen Marker in einer zweiten Probe erzeugt werden, in Markercodes umgewandelt werden und mit der Tabelle verglichen werden, indem mit dem Markercode direkt Tabelleneinträge angesteuert werden. Für die Anzahl der gefundenen Zuordnungen als auch für die Lokalisation der Zuordnungen kann ein Zähler vergeben werden, der in Textform oder in grafischer Form durch eine Ausgabevorrichtung ausgegeben wird, und/oder für die spätere Verwendung in dem Datenspeichersystem gespeichert wird.
Die Aspekte der vorliegenden Erfindung bezüglich des Markervergleichs können in Hardware oder Software oder in einer Kombination aus beiden ausgeführt werden. Diese Aspekte der vorliegenden Erfindung können vorzugsweise in Computerprogramme implementiert werden, die auf einem programmierbaren Computer ablaufen, umfassend einen Prozessor, ein Datenspeichersystem (einschließlich flüchtiger und nicht-flüchtiger Speicherung und/oder Speicherelementen), mindestens eine Eingabevorrichtung, und mindestens eine Ausgabevorrichtung. Die Dateneingabe durch eine oder mehrere Eingabevorrichtungen für die zeitweise oder ständige Speicherung in dem Datenspeichersystem schließt Sequenzen ein und sie kann vorher erzeugte Marker oder Markercodes für bekannte und/oder unbekannte Sequenzen einschließen. Für die eingegebenen Daten wird ein Programmcode angewendet, um die vorstehend beschriebenen Funktionen auszuführen und die Ausgabeinformation zu erzeugen. Die Ausgabeinformation wird in der bekannten Weise in eine oder mehrere Ausgabevorrichtungen übertragen.
Jedes derartige Computerprogramm wird vorzugsweise in einem Speichermedium oder einer Speichervorrichtung gespeichert (z. B. ROM oder Magnetdiskette), die durch allgemeine oder für spezielle Zwecke programmierbare Computer lesbar ist, um den Computer zu konfigurieren und arbeiten zu lassen, wenn das Speichermedium oder die Speichervorrichtung von dem Computer zur Durchführung der hier beschriebenen Verfahren gelesen wird. Das erfindungsgemäße System kommt ebenfalls zur Ausführung als ein Computer-lesbares Speichermedium in Betracht, konfiguriert mit einem Computerprogramm, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer zur Durchführung der hier beschriebenen Funktionen in einer spezifischen und vordefinierten Weise arbeitet.
Die nachfolgenden Beispiele dienen der Veranschaulichung und sollen die vorliegende Erfindung nicht einschränken. Da sie typisch für diejenigen sind, die verwendet werden können, können alternativ andere Verfahren, die dem Fachmann bekannt sind verwendet werden.
Beispiele
Zum Zweck der Veranschaulichung wurde das SAGE-Verfahren der vorliegenden Erfindung angewendet, um die Genexpression im humanen Pankreas zu charakterisieren. NlaIII wurde als die erste Restriktionsendonuclease, oder als Verankerungsenzym, und BsmFI als die zweite Restriktionsendonuclease, oder als Markierungsenzym, verwendet, was einen 9 Bp-Marker lieferte. Es wurde erwartet, dass BsmFI den komplementären Strang 14 Bp 3' zur Erkennungsstelle GGGAC spaltet und eine 4 Bp große 5'-überhängende Sequenz liefert (New England Biolabs). Es wurde erwartet, dass die Überlappung der BsmFI- und NlaIII (CATG)-Stellen, als (GGGACATG) gekennzeichnet, zu einem 11 Bp-Marker führt. Die Analyse ließ jedoch vermuten, dass BsmFI unter den angewendeten Spaltungsbedingungen (37°C) häufig näher an seiner Erkennungsstelle spaltete, minimal 12 Bp 3' zu seiner Erkennungsstelle. Daher wurde für die Analyse der Marker nur die verwendet, die 9 Bp am engsten zu der Verankerungsenzymstelle lag. Die Spaltung bei 65°C führte zu einem weitaus beständigerem 11 Bp-Marker.
Die Computeranalyse humaner Transkripte von der GenBank bewies, dass mehr als 95% der Marker mit einer Länge von 9 Bp nahezu eindeutig waren und dass der Einschluss von zwei zusätzlichen Basen eine geringfügig zusätzliche Auflösung lieferte. Es wurden humane Sequenzen (84 300) aus der Datenbank der GenBank 87 extrahiert, mittels des Findseq-Programms, das von dem IntelliGenetics Bionet online-Service bereitgestellt wird. Alle weiteren Analysen wurden mit einem SAGE-Programm durchgeführt, das für das Microsoft-Windows-Arbeitssystem in Microsoft Visual Basic geschrieben ist. Das Analysenprogramm der SAGE-Datenbank wurde dahingehend programmiert, dass nur Sequenzen eingeschlossen sind, die in der Locusbeschreibung mit "RNA" bezeichnet sind und es sind Einträge ausgeschlossen, die mit "EST" bezeichnet sind, was zu einer Verminderung auf 13 241 Sequenzen führte. Die Analyse dieses Sequenzsatzes unter Anwendung von NlaIII als Verankerungsenzym zeigte, dass 4 127 neun Bp-Marken einheitlich waren, während 1 511 Marken in nur mehr als einem Eintrag gefunden wurden. Der Nucleotidvergleich eines zufällig ausgewählten Satzes (100) der späteren Einträge zeigte, dass mindestens 83% durch redundante Datenbankeinträge für das gleiche Gen oder stark verwandte Gene (> 95% Identität über mindestens 250 Bp) zustande gekommen waren. Dies ließ vermuten, dass 5381 die 9 Bp-Marker (95,5%) einzigartig für das Transkript oder eine hoch konservierte Familie von Transkripten waren. Ähnlich führte die Analyse des gleichen Satzes der GenBank mit einem 11 Bp-Marker nur zu einer 6% Abnahme in den sich wiederholenden Markern (1511 bis 1425) anstatt der 94% Abnahme, die erwartet würde, wenn die sich wiederholenden Marken nicht verwandten Transkripten entsprachen.
Beispiel 1
Wie vorstehend ausgeführt, wurde mRNA von humanen Pankreas verwendet, um Doppelmarker zu erzeugen. Fünf μg mRNA aus Gesamtpankreas (Clontech) wurden in doppelsträngige cDNA umgewandelt, unter Anwendung eines BRL-cDNA-Synthese-Kits entsprechend dem Protokoll der Hersteller, mittels des Biotin-5'T₁₈-3'-Primers. Anschließend wurde die cDNA mit NlaIII gespalten und die 3'-Restriktionsfragmente durch Bindung an magnetische Streptavidin-Kügelchen (Dynal) isoliert. Die gebundene DNA wurde in zwei Pools geteilt und an jeden Pool wurde einer der nachfolgenden Linker ligiert:
Nach ausgedehnten Waschen zur Entfernung der nicht ligierten Linker wurden die Linker und die benachbarten Marker durch Spaltung mit BsmFI freigesetzt. Die entstehenden Überhänge wurden mit T4-Polymerase aufgefüllt und die Pools wurden vereinigt und miteinander ligiert bzw. ligasiert. Das erwünschte Ligierungsprodukt wurde anschließend über 25 Zyklen unter Verwendung von
amplifiziert. Anschließend wurde die PCR-Reaktion durch Polyacrylamidgel-Elektrophorese analysiert und das erwünschte Produkt wurde herausgeschnitten. Es wurden anschließend zusätzliche 15 PCR-Zyklen durchgeführt, um ausreichend Produkt für eine wirksame Ligierung und Klonierung zu erzeugen.
Die PCR-Doppelmarker-Produkte wurden mit NlaIII gespalten und die Doppelmarker enthaltenden Banden wurden herausgeschnitten und selbst-ligiert. Nach der Ligierung wurden die verknüpften Doppelmarker mittels Polyacrylamidgel-Elektrophore getrennt und Produkte mit einer Größe über 200 Bp wurden herausgeschnitten. Diese Produkte wurden in die SphI-Stelle von pSL301 (Invitrogen) kloniert. Die Kolonien wurden mittels PCR, unter Verwendung von T7- und T3-Sequenzen außerhalb der Klonierungsstelle als Primer bezüglich Inserts gescreent. Klone, die mindestens 10 Marker enthielten (Bereich von 10 bis 50 Marker), wurden durch PCR-Amplifikation identifiziert und wie beschrieben manuell sequenziert, (Del Sal, et al., Biotechni-
Sequenzdateien wurden durch Anwendung der SAGE-Softwaregruppe analysiert, welche die Verankerungsenzymstelle mit der genauen räumlichen Anordnung identifiziert und die zwei Intervening-Marker extrahiert und sie in einer Datenbank aufzeichnet. Die 1000 Marker wurden von 413 eindeutigen Doppelmarkern und 87 sich wiederholenden Markern abgeleitet. Die letzteren wurden nur einmal gezählt, um potenzielle PCR-Bias aus der Quantifizierung auszuschließen. Die Funktion der SAGE-Software besteht lediglich in der Optimierung der Suche nach Gensequenzen.
Tabelle 1 zeigt die Analyse der ersten 1000 Marker. Sechzehn Prozent wurden ausgeschlossen, da sie entweder Uneindeutigkeiten bezüglich der Sequenz aufwiesen oder von Linkersequenzen abgeleitet waren. Die verbleibenden 840 Marker schlossen 351 Marker ein, die einmal vorkamen und 77 Marker, die mehrere Male gefunden wurden. Neun der zehn häufigsten Marker konnten mindestens einem Eintrag in der GenBank R87 zugeordnet werden. Nachfolgend wurde gezeigt, dass sich der verbleibende Marker von Amylase ableitet. Alle zehn Transkripte leiteten sich von Genen mit bekannter pankreatischer Funktion ab und ihre Prevalenz stimmte mit den früheren Analysen von pankreatischer RNA überein, die mittels herkömmlicher An sätze durchgeführt worden waren (Han, et al., Proc. Natl. Acad. Sci. U. S. A., 84: 110, 1986; Takeda, et al., Hum. Mol. Gen., 2: 1793, 1993).
Tabelle 1 Pankreatische SAGE-Marker
s"Marker" kennzeichnet die 9 Bp-Sequenz eindeutig für jeden Marker, benachbart zu der 4 Bp-NlaIII-Verankerungsstelle. "N" und "Prozent" gibt an, wie viele Male der Marker identifiziert wurde bzw. seine Frequenz. "Gen" kennzeichnet die Zugangsnummer und die Beschreibung der GenBank X87 Einträge, von denen festgestellt wurde, dass sie dem gekennzeichneten Marker zugeordnet werden können, unter Anwendung der SAGE-Software-Gruppe, mit den nachfolgenden Ausnahmen. Wurden infolge von Doppeleinträgen multiple Einträge identifiziert, wurde nur ein Eintrag in die Liste aufgenommen. Im Fall von Chymotrypsinogen und Trypsin I wurden andere Gene identifiziert, von denen angenommen wird, dass sie die gleichen Marker enthalten, die nachfolgende Hybridisierung und Sequenzanalyse identifizierte jedoch die aufgeführten Gene als die Quelle der Marker. "Alu Eintrag" kennzeichnet eine Zuordnung zu einem GenBank-Eintrag für ein Transkript, das mindestens eine Kopie der Alu-Consensus-Sequenz enthält (Deininger, et al., J. Mol. Biol., 151: 17, 1981).
Beispiel 2
Die quantitative Natur der SAGE wurde bewertet, indem eine Oligo-dT geprimte pankreatische cDNA-Library konstruiert wurde, die mit cDNA-Sonden bezüglich Trypsinogen 1/2, Procarboxypeptidase A1, Chymotrypsinogen und Elastase I-IIB/Protease E gescreent wurde. Pankreatische mRNA aus der gleichen Präparation, wie sie für die SAGE in Beispiel 1 verwendet wurde, wurde genutzt, um eine cDNA-Library in den ZAP-Expressionsvektor zu konstruieren, unter Verwendung des ZAP-Express-cDNA-Synthese-Kits entsprechend dem Protokoll der Hersteller (Stratagene). Die Analyse von 15 zufällig ausgewählten Klonen ergab, dass 100% cDNA-Inserts enthielten. Platten, die 250 bis 500 Plaques enthielten, wurden, wie vorstehend beschrieben, hybridisiert (Ruppert, et al., Mol. Cell. Biol., 8: 3104, 1988). cDNA-Sonden für Trypsinogen 1, Trypsinogen 2, Procarboxypeptidase A1, Chymotrypsinogen und Elastase IIIB wurden mit tels RT-PCR von RNA aus Pankreas abgeleitet. Die Sonden für Trypsinogen 1 und 2 waren zu 93% identisch und hybridisierten unter den verwendeten Bedingungen an die gleichen Plaques. Ähnlich waren die Sonden für Elastase IIIB und Protease E zu 95% identisch und hybridisierten an die gleichen Plaques.
Die verhältnismäßige Häufigkeit der SAGE-Marker für diese Transkripte stimmte ausgezeichnet mit den Ergebnissen überein, die durch das Library-Screening erhalten wurden ( 2). Des weiteren konnten dann, wenn weder Trypsinogen 1 oder 2, noch Elastase IIIB und Protease E durch die zum Screening der Library verwendeten cDNA-Sonden zu unterscheiden waren, alle vier Transkripte auf der Grundlage ihrer SAGE-Marker leicht unterschieden werden (Tabelle 1).
Beispiel 3
Zusätzlich zur Bereitstellung quantitativer Informationen über die Häufigkeit bekannter Transkripte kann die SAGE dazu verwendet werden, neuartige exprimierte Gene zu identifizieren. Da für die SAGE-Analyse dieses Beispiels nur die 9 Bp-Sequenz, die für jedes Transkript eindeutig ist, betrachtet wurde, definierte jeder SAGE-Marker eine 13 Bp-Sequenz, die aus der Verankerungsenzymstelle (4 Bp) plus dem 9 Bp-Marker zusammengesetzt war. Um dieses Potenzial zu veranschaulichen, wurden 13 Bp-Oligonucleotide verwendetet, um die Transkripte zu isolieren, die den vier nicht zugeordneten Markern entsprachen (P1 bis P4), das bedeutet, den Markern ohne entsprechende Einträge in der GenBank R87 (Tabelle 1). In jedem dieser vier Fälle war es möglich, multiple cDNA-Klone für den Marker zu isolieren, indem die pankreatische cDNA-Library einfach unter Verwendung des 13 Bp-Oligonucleotids als Hybridisierungssonde gescreent wurde (Beispiele in 3).
Platten, die 250 bis 2 000 Plaques enthielten, wurden unter den gleichen Bedingungen hybridisiert wie vorstehend für die herkömmlichen Sonden beschrieben, mit der Ausnahme, dass die Hybridisierungstemperatur auf Raumtemperatur gesenkt wur de. Das Waschen wurde über einen Zeitraum von 30 Minuten bei Raumtemperatur mit 6 × SSC/0,1% SDS ausgeführt. Die Sonden bestanden aus 13 Bp-Oligonucleotiden, die mit P³²-ATP unter Verwendung von T4-Polynucleotidkinase markiert wurden. In jedem Fall identifizierte die Sequenzierung der abgeleiteten Klone den korrekten SAGE-Marker an dem erwarteten Ende 3'-Ende des Transkripts. Die Häufigkeit der durch die Hybridisierung mit den 13-mers identifizierten Plaques stimmte mit der überein, die nach der Durchführung der SAGE erwartet worden war (Tabelle 2). Es wurde festgestellt, dass die Marker P1 und P2 Amylase bzw. Preprocarboxypeptidase A2 entsprachen. In der GenBank R87 war kein Eintrag für Preprocarboxypeptidase A2 und nur ein verkürzter Eintrag für Amylase vorhanden, was zu ihrer nicht zuordenbaren Charakterisierung führte. Der Marker P3 ließ sich keinem Gen mit einer bekannten Funktion aus der GenBank zuordnen, jedoch zahlreichen EST's, was bewies, dass es ein echtes Transkript darstellt. Die durch P4 identifizierte cDNA wies keine wesentliche Homologie auf, was vermuten lässt, dass sie ein bereits früher nicht charakterisiertes pankreatisches Transkript darstellt.
Tabelle 2 Charakterisierung der nicht zuordenbaren SAGE-Marker
"Marker" und "SAGE-Häufigkeit" sind in Tabelle 1 beschrieben; "13mer Hyb" kennzeichnet die Ergebnisse, die erhalten wurden, indem eine cDNA-Library mit einem 13mer wie vorstehend beschrieben gescreent wurde. Die Zahl der positiven Plaques dividiert durch die Gesamtzahl der gescreenten Plaques ist in den Klammern angegeben, die der prozentualen Häufigkeit folgt. Ein Positivzeichen in der Spalte für den "SAGE-Marker" gibt an, dass die erwartete SAGE-Markersequenz nahe dem 3-Ende der isolierten Klone identifiziert worden war. "Beschreibung" kennzeichnet die Ergebnisse der BLAST-Suche in den täglich erneuerten GenBank-Einträgen des NCBI vom 06.06.1995 (Altschul, et al., J. Mol. Biol., 215: 403, 1990). Eine Beschreibung und eine Zugangsnummer sind für die Zuordnungen angeben, die am wesentlichsten sind. Es wurde festgestellt, dass P1 einem verkürzten Eintrag für Amylase zugeordnet werden kann, und es wurde festgestellt, dass P2 einen nicht veröffentlichten Eintrag für Preprocarboxypeptidase A2 zugeordnet werden kann, der nach der GenBank R87 eingetragen wurde.
Beispiel 4
Die durch SAGE erzeugten Doppelmarker können mittels PSA oder CS analysiert werden, wie in der Spezifikation beschrieben. In einer bevorzugten Ausführungsform für PSA wurden die nachfolgenden Schritte mit Doppelmarkern ausgeführt: Die Doppelmarker wurden hergestellt, amplifiziert und mit dem Verankerungsenzym gespalten, wie es in den vorhergehenden Beispielen beschrieben wurde.
Vier-Basen-Oligomere, die ein Identifikationsmittel enthielten (z. B. eine fluoreszierende Einheit, FL), werden so hergestellt, dass sie zu den Überhängen komplementär sind, beispielsweise FL-CATG. Die FL-CATG-Oligomere (im Überschuss) werden, wie nachstehend dargestellt, an die Doppelmarker ligiert:
Die Doppelmarker wurden anschließend gereinigt und geschmolzen, was zu einsträngigen DNAs mit beispielsweise der nachfolgenden Formel führte:
Das Gemisch aus einsträngigen DNAs wird vorzugsweise reihenmäßig verdünnt. Jede reihenmäßige Verdünnung wird unter geeigneten strengen Bedingungen mit festen Matrizen hybridisiert, die in Raster aufgeteilte einsträngige Oligonucleotide enthalten; alle Oligonucleotide enthalten eine halbe Stelle der Spaltstelle des Verankerungsenzyms. In dem hier verwendeten Beispiel enthalten die Oligonucleotidsequenzen eine CATG-Sequenz am 5'-Ende:
Die Matrizen können aus jedem beliebigen auf dem Fachgebiet bekannten Material hergestellt werden und die Oligonucleotid-tragenden Chips können mittels jedem auf dem Fachgebieten bekannten Verfahren hergestellt werden, z. B. mittels dem VLSIP-Verfahren hergestellte Oligonucleotid enthaltende Silikonchips (Fodor, et al., supra).
Die Oligonucleotid-tragenden Matrizen werden auf Gegenwart oder Abwesenheit eines fluoreszierenden Doppelmarkers an jeder Position des Rasters bewertet.
In einer bevorzugten Ausführungsform befinden sich 4¹⁰ oder 1 048 576 Oligonucleotide der allgemeinen Sequenz CATGOO-OOOOOOOO auf dem/den Raster(n), derart dass jede mögliche 10-Basen-Sequenz sich 3'zu CATG befindet, wobei CATG als ein Beispiel für eine halbe Stelle eines Verankerungsenzyms komplementär zu der halben Stelle des Verankerungsenzyms an dem 3'-Ende des Doppelmarkers ist. Da in dem humanen Genom nicht mehr als 100 000 bis 200 000 verschiedene exprimierte Gene zu bestimmen sind, gibt es ausreichend Oligonucleotidsequenzen, um alle möglichen Sequenzen nachzuweisen, die sich benachbart zu der 3"-nächsten Stelle des Verankerungsenzyms befinden, die in den cDNAs der exprimierten Gene des humanen Genoms nachgewiesen wurde.
In einer noch anderen Ausführungsform werden Strukturen, enthaltend die wie vorstehend beschriebenen Sequenzen PRIMER A-GGAGCATG (X)₁₀ (O)₁₀ CATGCATCC-PRIMER B PRIMER A-CCTCGTAC (X)₁₀ (O)₁₀ GTACGTAGG-PRIMER,
amplifiziert, mit dem Markierungsenzym und danach mit dem Verankerungsenzym gespalten, zur Erzeugung von Marker-Komplementen der Struktur: (O)₁₀ CATG-3', die anschließend markiert, geschmolzen und mit Oligonucleotiden auf einem festen Träger hybridisiert werden können.
Eine Bestimmung der differentiellen Expression erfolgt, indem die Fluoreszenz-Profile auf den Rastern bei verschiedenen Verdünnungen in verschiedenen Libraries verglichen werden (darstellen der differentiellen Screening-Sonden). Beispielsweise
Die individuellen Oligonucleotide hybridisieren somit an Doppelmarker mit den nachfolgenden Charakteristika:
Tabelle 3
Tabelle 3 fasst die Ergebnisse der differentiellen Hybridisierung zusammen. Marker, die an 1A und 3B hybridisierten, spiegeln die sehr häufig vorkommenden mRNAs wieder, die nicht differentiell exprimiert werden (da die Marker bei allen Verdünnungen an beide Libraries hybridisierten); der Marker 2C identifiziert eine sehr häufig vorkommende RNA, jedoch nur in der Library B. 2E spiegelt ein wenig vorkommendes Transkript wieder (da es nur bei der geringsten Verdünnung nachgewiesen wurde), von dem festgestellt wurde, dass es nicht differentiell exprimiert wird; 3C spiegelt ein moderat vorkommendes Transkript (da es bei der geringeren der beiden Verdünnungen exprimiert wird) in Library B wider, das in Library A mit einer geringen Häufigkeit exprimiert wird. 4D spiegelt ein differentiell-exprimiertes, sehr häufig vorkommendes Transkript wider, das auf Library A begrenzt ist; 5A spiegelt ein Transkript wider, das mit einer hohen Häufigkeit in Library A exprimiert wird, jedoch mit einer geringen Häufigkeit in Library B; und 5E spiegelt ein differentiell-exprimiertes Transkript wider, das nur in Library B nachweisbar ist.
In einer anderen Ausführungsform der PSA beinhaltet der vorstehende Schritt 3 die Anwendung eines Fluoreszensmittels oder eines anderen Identizierungsmittels, anstelle der Verwendung von markierten dNTPs in der letzten Runde der Amplifikation, sodass nach dem Schmelzen die Hälfte aller Moleküle markiert sind und als Sonden für die Hybridisierung an Oligonucleotiden dienen, die an Chips fixiert sind.
Für die Anwendung in der klonalen Sequenzierung können die Doppelmarker, oder Konkatemere, verdünnt werden und beispielsweise Wells von Multi-Well-Platten oder anderen Aufnahmebehältnissen zugesetzt werden, sodass die Wells im Durchschnitt, statisch gesehen, weniger als ein DNA-Molekül pro Well enthalten könnten (so wie es für die eingeschränkte Verdünnung bei der Zellklonierung der Fall ist). Jedes Well könnte anschließend Reagenzien für die PCR oder ein anderes Amplifikationsverfahren erhalten und die DNA in jedem Aufnahmebehältnis könnte sequenziert werden, z. B. durch Massenspektrometrie. Das Ergebnis wird entweder eine Einzelsequenz sein (wenn eine Einzelsequenz in dem Aufnahmebehältnis vorlag), eine "Null"-Sequenz (keine DNA vorhanden) oder eine Doppelsequenz (mehr als ein DNA-Molekül), das aus der Betrachtung während der Datenanalyse ausgeschlossen werden würde. Danach könnte die Zuordnung der Expression so erfolgen, wie sie hier beschrieben wurde.
Die Ergebnisse veranschaulichen, dass die SAGE sowohl quantitative als auch qualitative Daten über die Genexpression liefert. Die Verwendung verschiedener Verankerungsenzyme und/oder Markierungsenzyme mit verschiedenen Erkennungselementen verleiht dieser Strategie eine große Flexibilität. Da die verschiedenen Verankerungsenzyme cDNA an verschiedenen Stellen spalten, gestattet die Verwendung von mindestens 2 verschiedenen Aes auf verschiedenen Proben der gleichen cDNA-Präparation insbesondere die Bestätigung der Ergebnisse und der Analyse von Sequenzen, die keine Erkennungsstelle für eines der Enzyme enthalten würden.
Bei den Bemühungen um die vollständige Charakterisierung des Genoms fast bis zur Vollständigkeit sollte die SAGE ein direktes Ablesen der Expression in jedem beliebigen vorgegebenen Zelltyp oder Gewebe gestatten. In der Zwischenzeit könnte eine Hauptanwendungsmöglichkeit der SAGE der Vergleich von Genexpressionsmustern zwischen Geweben und von verschiedenen Entwicklungs- und Krankheitszutänden in einer vorgegebenen Zelle oder einem vorgegebenen Gewebe sein. Der Fachmann, der in der Lage ist, eine PCR und das manuelle Sequenzieren durchzuführen, könnte zu diesem Zweck eine SAGE ausführen. Die Adaption dieses Verfahrens auf einen automatischen Sequenzierer könnte die Analyse von über 1 000 Transkripten in einem einzelnen Lauf von 3 Stunden gestatten. Ein ABI 377-Sequenzierer kann in einem dreistündigen Lauf eine 451 Bp-Anzeige für 36 Kopiervorlagen erzeugen (451 Bp/ 11 Bp pro Marker × 36 = 1476 Marker). Die zu bestimmende geeignete Anzahl von Markern ist von der Anwendung abhängig. Beispielsweise könnte die Definition von Genen, die in einem Gewebe in verhältnismäßig hohen Grad (0,5% oder mehr), jedoch in einem anderen nur zu einem geringeren Grad exprimiert werden, nur einen einzigen Tag erfordern. Die Bestimmung von Transkripten, die in mehr als 100 mRNAs pro Zelle exprimiert werden (0,025% oder mehr), sollte innerhalb weniger Monate durch einen einzigen Forscher quantifizierbar sein. Die Verwendung von zwei verschiedenen Verankerungsenzymen stellt sicher, dass nahezu alle Transkripte der erwünschten Häufigkeit identifiziert werden. Die Gene, die jene Marker codieren, von denen festgestellt wurde, dass sie, basierend auf ihrer differentiellen Darstellung am interessantesten sind, können durch eine Kombination von Datenbank-Suche, Hybridisierung und Sequenzanalyse positiv identifiziert werden, wie es in Tabelle 2 veranschaulicht ist. Augenscheinlich könnte die SAGE auch auf die Analyse von anderen Organismen als von Menschen angewendet werden und auf die direkte Untersuchung von Genen, die in spezifischen biologischen Zuständen exprimiert werden.
Die SAGE, wie sie hier beschrieben ist, gestattet den Vergleich der Expression zahlreicher Gene zwischen Geweben oder zwischen verschiedenen Entwicklungszuständen des gleichen Gewebes, oder zwischen pathologischem Gewebe und seinem gesunden Gegenspieler. Eine derartige Analyse ist dazu geeignet, beispielsweise therapeutisch, diagnostisch oder prognostisch relevante Gene zu identifizieren. Unter den vielen Anwendungsmöglichkeiten für das SAGE-Verfahren befindet sich die Identifizierung geeigneter Antisense- oder Triple-Helix-Reagenzien, die therapeutisch nützlich sein könnten. Des weiteren können auch Kandidaten für eine Gentherapie durch das SAGE-Verfahren identifiziert werden. Andere Anwendungsmöglichkeiten schließen beispielsweise diagnostische Anwendungen zur Identifizierung von individuellen Genen oder Gruppen von Genen ein, von denen gezeigt wird, dass ihre Expression mit der Predisposition für eine Krankheit, dem Vorliegen einer Krankheit oder der Prognose für eine Krankheit korreliert. Ein Häufigkeitsprofil, wie in das Tabelle 1 dargestellt, ist für die vorstehend beschriebenen Anwendungen nützlich. Die SAGE ist auch zum Nachweis von einem Organismus (z. B. einem Pathogen) in einem Wirt oder zum Nachweis von Infektions-spezifischen Genen, die durch ein Pathogen in einem Wirt exprimiert werden, geeignet.
Die Möglichkeit, eine große Anzahl von exprimierten Genen in einer kurzen Zeit zu identifizieren, wie es durch die SAGE der vorliegenden Erfindung beschrieben wurde, liefert uneingeschränkte Anwendungsmöglichkeiten.
Obwohl die vorliegende Erfindung in Bezug zu den gegenwärtig bevorzugten Ausführungsformen beschrieben worden ist, sollte es klar sein, dass verschiedene Modifizierungen möglich sind, ohne dass sie von dem Erfindungsgedanken der vorliegenden Erfindung abweichen. Dementsprechend wird die vorliegende Erfindung nur durch die nachfolgenden Ansprüche beschränkt.

Claims

Isoliertes Doppelmarker-Oligonucleotid, umfassend wenigstens zwei definierte Nucleotidsequenzmarker, wobei die definierten Nucleotidsequenzmarker Sequenz 5' von einer 5'-nächsten Spaltstelle einer Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer Restriktionsendonuclease in einer Volllänge-cDNA umfassen, wobei jeder Marker einem exprimierten Gen entspricht.
Zusammensetzung nach Anspruch 1, wobei das Oligonucleotid aus 1 bis 200 Doppelmarkern besteht.
Zusammensetzung nach Anspruch 2, wobei das Oligonucleotid aus 8 bis 20 Doppelmarkern besteht.
Verfahren zum Nachweis von Genexpression umfassend: Herstellung von Oligonucleotiden komplementärer Desoxyribonucleinsäure (cDNA) aus mRNA einer Zelle, die ein exprimiertes Gen enthält; Isolierung eines ersten Nucleotidsequenzmarkers aus einem ersten cDNA-Oligonucleotid und eines zweiten Nucleotidsequenzmarkers aus einem zweiten cDNA-Oligonucleotid, wobei die Nucleotidsequenzmarker Sequenz 5' von einer 5'-nächsten Spaltstelle einer ersten Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer ersten Restriktionsendonuclease in einer Volllängen-cDNA umfassen; Verbinden des ersten Markers mit einem ersten Oligonucleotid-Linker, wobei der erste Oligonucleotid-Linker eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers umfaßt, und Verbinden des zweiten Markers mit einem zweiten Oligonucleotid-Linker, wobei der zweite Oligonucleotid-Linker eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers umfaßt; und Ligasieren des ersten Markers, der mit dem ersten Oligonucleotid-Linker verbunden ist, mit dem zweiten Marker, der mit dem zweiten Oligonucleotid-Linker verbunden ist, zur Bildung eines Doppelmarkers; Bestimmung der Nucleotidsequenz des Doppelmarkers, wobei die Identifizierung eines ersten oder zweiten Markers in einem Doppelmarker anzeigt, daß ein Gen, das dem ersten oder zweiten Marker entspricht, in der Zelle exprimiert ist.
Verfahren nach Anspruch 4, das weiterhin Amplifizierung des Doppelmarker-Oligonucleotids umfaßt.
Verfahren nach Anspruch 5, das weiterhin die Spaltung des Doppelmarkers durch die erste Restriktionsendonuclease und das Ligasieren der gespaltenen Doppelmarker zur Bildung von Konkatemeren des Doppelmarkers umfaßt.
Verfahren nach Anspruch 6, wobei das Konkatemer aus 2 bis 200 Doppelmarkern besteht.
Verfahren nach Anspruch 7, wobei das Konkatemer aus 8 bis 20 Doppelmarkern besteht.
Verfahren nach einem der Ansprüche 4 bis 8, wobei der erste und zweite Oligonucleotid-Linker die gleichen Nucleotidsequenzen umfassen.
Verfahren nach einem der Ansprüche 4 bis 8, wobei der erste und zweite Oligonucleotid-Linker verschiedene Nucleotidsequenzen umfassen.
Verfahren nach Anspruch 10, wobei der erste und zweite Oligonucleotid-Linker die Sequenz
haben, wobei A Didesoxy A ist.
Verfahren nach einem der Ansprüche 4 bis 11, wobei die Linker eine Erkennungsstelle für eine zweite Restriktionsendonuclease umfassen, die Spaltung an einer Stelle erlaubt, die von der Erkennungsstelle entfernt ist.
Verfahren nach Anspruch 12 wobei die zweite Restriktionsendonuclease eine Typ IIS Endonuclease ist.
Verfahren nach Anspruch 13, wobei die Typ IIS Endonuclease ausgewählt ist aus der Gruppe bestehend aus BsmFI und FokI.
Verfahren nach einem der Ansprüche 4 bis 14, wobei der Doppelmarker 12 bis 60 Basenpaare ist.
Verfahren nach Anspruch 15, wobei der Doppelmarker 18 bis 22 Basenpaare ist.
Verfahren nach einem der Ansprüche 5 bis 16, wobei die Amplifizierung durch Polymerase-Kettenreaktion (PCR) erfolgt.
Verfahren nach Anspruch 17, wobei die Primer für die PCR ausgewählt sind aus der Gruppe bestehend aus
Verfahren zum Nachweis von Genexpression umfassend: Spaltung einer cDNA-Probe, abgeleitet aus mRNA einer Zelle, die ein Gen exprimiert, mit einer ersten Restriktionsendonuclease, wobei die Endonuclease die cDNA an einer definierten Stelle am 5'- oder 3'-Ende der cDNA spaltet, wodurch definierte Sequenzmarker hergestellt werden; Isolierung eines 5'- oder 3'-cDNA-Markers, der zwischen der definierten Position und dem benachbarten Ende liegt; Ligasieren eines ersten Pools von Markern mit einem ersten Oligonucleotid-Linker, der eine erste Sequenz hat, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, und Ligasieren eines zweiten Pools von Markern mit einem zweiten Oligonucleotid- Linker, der eine zweite Sequenz hat, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, wobei jeder Primer eine Erkennungsstelle für eine zweite Restriktionsendonuclease umfaßt, wobei die zweite Restriktionsendonuclease an einer Stelle spaltet, die von der Erkennungsstelle entfernt ist; Spaltung der Marker mit einer zweiten Restriktionsendonuclease; Ligasieren der zwei Marker-Pools um Doppelmiarker herzustellen; Bestimmung der Nucleotidsequenz eines Doppelmarkers, wobei die Identifizierung eines ersten oder zweiten Markers in einem Doppelmarker anzeigt, daß ein Gen, das dem ersten oder zweiten Marker entspricht, in der Zelle exprimiert ist.
Verfahren nach Anspruch 19, das weiterhin die Amplifizierung des Doppelmarkers umfaßt.
Verfahren nach Anspruch 20, wobei die erste Restriktionsendonuclease eine Erkennungsstelle mit vier Basenpaaren hat.
Verfahren nach Anspruch 21, wobei die erste Restriktionsendonuclease NlaIII ist.
Verfahren nach einem der Ansprüche 19 bis 22, wobei die cDNA ein Mittel zum Einfangen umfaßt.
Verfahren nach Anspruch 23, wobei das Mittel zum Einfangen ein Bindeelement ist.
Verfahren nach Anspruch 24, wobei das Bindeelement Biotin ist.
Verfahren nach einem der Ansprüche 19 bis 25, wobei der erste und zweite Oligonucleotid-Linker die gleichen Nucleotidsequenzen umfassen.
Verfahren nach einem der Ansprüche 19 bis 25, wobei der erste und zweite Oligonucleotid-Linker verschiedene Nucleotidsequenzen umfassen.
Verfahren nach Anspruch 27, wobei der erste und zweite Oligonucleotid-Linker die Sequenz
haben, wobei A Didesoxy A ist.
Verfahren nach einem der Ansprüche 19 bis 28, wobei die zweite Restriktionsendonuclease eine Typ IIS Endonuclease ist.
Verfahren nach Anspruch 29, wobei die Typ IIS Endonuclease ausgewählt ist aus der Gruppe umfassend BsmFl und Fokl.
Verfahren nach einem der Ansprüche 19 bis 30, wobei der Doppelmarker 12 bis 60 Basenpaare ist.
Verfahren nach Anspruch 31, wobei der Doppelmarker 14 bis 22 Basenpaare ist.
Verfahren nach einem der Ansprüche 19 bis 32, das weiterhin Ligasieren der Doppelmarker umfaßt, um ein Konkatemer herzustellen.
Verfahren nach Anspruch 33, wobei das Konkatemer aus 2 bis 200 Doppelmarkern besteht.
Verfahren nach Anspruch 34, wobei das Konkatemer aus 8 bis 20 Doppelmarkern besteht.
Verfahren nach einem der Ansprüche 20 bis 35, wobei die Amplifizierung durch Polymerase-Kettenreaktion (PCR) erfolgt.
Verfahren nach Anspruch 36, wobei die Primer zur PCR ausgewählt sind aus der Gruppe bestehend aus
Kit, das zum Nachweis von Genexpression verwendet werden kann, wobei die Gegenwart eines cDNA-Doppelmarkers die Expression eines Gens anzeigt, das eine Sequenz eines Markers des Doppelmarkers hat, wobei das Kit umfaßt: ein erstes Behältnis, das einen ersten Oligonucleotid-Linker mit einer ersten Sequenz enthält, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann; ein zweites Behältnis, das einen zweiten Oligonucleotid-Linker mit einer zweiten Sequenz enthält, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, wobei die Linker weiterhin eine Restriktionsendonucleasestelle zur Spaltung von DNA an einer Stelle, die entfernt ist von der Erkennungsstelle der Restriktionsendonuclease, umfassen; ein drittes und viertes Behältnis, das Nucleinsäureprimer zur Hybridisierung mit den ersten bzw. zweiten Sequenzen der Linker hat; und ein fünftes und sechstes Behältnis, das eine Ligase und gegebenenfalls eine zweite Restriktionsendonuclease enthält, die DNA an ihrer Erkennungsstelle spaltet.
Kit nach Anspruch 38, wobei die Linker eine Sequenz
oder
haben, wobei A Didesoxy A ist.
Kit nach Anspruch 38 oder 39, wobei die Restriktionsendonuclease eine Typ IIS Endonuclease ist.
Kit nach Anspruch 40, wobei die Typ IIS Endonuclease BsmFl ist.
Kit nach einem der Ansprüche 38 bis 41, wobei die Primer zur Amplifizierung ausgewählt sind aus der Gruppe bestehend aus
Isoliertes Doppelmarker-Oligonucleotid nach Anspruch 1, wobei die zwei definierten Nucleotidsequenzmarker Schwanz-an-Schwanz verbunden sind.
Isoliertes Doppelmarker-Oligonucleotid nach Anspruch 1, wobei die Doppelmarker an jedem Ende gespaltene Spaltstellen für eine Restriktionsendonuclease umfassen.