-
GEBIET DER ERFINDUNG
-
Die
vorliegende Erfindung befindet sich im Gebiet der biologischen Identifizierung.
Spezieller werden Prozesse und Systeme zum Identifizieren einer
biologischen Probe durch Analyse von Informationen, die von einem
Testinstrument empfangen wurden, bereitgestellt.
-
HINTERGRUND DER ERFINDUNG
-
Fortschritte
im Gebiet der Genomanalyse führen
zur Entdeckung neuer und wertvoller Informationen, die genetische
Prozesse und Beziehungen betreffen. Diese neu beleuchtete genetische
Information revolutioniert den Weg, wie medizinische Therapien verbessert,
getestet und erbracht werden. Da mehr Informationen gesammelt werden,
weist die genetische Analyse das Potenzial auf, eine integrale und
zentrale Rolle im Entwickeln und Erbringen medizinischer Fortschritte
zu spielen, die die Lebensqualität
signifikant erhöhen.
-
Mit
der steigenden Bedeutung und dem Vertrauen in genetische Informationen
ist ein genaues und verlässliches
Sammeln und Verarbeiten von genetischen Daten kritisch. Konventionelle
bekannte Systeme zum Sammeln und Verarbeiten von genetischen oder
von DNA-Daten sind jedoch unzureichend, um die Informationsbedürfnisse
der Genomanalysegemeinschaft zu unterstützen. Beispielsweise benötigen bekannte DNA-Sammelsysteme
oft wesentlich menschliches Eingreifen, das das ungewünschte Risiko
von Ungenauigkeiten trägt,
die mit menschlichem Eingreifen verbunden sind. Weiter limitiert
die langsame Geschwindigkeit solche einer manuellen Tätigkeit
die Menge der Daten stark, die in einer gegebenen Zeitperiode gesammelt werden
können,
was die benötigten
medizinischen Fortschritte verlangsamt und wesentlich zu den Kosten
des Datensammelns beiträgt.
-
In
einem besonders reizvollen Gebiet der Genomanalyse wurde das Identifizieren
und Klassifizieren geringster Abweichungen in menschlicher DNA mit
der grundlegenden Behandlung oder dem medizinischen Ratschlag für ein spezifisches
Individuum verknüpft.
Beispielsweise sind die Abweichungen ein starker Hinweis auf die
Anlage für
eine bestimmte Erkrankung, Medikamentenverträglichkeit und Medikamenteneffizienz. Die
vielversprechendste dieser geringsten Abweichungen wird gewöhnlich Einzelnukleotidpolymorphismen (SNPs)
genannt, die sich auf einen einzelnen Basenpaarwechsel zwischen
einer ersten Testperson und einer zweiten Testperson beziehen. Durch
genaues und vollständiges
Identifizieren solcher SNPs würde
ein Anbieter aus dem Gesundheitswesen eine leistungsfähige Indikation
der Wahrscheinlichkeit einer Person besitzen, eine bestimmte Krankheit
zu erwerben, welche Medikamente am effektivsten für diese
Person sein werden und welcher Medikamentenbehandlungsplan am vorteilhaftesten
sein wird. Mit solchem Wissen bewaffnet kann der Anbieter aus dem
Gesundheitswesen die Person unterstützen, andere Risikofaktoren
von hochempfänglichen
Krankheiten zu senken. Weiter kann der Anbieter aus dem Gesundheitswesen
die geeignete Medikamententherapie sicher auswählen, ein Vorgang, der im Moment
ein iterativer, Versuch und Irrtum umfassender Vorgang ist, in dem
verschiedene Medikamenten- und Behandlungspläne ausprobiert werden, bis
ein effektiver gefunden ist. Dies ist nicht nur eine Verschwendung
von begrenzten medizinischen Resourcen, sondern der Zeitverlust,
eine effektive Therapie zu finden, kann auch ernste medizinische
Konsequenzen für
den Patienten aufweisen.
-
Um
vollständig
von der Verwendung von SNP-Daten zu profitieren, müssen riesige
Mengen von DNA-Daten gesammelt, verglichen und analysiert werden.
Beispielsweise benötigt
das Sammeln und Identifizieren des SNP-Profils einer einzelnen menschlichen
Testperson das Sammeln, Identifizieren und Klassifizieren von tausenden,
sogar zehntausenden von DNA-Proben. Weiter muss die Analyse der
entstandenen DNA-Daten mit Präzision
durchgeführt werden.
Beim Ausführen
einer genetischen Abfrage, bei der eine Zusammensetzung einer biologischen
Probe identifiziert wird, kann jeder Fehler im Abruf zu einer schädlichen Beeinflussung
des medizinischen Ratschlags oder der Behandlung, die dem Patienten
gegeben wird, führen.
-
Herkömmlich sind
bekannte Systeme und Prozesse zum Sammeln und Analysieren von DNA-Daten unzulänglich,
um rechtzeitig und effizient ein ausgedehntes medizinisches Programm
umzusetzen, das von SNP-Informationen
profitiert. Beispielsweise benötigen
viele bekannte DNA-Analysetechniken
die Verwendung eines Operators oder Technikers, um die DNA-Daten
zu überwachen
und nachzuprüfen.
Ein Operator, auch mit ausreichend Training und wesentlicher Erfahrung,
wird wahrscheinlich immer noch gelegentlich Klassifizierungsfehler
machen. Beispielsweise kann der Operator ein Basenpaar unkorrekt
identifizieren, was dazu führt,
dass der Patient ein fehlerhaftes SNP-Profil erhält. Alternativ kann der Anwender
die Daten ansehen und entscheiden, dass die Daten nicht klar ein
bestimmtes Basenpaar identifizieren. Obwohl so ein "Nichtabruf" berechtigt sein
kann, ist es wahrscheinlich, dass der Operator "Nichtabruf"-Entscheidungen treffen wird, wenn die
Daten eigentlich einen gültigen
Abruf unterstützen
würden.
In solch einer Weise geht die Gelegenheit für ein vollständigeres
Profil des Patienten verloren.
-
Damit
besteht der Bedarf für
Systeme, Vorrichtungen und Prozesse, um effizient und genau Daten
zu sammeln und zu analysieren, wie etwa DNA-Daten. Damit ist es hier eine Aufgabe,
solche Systeme, Vorrichtungen und Prozesse bereitzustellen. Es ist
hier eine Aufgabe, eine Vorrichtung und einen Prozess zum genauen
Identifizieren von genetischen Informationen bereitzustellen. Es
ist eine andere Aufgabe, Prozesse und Vorrichtungen zum Extrahieren
von genetischen Informationen aus genetischen Daten in einer hochautomatisierten
Weise bereitzustellen. Um die Nachteile in den bekannten herkömmlichen
Systemen zu überwinden, wird
ein Verfahren und eine Vorrichtung zum Identifizieren einer biologischen
Probe bereitgestellt.
-
EP0296781 beschreibt ein
Gerät zum
Quantifizieren chromatographischer Informationen. Das Spektrum wird
gefiltert, um Rauschen zu entfernen, und dann wird das sich daraus
ergebende Spektrum basislinienkorrigiert.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Mit
einem ersten Aspekt der vorliegenden Erfindung wird ein automatisiertes
Verfahren zum Identifizieren einer Komponente einer biologischen
Probe bereitgestellt, wie in Anspruch 1 beschrieben.
-
Mit
einem zweiten Aspekt der vorliegenden Erfindung wird ein computerisiertes
System zum Identifizieren einer Komponente in einer biologischen
Probe bereitgestellt, wie in Anspruch 38 beschrieben.
-
Mit
einem dritten Aspekt der vorliegenden Erfindung wird ein maschinenlesbares
Programm bereitgestellt, das auf einem Rechengerät operiert, wobei das Rechengerät konfiguriert
ist, um einen Datensatz von einem Testinstrument zu empfangen, der
rechnerlesbare Daten umfasst, die Komponenten einer biologischen Probe
repräsentieren,
wie in Anspruch 40 beschrieben.
-
In
einem speziellen Beispiel besteht der Datensatz aus DNA-Spektrometriedaten,
die von einem Massenspektrometer empfangen werden. Der Datensatz
ist entrauscht und eine Basislinie ist gelöscht. Da mögliche Zusammensetzungen der
biologischen Probe bekannt sein können, können Gebiete mit erwarteten
Peaks bestimmt werden. Unter Verwendung der Gebiete mit erwarteten
Peaks wird eine Restbasislinie erzeugt, um den Datensatz weiter
zu korrigieren. Wahrscheinliche Peaks sind dann im korrigierten
Datensatz identifizierbar, die zum Identifizieren der Zusammensetzung
der biologischen Probe verwendet werden. In einem offenbarten Beispiel
werden statistische Verfahren eingesetzt, um die Wahrscheinlichkeit
zu bestimmen, dass ein wahrscheinlicher Peak ein tatsächlicher
Peak ist, nicht ein tatsächlicher
Peak ist, oder dass die Daten nicht beweiskräftig genug zum Abruf sind.
-
Vorteilhafterweise
machen das Verfahren und das System zum Identifizieren einer biologischen
Probe genaue Zusammensetzungsabfragen in einer hochautomatisierten
Weise. In solch einer Weise können
beispielsweise komplette SNP-Profilinformationen effizient gesammelt
werden. Wichtiger werden die gesammelten Daten mit hochgenauen Ergebnissen
analysiert. Beispielsweise, wenn eine bestimmte Zusammensetzung abgerufen
wird, kann sich auf das Ergebnis mit großer Sicherheit verlassen werden.
Solche Sicherheit wird durch den eingesetzten robusten rechnergestützten Prozess
und das hochautomatisierte Verfahren des Sammelns, Verarbeitens
und Analysierens des Datensatzes bereitgestellt.
-
Diese
und andere Merkmale und Vorteile der vorliegenden Erfindung können beim
Durchlesen der folgenden detaillierten Beschreibung der Erfindung
gewürdigt
werden, zusammen mit den begleitenden Figuren, in denen sich gleiche
Bezugszeichen durchgehend auf entsprechende Teile beziehen.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist
ein Blockdiagramm, das ein hier bereitgestelltes System zeigt.
-
2 ist
ein Flussdiagramm eines hier bereitgestellten Verfahrens zum Identifizieren
einer biologischen Probe.
-
3 ist
eine graphische Darstellung von Daten eines Massenspektrometers.
-
4 ist
ein Diagramm einer Wavelettransformation von Massenspektrometriedaten.
-
5 ist
eine graphische Darstellung von Wavelet Hochstufe-0-Daten.
-
6 ist
eine graphische Darstellung eines Stufe 0-Rauschprofils.
-
7 ist
eine graphische Darstellung, wie Stufenrauschen-Standardabweichungen erzeugt werden.
-
8 ist
eine graphische Darstellung, wie ein Schwellwert auf Datenstufen
angewendet wird.
-
9 ist
eine graphische Darstellung eines dünn besetzten Datensatzes.
-
10 ist
eine Formel zum Verschieben von Signalen.
-
11 ist
eine graphische Darstellung einer Wavelettransformation eines entrauschten
und verschobenen Signals.
-
12 ist
eine graphische Darstellung eines entrauschten und verschobenen
Signals.
-
13 ist
eine graphische Darstellung, wie Peakbereiche entfernt werden.
-
14 ist
eine graphische Darstellung, wie ein peakfreies Signal erzeugt wird.
-
15 ist
ein Blockdiagramm eines Verfahrens zum Erzeugen einer Basislinienkorrektur.
-
16 ist
eine graphische Darstellung einer Basislinie und eines Signals.
-
17 ist
eine graphische Darstellung eines Signals mit entfernter Basislinie.
-
18 ist
eine Tabelle, die komprimierte Daten zeigt.
-
19 ist
ein Flussdiagramm einer Methode zum Komprimieren von Daten.
-
20 ist
eine graphische Darstellung eines Massenverschiebens.
-
21 ist
eine graphische Darstellung, wie die Peakbreite bestimmt wird.
-
22 ist
eine graphische Darstellung, wie Peaks entfernt werden.
-
23 ist
eine graphische Darstellung eines Signals mit entfernten Peaks.
-
24 ist
eine graphische Darstellung einer Restbasislinie.
-
25 ist
eine graphische Darstellung eines Signals mit entfernter Restbasislinie.
-
26 ist
eine graphische Darstellung, wie die Peakhöhe bestimmt wird.
-
27 ist
eine graphische Darstellung, wie ein Signal-Rausch-Verhältnis für jeden
Peak bestimmt wird.
-
28 ist
eine graphische Darstellung, wie ein Restfehler für jeden
Peak bestimmt wird.
-
29 ist
eine graphische Darstellung von Peakwahrscheinlichkeiten.
-
30 ist
eine graphische Darstellung, wie ein Allelverhältnis auf eine Peakwahrscheinlichkeit
angewendet wird.
-
31 ist
eine graphische Darstellung, wie eine Peakwahrscheinlichkeit bestimmt
wird.
-
32 ist
eine graphische Darstellung, wie ein Genotyp abgerufen wird; und
-
33 ist
ein Flussdiagramm, das ein statistisches Verfahren zum Abrufen eines
Genotyps darstellt.
-
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
-
Ein
Verfahren und eine Vorrichtung zum Identifizieren einer biologischen
Probe werden hier bereitgestellt. Unter Bezugnahme auf 1 ist
ein Gerät 10 zum
Identifizieren einer biologischen Probe offenbart. Das Gerät 10 zum
Identifizieren einer biologischen Probe umfasst im Allgemeinen ein
Massenspektrometer 15, das mit einem Rechengerät 20 in
Verbindung steht. Bei einer bevorzugten Ausführungsform kann das Massenspektrometer
ein MALDI-TOF-Massenspektrometer sein, produziert von der Bruker-Franzen
Analytik GmbH. Es ist jedoch zu verstehen, dass andere Massenspektrometer
anstelle verwendet werden können.
Das Rechengerät 20 ist
vorzugsweise ein Mehrzweckrechengerät. Es ist jedoch zu verstehen,
dass das Rechengerät alternativ
konfiguriert sein kann. Beispielsweise kann es im Massenspektrometer
integriert sein oder kann Teil eines Computers in einem größeren Netzwerksystem
sein.
-
Das
Gerät 10 zum
Identifizieren einer biologischen Probe kann als ein automatisiertes
Identifikationssystem betrieben sein, das einen Roboter 25 mit
einem Roboterarm 27 aufweist, der zum Liefern einer Probenplatte 29 in
einen Aufnahmebereich 31 des Massenspektrometers 15 konfiguriert
ist. in solch einer Weise kann die zu identifizierende Probe auf
die Platte 29 gesetzt werden und im Massenspektrometer 15 automatisch
aufgenommen werden. Die biologische Probe wird dann im Massenspektrometer
verarbeitet, um Daten zu erzeugen, die auf die Masse der DNA-Fragmente
in der biologischen Probe hinweisen. Diese Daten können direkt
zum Rechengerät 20 gesendet
werden, oder können
innerhalb des Massenspektrometers einigen Vorverarbeitungs- oder Filtervorgängen unterzogen
werden. Bei einer bevorzugten Ausführungsform überträgt das Massenspektrometer 15 nicht
verarbeitete und nicht gefilterte Massenspektrometriedaten an das
Rechengerät 20.
Es ist jedoch zu verstehen, dass die Analyse im Rechengerät angepasst
werden kann, das Vorverarbeiten oder Filtern, das innerhalb des
Massenspektrometers ausgeführt
wird, aufzunehmen.
-
Unter
Bezugnahme auf 2 wird ein allgemeines Verfahren 35 zum
Identifizieren einer biologischen Probe dargestellt. Beim Verfahren 35 werden Daten
in ein Rechengerät
von einem Testinstrument im Block 40 empfangen. Vorzugsweise
werden die Daten in einer rohen nicht verarbeiteten und nicht gefilterten
Form empfangen, können
aber alternativ aber auch irgendeine Form des Filterns oder Verarbeitens
aufweisen. Das Testinstrument einer bevorzugten Ausführungsform
ist ein Massenspektrometer, wie oben stehend beschrieben. Es ist
jedoch zu verstehen, dass das Massenspektrometer durch andere Testinstrumente
ersetzt werden kann.
-
Die
vom Testinstrument, und insbesondere vom Massenspektrometer erzeugten
Daten beinhalten Informationen, die die Identifizierung der biologischen
Probe anzeigen. Spezieller zeigen die Daten die DNA-Zusammensetzung der
biologischen Probe an. Typischerweise sind Massenspektrometriedaten,
die von aus DNA-Vervielfältigungstechniken
gewonnen DNA-Proben gesammelt werden, verrauschter als beispielsweise die
von typischen Proteinproben. Dies hat teilweise den Grund, dass
Proteinproben leichter in größerer Fülle vorbereitet
werden können
und Proteinproben verglichen mit DNA-Proben leichter ionisierbar
sind. Dementsprechend sind herkömmliche
Massenspektrometer-Datenanalysetechniken
im Allgemeinen ineffektiv zur DNA-Analyse einer biologischen Probe.
-
Um
die Analysefähigkeit
zu verbessern, so dass DNA-Zusammensetzungsdaten
leichter unterschieden werden können,
verwendet eine bevorzugte Ausführungsform
Wavelettechnologie zur Analyse der DNA-Massenspektrometriedaten. Wavelets sind
ein analytisches Hilfsmittel zum Signalverarbeiten, einer numerischen
Analyse und dem mathematischen Modellieren. Wavelettechnologie stellt
eine grundlegende Hochrechenfunktionalität bereit, die auf einen Datensatz
angewendet wird. Unter Verwendung der Waveletzerlegung kann der
Datensatz gleichzeitig in sowohl den Zeit- als auch den Frequenzgebieten
analysiert werden. Eine Wavelettransformation ist die Technik der
Wahl bei der Analyse von Daten, die komplizierte Zeit-(Masse-) und
Frequenzbereichinformationen zeigen, wie etwa MALDI-TOF-DNA-Daten.
Wavelettransformationen, wie hier beschrieben, weisen verglichen
mit konventionellen Fourier-Analysetechniken überlegene Entrauscheigenschaften
auf. Wavelettransformationen haben sich als speziell effektiv im
Interpretieren der inhärent
verrauschten MALDI-TOF-Spektren einer DNA-Probe erwiesen. Beim Verwenden
von Wavelets wird eine "kleine Welle" oder "Skalierfunktion" verwendet, um einen
Datensatz in Stufen zu transformieren, wobei jede Stufe eine Frequenzkomponente
im Datensatz repräsentiert.
Massenspektrometriedaten können
unter Verwendung von Wavelettransformationen verarbeitet, gefiltert
und analysiert werden, und zwar mit genügendem Unterscheidungsvermögen, das
zur Identifikation der DNA-Zusammensetzung
einer biologischen Probe nützlich
ist.
-
Wieder
unter Bezugnahme auf 2 werden die in Block 40 empfangenen
Daten in Block 45 entrauscht. Die entrauschten Daten weisen
dann eine Basislinienkorrektur auf, die in Block 50 angewendet
wird. Eine Basislinienkorrektur ist im Allgemeinen notwendig, da
aus dem Testinstrument, insbesondere aus einem Massenspektrometerinstrument,
kommende Daten Daten aufweisen, die in einer im Allgemeinen exponentiell abfallenden
Weise angeordnet sind. Diese im Allgemeinen exponentiell abfallende
Anordnung liegt nicht an der Zusammensetzung der biologischen Probe,
sondern ist ein Ergebnis der physikalischen Eigenschaften und Charakteristiken
des Testinstruments und anderer Chemikalien, die in der Vorbereitung
der DNA-Probe einbezogen
waren. Dementsprechend korrigiert eine Basislinienkorrektur im Wesentlichen
die Daten, um eine Komponente der Daten zu entfernen, die dem Testsystem
und den Charakteristiken der Probenvorbereitung zuzuschreiben sind.
-
Nach
dem Entrauschen in Block 45 und der Basislinienkorrektur
in Block 50 verbleibt ein Signal, das im Allgemeinen auf
die Zusammensetzung der biologischen Probe hinweist. Jedoch wegen
des außergewöhnlichen
Unterscheidungsvermögens,
das zum Analysieren der DNA-Zusammensetzung
der biologischen Probe notwendig ist, ist die Zusammensetzung nicht
leicht aus dem entrauschten und korrigierten Signal deutlich zu erkennen.
Obwohl das Signal beispielsweise Peakbereiche umfassen kann, ist
es noch nicht klar, ob diese "mutmaßlichen" Peaks tatsächlich eine
DNA-Zusammensetzung repräsentieren,
oder ob die mutmaßlichen Peaks
ein Ergebnis einer systemischen oder chemischen Abweichung sind.
Weiter würde
jeder Abruf der Zusammensetzung der biologischen Probe jedoch eine
Fehlerwahrscheinlichkeit aufweisen, die für klinische oder therapeutische
Zwecke inakzeptabel sein würde.
In solchen kritischen Situationen besteht der Bedarf nach einem
hohen Grad an Sicherheit, dass jeder Abruf oder jede Identifikation
der Probe genau ist. Damit sind zusätzliche Datenverarbeitung und
-interpretation notwendig, bevor die Probe genau und sicher identifiziert
werden kann.
-
Da
die Datenmenge, die bei jedem Massenspektrometrietest entsteht typischerweise
tausende von Datenpunkten umfasst, und ein automatisiertes System
eingestellt werden kann, hunderte oder sogar tausende Tests pro
Stunde durchzuführen,
ist die Menge der generierten Massenspektrometriedaten enorm. Um
effiziente Übertragung
und Speicherung der Massenspektrometriedaten zu erleichtern, zeigt
Block 55, dass die entrauschten und basislinienkorrigierten
Daten komprimiert werden.
-
In
einer bevorzugten Ausführungsform
wird die biologische Probe ausgewählt und verarbeitet, um nur einen
begrenzten Bereich von möglichen
Zusammensetzungen aufzuweisen. Dementsprechend ist es deswegen bekannt,
wo auf Zusammensetzung hinweisende Peaks lokalisiert sein sollten,
falls vorhanden. Unter Ausnutzung des Wissens über die Lage dieser erwarteten
Peaks passt die Methode 35 in Block 60 die mutmaßlichen
Peaks im verarbeiteten Signal an die Lage der erwarteten Peaks an.
In solch einer Weise kann die Wahrscheinlichkeit jedes mutmaßlichen
Peaks in den Daten bestimmt werden, ob er ein tatsächlicher
auf die Zusammensetzung der biologischen Probe hinweisender Peak
ist. Dann, wenn die Wahrscheinlichkeit jedes Peaks in Block 60 bestimmt
ist, bestimmt die Methode 35 in Block 65 statistisch
die Zusammensetzung der biologischen Probe und bestimmt, ob die
Sicherheit zum Abruf eines Genotyps hoch genug ist.
-
Wieder
unter Bezugnahme auf Block 40 werden Daten aus dem Testinstrument,
das vorzugsweise ein Massenspektrometer ist, empfangen. In einer
spezifischen Darstellung zeigt 3 ein Beispiel
von Daten eines Massenspektrometers. Die Massenspektrometerdaten 70 umfassen
im Allgemeinen Datenpunkte, die entlang einer x-Achse und einer
y-Achse verteilt sind. Die x-Achse repräsentiert die Masse der erfassten
Teilchen, während
die y-Achse eine numerische Konzentration der Teilchen repräsentiert.
Wie aus 3 ersichtlich ist, fallen die
Massenspektrometriedaten im Allgemeinen exponentiell ab, wobei die
Daten am linken Ende der x-Achse im Allgemeinen in einer exponentiellen
Weise auf Daten am schwereren Ende der x-Achse hin abfallen. Das
im Allgemeinen exponentielle Vorliegen der Daten weist jedoch nicht
auf die Zusammensetzung der biologischen Probe hin, sondern spiegelt
mehr einen systematischen Fehler und Charakteristiken wider. Weiter,
wie oben stehend beschrieben und in 3 dargestellt,
ist in den Massenspektrometrie-DNA-Daten 70 bedeutendes
Rauschen vorhanden.
-
Wieder
unter Bezugnahme auf Block 45, wo die in Block 40 empfangenen
Rohdaten entrauscht werden, wird der Entrauschvorgang detaillierter
beschrieben. Der Entrauschvorgang bringt im Allgemeinen, wie in 2 dargestellt,
mit sich: 1) Durchführen
einer Wavelettransformation auf den Rohdaten, um die Rohdaten in
Wavelet-Stufenkoeffizienten zu zerlegen; 2) Erzeugen eines Rauschprofils
aus der höchsten
Stufe der Waveletkoeffizienten; und 3) Anwenden eines skalierten
Rauschprofils auf die anderen Stufen in der Wavelettransformation.
Jeder Schritt des Entrauschvorgangs ist weiter unten beschrieben.
-
Jetzt
unter Bezugnahme auf 4 ist die Wavelettransformation
der rohen Massenspektrometriedaten allgemein skizziert. Unter Verwendung
von Wavelettransformationstechniken werden die Massenspektrometriedaten 70 sequenziell
in Stufen umgewandelt. In jeder Stufe liegen die Daten in einer
Hochstufe und einer Tiefstufe vor, wobei die Tiefstufe als Eingabe
der sequenziell nächsten
Stufe dient. Beispielsweise werden die Massenspektrometriedaten 70 in
Hochstufe-0-Daten 82 und Tiefstufe-0-Daten 83 umgewandelt.
Tiefstufe-0-Daten 83 werden dann als Eingabe für die Transformation
der nächsten
Stufe verwendet, um Hochstufe-1-Daten 84 und Tiefstufe-1-Daten 85 zu
erzeugen. In einer ähnlichen
Weise werden die Tiefstufe-1-Daten 85 als eine Eingabe
verwendet, die in Hochstufe-2-Daten 86 und Tiefstufe-2-Daten 87 umgewandelt
wird. Die Transformation wird fortgesetzt, bis keine nützlichen
Informationen durch weitere Wavelettransformationen abgeleitet werden
können.
Beispielsweise wird in der bevorzugten Ausführungsform ein 24-Punkt-Wavelet
verwendet. Spezieller wird ein Wavelet, das gemeinhin als Daubechies 24 bezeichnet
wird, verwendet, um die Rohdaten zu zerlegen. Es ist jedoch zu verstehen,
dass andere Wavelets für
die Wavelettransformation verwendet werden können. Da jede Stufe bei einer
Wavelettransformation die Hälfte
der Datenpunkte der vorhergehenden Stufe aufweist, kann die Wavelettransformation
fortgesetzt werden, bis die Tiefstufe-n-Daten 89 ungefähr 50 Punkte
aufweisen. Dementsprechend enthalten die Hochstufe-n-Daten 88 ungefähr 100 Datenpunkte.
Da das bevorzugte Wavelet 24 Punkte lang ist, können nur
wenige Daten oder Informationen durch Fortsetzen der Wavelettransformation
auf einem Datensatz von ungefähr
50 Punkten abgeleitet werden.
-
5 zeigt
ein Beispiel von Hochstufe-0-Daten 95. Da Hochstufe-0-Daten 95 im
Allgemeinen die höchsten
Frequenzen in den Massenspektrometriedaten anzeigen, werden Hochstufe-0-Daten 95 eng
mit der Menge des Hochfrequenzrauschens in den Massenspektrometriedaten
in Beziehung stehen. Bei 6 wurde eine exponentielle Anpassformel
auf die Hochstufe-0-Daten 95 angewandt,
um ein Stufe-0-Rauschprofil 97 zu erzeugen. Speziell hat
die exponentielle Anpassformel das Format A0 +
A1 EXP(–A2m). Es ist zu verstehen, dass andere exponentielle
Anpassformeln oder andere Typen von Kurvenanpassungen verwendet
werden können.
-
Jetzt
werden unter Bezugnahme auf 7 Rauschprofile
für die
anderen Hochstufen bestimmt. Da die späteren Datenpunkte bei jeder
Stufe voraussichtlich repräsentativ
für das
Niveau des Rauschens jeder Stufe sind, werden nur die späteren Datenpunkte
jeder Stufe zum Erzeugen eines Standardabweichungsbetrags verwendet,
der repräsentativ
für den
Rauschinhalt der speziellen Stufe ist. Spezieller werden beim Erzeugen
des Rauschprofils für
jede verbleibende Stufe nur die letzten 5% der Datenpunkte jeder
Stufe analysiert, um eine Standardabweichungszahl zu bestimmen.
Es ist zu verstehen, dass eine andere Anzahl von Punkten oder alternative
Verfahren verwendet werden können,
um solch einen Standardabweichungsbetrag zu erzeugen.
-
Die
Standardabweichungszahl für
jede Stufe wird mit dem Stufe 0-Rauschprofil (der exponentiellen Kurve) 97 verwendet,
um ein skaliertes Rauschprofil für
jede Stufe zu erzeugen. Beispielsweise zeigt 7, dass
Hochstufe-1-Daten 98 Hochstufe-1-Daten 103 mit
den letzten 5% der Datenpunkte, die durch Gebiet 99 repräsentiert
werden, aufweisen. Die Punkte in Gebiet 99 werden ausgewertet,
um eine Standardabweichungszahl zu bestimmen, die den Rauschinhalt
der Hochstufe-1-Daten 103 anzeigt. Die Standardabweichungszahl
wird dann mit dem Stufe-0-Rauschprofil 97 verwendet, um
ein Stufe-1-Rauschprofil zu erzeugen.
-
In ähnlicher
Weise weist Hochstufe 2 100 Hochstufe-2-Daten 104 auf,
wobei die letzten 5% der Punkte durch Gebiet 101 repräsentiert
werden. Die Datenpunkte in Gebiet 101 werden dann verwendet,
um eine Standardabweichungszahl zu berechnen, die dann verwendet
wird, um das Stufe-0-Rauschprofil 97 zu skalieren, um ein
Rauschprofil für
die Stufe-2-Daten zu erzeugen. Derselbe Vorgang wird für alle Hochstufen-Daten
fortgesetzt, wie bei Hochstufe n 105 gezeigt. Für Hochstufe
n 105 weisen Hochstufe-n-Daten 108 die letzten
5% der in Gebiet 106 angezeigten Datenpunkte auf. Die Datenpunkte
in Gebiet 106 werden verwendet, um eine Standardabweichungszahl
für Stufe
n zu bestimmen. Die Stufe-n-Standardabweichungszahl
wird dann mit dem Stufe-0-Rauschprofil 97 verwendet, um
ein Rauschprofil der Stufe n zu erzeugen. Entsprechend weisen alle
der Hochstufendaten ein Rauschprofil auf.
-
8 zeigt,
wie das Rauschprofil auf die Daten jeder Stufe angewendet wird.
-
Im
Allgemeinen wird das Rauschprofil verwendet, um einen Schwellwert
zu erzeugen, der auf die Daten jeder Stufe angewendet wird. Da das
Rauschprofil bereits skaliert ist, um den Rauschinhalt jeder Stufe
einzustellen, erlaubt das Berechnen eines Schwellwerts weiteres
Einstellen, um die Menge des entfernten Rauschens abzustimmen. Waveletkoeffizienten
unterhalb des Schwellwerts werden ignoriert, während die über dem Schwellwert erhalten
bleiben. Dementsprechend ist bei den verbleibenden Daten ein wesentlicher
Anteil des Rauschinhalts entfernt.
-
Wegen
der Eigenschaften der Wavelettransformation weisen die tieferen
Stufen, wie etwa Stufe 0 und 1, mehr Rauschinhalt
als die späteren
Stufen, wie etwa Stufe 2 oder Stufe n, auf. In der Tat
weisen Tiefstufe-n-Daten wahrscheinlich überhaupt wenig Rauschen auf.
Bei einer bevorzugten Ausführungsform
werden deshalb die Rauschprofile aggressiver in den tieferen Stufen
und weniger aggressiv in den späten
Stufen angewendet. Beispielsweise zeigt 8, dass
der Hochstufe-0-Schwellwert durch Multiplizieren des Stufe-0-Rauschprofils
mit einem Faktor von 4 bestimmt ist. In solch einer Weise wird sich
eine signifikante Anzahl von Datenpunkten der Hochstufe-0-Daten 95 unterhalb
des Schwellwerts befinden und deswegen ausgeschlossen sein. Der
Hochstufe-1-Schwellwert 112 ist auf zweimal des Rauschprofils
für die
Hochstufe-1-Daten eingestellt und der Hochstufe-2-Schwellwert 114 ist
dem Rauschprofil der Hochstufe 2 gleichgesetzt. Dieser geometrischen
Progression folgend wird der Hochstufe-n-Schwellwert 116 deswegen
durch Skalierung des Rauschprofils der jeweiligen Hochstufe n durch
einen Faktor gleich (1/2n-2) bestimmt. Es
ist zu verstehen, dass andere Faktoren zum Skalieren des Rauschprofils
jeder Stufe angewendet werden können.
Das Rauschprofil kann beispielsweise mehr oder weniger aggressiv
skaliert werden, um spezifischen systemischen Eigenschaften oder
Probenzusammensetzungen gerecht zu werden. Wie darauf oben stehend
hingewiesen wurde, wird auf Tiefstufe-n-Daten kein Rauschprofil
angewandt, da angenommen wird, dass Tiefstufe-n-Daten wenig oder keinen
Rauschinhalt aufweisen. Nachdem die skalierten Rauschprofile auf
alle Hochstufedaten angewendet wurden, sind die Massenspektrometriedaten 70 entrauscht
und zum weiteren Verarbeiten bereit. Eine Wavelettransformation
des entrauschten Signals führt
zum dünn
besetzten Datensatz 120, wie in 9 gezeigt.
-
Wieder
unter Bezugnahme auf 2 wurden die Massenspektrometriedaten,
die in Block 40 empfangen wurden, in Block 45 entrauscht
und werden jetzt Block 50 zur Basislinienkorrektur übergeben.
Vor dem Durchführen
der Basislinienkorrektur werden die durch den Wavelet-Transformationsvorgang
eingeführten
Artefakte vorzugsweise entfernt. Wavelet-Transformationsergebnisse schwanken
leicht abhängig
davon, welcher Punkt des Wavelets als Startpunkt verwendet wird.
Die bevorzugte Ausführungsform
verwendet beispielsweise das 24-Punkt-Daubechies-24-Wavelet. Durch
Starten der Transformation beim Punkt 0 des Wavelets wird ein leicht
unterschiedliches Ergebnis erzeugt als beim Starten an Punkt 1 oder
2 des Wavelets. Die entrauschten Daten werden deswegen unter Verwendung
jedes vorhandenen möglichen
Startpunkts transformiert, wobei die Ergebnisse zum Bestimmen eines
entrauschten und verschobenen Endsignals gemittelt werden. 10 zeigt
beispielsweise, dass der Waveletkoeffizient 24 verschiedene
Male angewendet wird und dann die Ergebnisse zum Erzeugen des Enddatensatzes
gemittelt werden. Es ist zu verstehen, dass andere Techniken verwendet
werden können,
um durch Waveletverschiebung eingeführten leichten Fehlern Rechnung
zu tragen.
-
Die
Formel wird in 10 allgemein angezeigt. Wenn
das Signal entrauscht und verschoben wurde, wird ein entrauschtes
und verschobenes Signal 130, wie in 12 gezeigt,
erzeugt. 11 zeigt ein Beispiel des Waveletkoeffizientendatensatzes 135 aus
dem entrauschten und verschobenen Signal 130.
-
13 zeigt,
dass Gebiete mit mutmaßlichen
Peaks 145, 147 und 149 im entrauschten
und verschobenen Signal 150 lokalisiert sind. Die Gebiete
mit mutmaßlichen
Peaks werden systematisch identifiziert durch Aufnahme eines gleitenden
Mittelwerts entlang des Signals 150 und durch Identifizieren
von Bereichen des Signals 150, die einen mit dem gleitenden
Mittelwert in Beziehung stehenden Schwellwert überschreiten. Es ist zu verstehen,
dass andere Methoden verwendet werden können, um Gebiete mit mutmaßlichen
Peaks im Signal 150 zu identifizieren.
-
Gebiete
mit mutmaßlichen
Peaks 145, 147 und 149 werden aus dem
Signal 150 entfernt, um ein peakfreies Signal 155 zu
erzeugen, wie in 14 gezeigt. Das peakfreie Signal 155 wird
weiter analysiert, um verbleibende Minimumwerte 157 zu
identifizieren und die verbleibenden Minimumwerte 157 werden
verbunden, um ein peakfreies Signal 155 zu erzeugen.
-
15 zeigt
ein Verfahren des Verwendens des peakfreien Signals 155 zum
Erzeugen einer Basislinie 170, wie in 16 gezeigt.
Wie in Block 162 gezeigt, wird eine Wavelettransformation
auf dem peakfreien Signal 155 durchgeführt. Alle Stufen der Wavelettransformation
werden in Block 164 beseitigt, außer die Tiefstufe n. Die Tiefstufe
n wird im Allgemeinen die tiefsten Frequenzkomponenten des peakfreien
Signals 155 anzeigen und wird deshalb im Allgemeinen die
exponentiellen Eigenschaften des Systems anzeigen. Block 166 zeigt,
dass ein Signal aus den n Tiefkoeffizienten rekonstruiert wird und
das Basisliniensignal 170 in Block 168 erzeugt
wird.
-
16 zeigt
ein entrauschtes und verschobenes Datensignal 172, das
an eine korrigierte Basislinie 170 angrenzend gesetzt ist.
Die Basislinienkorrektur 170 wird vom entrauschten und
verschobenen Signal 172 subtrahiert, um ein Signal 175 zu
erzeugen, das eine angewendete Basislinienkorrektur aufweist, wie
in 17 gezeigt. Obwohl solch ein entrauschtes, verschobenes
und korrigiertes Signal für
die meisten Identifikationszwecke ausreichend ist, sind die mutmaßlichen
Peaks im Signal 150 nicht mit genügender Sicherheit oder Genauigkeit
identifizierbar, um die DNA-Zusammensetzung einer biologischen Probe
abzurufen.
-
Wieder
unter Bezugnahme auf 2 werden die Daten der Basislinienkorrektur 50 jetzt
in Block 55 komprimiert; die in einer bevorzugten Ausführungsform
verwendete Komprimierungstechnik wird in 18 detailliert.
In 18 werden die Daten der basislinienkorrigierten
Daten in einem Array-Format 182 mit x-Achsenpunkten 183 dargestellt,
die einen zugeordneten Datenwert 184 aufweisen. Die x-Achse
ist durch Waveletkoeffizienten ungleich null indiziert und der zugeordnete
Wert ist der Wert des Waveletkoeffizienten. Bei dem dargestellten
Datenbeispiel von Tabelle 182 wird der Maximalwert 184 als
1000 angezeigt. Obwohl eine spezielle vorteilhafte Komprimierungstechnik
für Massenspektrometriedaten
gezeigt wird, ist zu verstehen, dass andere Komprimierungstechniken
verwendet werden können.
Obwohl nicht bevorzugt, können
die Daten auch ohne Komprimierung gespeichert sein.
-
Durch
Komprimieren der Daten entsprechend einer bevorzugten Ausführungsform
wird ein Zwischenformat 186 erzeugt. Das Zwischenformat 186 umfasst
im Allgemeinen eine reelle Zahl, die einen Ganzzahlanteil 188 und
einen Dezimalanteil 190 aufweist. Der Ganzzahlanteil ist
der x-Achsenpunkt 183, während der Dezimalanteil der
Datenwert 184 geteilt durch den Maximaldatenwert ist. Beispielsweise
wird in den Daten 182 ein Datenwert "25" beim
x-Achsenpunkt "100" angezeigt. Der Zwischenwert
dieses Datenpunkts würde "100.025" sein.
-
Aus
den komprimierten Zwischendaten 186 werden die komprimierten
Enddaten 195 erzeugt. Der erste Punkt der Zwischendatendatei
wird der Startpunkt für
die komprimierten Daten. Danach wird jeder Datenpunkt in den komprimierten
Daten 195 in folgender Weise berechnet: Der Ganzzahlanteil
(links vom Dezimalzeichen) wird durch die Differenz zwischen der
aktuellen und der letzten Ganzzahl ersetzt. Der Rest (rechts vom
Dezimalzeichen) bleibt intakt. Beispielsweise wird der Startpunkt
der komprimierten Daten 195 als der gleiche wie der Zwischendatenpunkt
angezeigt, der "100.025" ist. Der Vergleich
zwischen dem ersten Zwischendatenpunkt "100.025" und dem zweiten Zwischendatenpunkt "150.220" ist "50.220". Deswegen wird "50.220" der zweite Datenpunkt
der komprimierten Daten 195. In einer ähnlichen Weise ist der zweite
Zwischenpunkt "150.220" und der dritte Zwischendatenpunkt
ist "500.0001". Deswegen wird der
dritten komprimierte Datenpunkt "350.000". Die Berechnung
zum Bestimmen von komprimierten Datenpunkten wird fortgesetzt, bis
das gesamte Array der Datenpunkte in ein einzelnes Array von reellen
Zahlen umgewandelt ist.
-
19 beschreibt
allgemein das Verfahren eines Komprimierens von Massenspektrometriedaten,
wobei gezeigt ist, dass die Datei bei Block 201 als ein
Array von Koeffizienten in Block 202 dargestellt wird.
Der Datenstartpunkt und das Maximum wird wie in Block 203 gezeigt
bestimmt und die reellen Zwischenzahlen werden in Block 204 berechnet,
wie oben stehend beschrieben. Mit den erzeugten Zwischendatenpunkten werden
die komprimierten Daten bei Block 205 erzeugt. Das beschriebene
Komprimierungsverfahren ist hoch vorteilhaft und effizient zum Komprimieren
von Datensätzen,
wie etwa verarbeitete Datensätze
eines Massenspektrometrieinstruments. Das Verfahren ist speziell
nützlich
für Daten,
wie etwa Massenspektrometriedaten, die große Zahlen verwenden und durch
das Verarbeiten gelegentliche längliche
Lücken
in x-Achsendaten aufweisen. Dementsprechend kann ein x-y-Daten-Array
für verarbeitete
Massenspektrometriedaten mit einer effektiven Komprimierungsrate
von 10× oder
mehr gespeichert werden. Obwohl die Komprimierungstechnik auf Massenspektrometriedaten
angewendet wird, ist zu verstehen, dass das Verfahren auch vorteilhaft
sein kann, um auf andere Datensätze
angewendet zu werden.
-
Wieder
unter Bezugnahme auf 2 werden die Peakhöhen jetzt
in Block 60 bestimmt. Der erste Schritt des Bestimmens
der Peakhöhe
ist in 20 dargestellt, wo das Signal 210 nach
links oder rechts verschoben wird, um mit der Lage der erwarteten
Peaks zu korrespondieren. Da der Satz der möglichen Zusammensetzungen der
biologischen Probe bekannt ist, bevor die Massenspektrometriedaten
erzeugt werden, ist die mögliche
Lage der erwarteten Peaks auch bereits bekannt. Diese möglichen
Peaks werden als erwartete Peaks bezeichnet, wie etwa erwartete
Peaks 212, 214 und 216. Wegen einer Kalibrierung
oder anderen Fehlern in den Testinstrumentdaten kann das gesamte
Signal nach links oder rechts aus seiner tatsächlichen Lage heraus verschoben
sein. Deswegen können
mutmaßliche
Peaks, die sich im Signal befinden, wie etwa mutmaßliche Peaks 218, 222 bzw. 224,
mit den erwarteten Peaks 212, 214 bzw. 216 verglichen
werden. Das gesamte Signal wird dann derart verschoben, dass die
mutmaßlichen
Peaks näher
mit den erwarteten Peaks abgeglichen sind.
-
Sobald
die mutmaßlichen
Peaks zum Abgleich mit den erwarteten Peaks verschoben wurden, wird
der stärkste
mutmaßliche
Peak in 21 identifiziert. Bei einer
bevorzugten Ausführungsform
wird der stärkste Peak
durch eine Kombination der Analyse einerseits der gesamten Peakhöhe und andererseits
des Gebiets unterhalb des Peaks berechnet. Beispielsweise würde ein
mäßig hoher,
aber breiter Peak stärker
sein als ein sehr hoher Peak, der extrem schmal ist. Mit der Identifizierung
des stärksten
mutmaßlichen
Peaks, wie etwa mutmaßlicher
Peak 225, wird eine Gauß'sche Kurve 228 dem Peak 225 angepasst.
Sobald die Gauß'sche Kurve angepasst
ist, wird die Breite (W) der Gauß'schen Kurve bestimmt und wird als die
Peakbreite für
zukünftige Berechnungen
verwendet.
-
Wie
oben stehend allgemein angesprochen, ist das entrauschte, verschobene
und basislinienkorrigierte Signal nicht genügend verarbeitet, um die DNA-Zusammensetzung der
biologischen Probe sicher abzurufen. Obwohl beispielsweise die Basislinie
im Allgemeinen entfernt wurde, sind immer noch Restbasislinieneffekte
vorhanden. Diese Restbasislinieneffekte werden deswegen entfernt,
um die Genauigkeit und Sicherheit beim Identifizieren zu erhöhen.
-
Um
die Restbasislinieneffekte zu entfernen, zeigt 22,
dass die mutmaßlichen
Peaks 218, 222 und 224 aus dem basislinienkorrigierten
Signal entfernt werden. Die Peaks werden entfernt durch Identifizieren
einer Mittellinie 230, 232 bzw. 234 der
mutmaßlichen
Peaks 218, 222 bzw. 224 und Entfernen
eines Gebiets einerseits zur Linken und andererseits zur Rechten
der identifizierten Mittellinie. Für jeden mutmaßlichen
Peak wird ein Gebiet gleich zweimal der Breite (W) der Gauß'schen Kurve links
von der Mittellinie entfernt, während ein
Gebiet äquivalent
zu 50 Dalton rechts von der Mittellinie entfernt wird. Es hat sich
herausgestellt, dass das 50 Dalton repräsentierende Gebiet angemessen
ist, um den Effekt von Salzaddukten, die mit einem tatsächlichen
Peak assoziiert sind, zu entfernen. Solche Addukte tauchen rechts
von einem gegenwärtigen
Peak auf und sind ein natürlicher
Effekt der Chemie, der beim Ermitteln eines Massenspektrums einbezogen
ist. Obwohl ein 50 Dalton-Puffer ausgewählt wurde, ist zu verstehen,
dass andere Bereiche oder Verfahren verwendet werden können, um
die Addukteffekte zu reduzieren oder zu eliminieren.
-
Die
Peaks werden entfernt und verbleibende Minima 247, die
angeordnet sind, wie in 23 mit
dem Minima 247 gezeigt wird, werden verbunden, um Signal 245 zu
erzeugen. Ein quartisches Polynom wird auf Signal 245 angewendet,
um eine Restbasislinie 250 zu erzeugen, wie in 24 gezeigt.
Die Restbasislinie 250 wird vom Signal 225 subtrahiert,
um das Endsignal 255 zu erzeugen, wie in 25 angezeigt.
Obwohl die Restbasislinie ein Ergebnis eines quartischen Anpassens
an das Signal 245 ist, ist zu verstehen, dass andere Techniken
verwendet werden können,
um die Restbasislinie zu glätten
oder anzupassen.
-
Um
die Peakhöhe
zu bestimmen, wie in 26 gezeigt, wird eine Gauß-Kurve, wie etwa Gauß-Kurven 266, 268 bzw. 270,
an jeden der Peaks, wie etwa Peaks 260, 262 bzw. 264,
angepasst. Entsprechend wird die Höhe der Gauß-Kurve als Höhe 272, 274 und 276 bestimmt.
Dann, wenn die Höhe
jedes Gauß'schen Peaks bestimmt
ist, kann sich das Verfahren zum Identifizieren einer biologischen
Zusammensetzung 35 in die Phase 65 des Genotypbestimmens
bewegen, wie in 2 gezeigt.
-
Ein
Hinweis auf die Sicherheit, dass ein mutmaßlicher Peak ein tatsächlicher
Peak ist, kann durch Berechnen eines Signal-Rausch-Verhältnisses
für jeden
mutmaßlichen
Peak wahrgenommen werden. Dementsprechend sind mutmaßliche Peaks
mit einem starker Signal-Rausch-Verhältnis im Allgemeinen wahrscheinlicher
ein tatsächlicher
Peak als ein mutmaßlicher Peak
mit einem niedrigeren Signal-Rausch-Verhältnis. Wie oben stehend beschrieben
und in 27 gezeigt, wird die Höhe jedes
Peaks, wie etwa Höhe 272, 274 und 276,
für jeden
Peak bestimmt, wobei die Höhe
ein Indikator für
die Signalstärke
jedes Peaks ist. Das Rauschprofil, wie etwa Rauschprofil 97,
wird in Rauschprofil 280 über die identifizierten Peaks
extrapoliert. Bei der Mittellinie jeder der Peaks wird ein Rauschwert
bestimmt, wie etwa Rauschwert 282, 283 und 284.
Mit einem erzeugten Signalwert und Rauschwert können die Signal-Rausch-Verhältnisse
für jeden
Peak berechnet werden. Das Signal-Rausch-Verhältnis für den ersten Peak in 27 würde beispielsweise
als Signalwert 272 geteilt durch Rauschwert 282 berechnet
werden und in einer ähnlichen
Weise würde
das Signal-Rausch-Verhältnis
des mittleren Peaks in 27 als Signal 274 geteilt
durch Rauschwert 283 bestimmt werden.
-
Obwohl
das Signal-Rausch-Verhältnis
im Allgemeinen ein nützlicher
Indikator für
das Vorhandensein eines tatsächlichen
Peaks ist, hat sich herausgestellt, dass weiteres Verarbeiten die
Sicherheit, mit der eine Probe identifiziert werden kann, erhöht. Das
Signal-Rausch-Verhältnis
jedes Peaks wird beispielsweise bei der bevorzugten Ausführungsform
vorzugsweise durch die Güte
der Anpassung zwischen einer Gauß-Kurve und jedem mutmaßlichen
Peak eingestellt. Es ist eine Eigenschaft eines Massenspektrometers,
das Probenmaterial in einer Weise, die im Allgemeinen einer Normalverteilung
entspricht, erfasst wird. Entsprechend wird größere Sicherheit einem mutmaßlichen
Signal zugeordnet, das eine Gauß-Kurvenform
aufweist, statt einem Signal, das eine weniger starke Normalverteilung
aufweist. Der sich durch das Aufweisen einer nicht Gauß-kurvenförmigen Form
ergebende Fehler, kann als "Restfehler" bezeichnet werden.
-
Unter
Bezugnahme auf
28 wird ein Restfehler berechnet,
durch Durchführen
einer Berechnung mit der Wurzel eines quadratischen Mittelwerts
zwischen der Gauß-Kurve
293 und
dem mutmaßlichen
Peak
290 im Datensignal. Die Berechnung wird auf Daten
innerhalb einer Breite auf jeder Seite der Mittellinie der Gauß-Kurve
durchgeführt.
Der Restfehler wird berechnet, wie:
wobei G der Gauß'sche Signalwert,
R der mutmaßliche
Peakwert und N die Anzahl der Punkte zwischen –W bis +W ist. Der berechnete
Restfehler wird verwendet, um ein angepasstes Signal-Rausch-Verhältnis zu
erzeugen, wie unten stehend beschrieben.
-
Ein
angepasstes Signal-Rausch-Verhältnis
wird für
jeden mutmaßlichen
Peak unter Verwendung der Formel (S/N)·EXP(-1·R) berechnet,
wobei S/N das Signal-Rausch-Verhältnis
und R der oben bestimmte Restfehler ist. Obwohl die bevorzugte Ausführungsform
ein angepasstes Signal-Rausch-Verhältnis unter Verwendung eines
Restfehlers für
jeden Peak berechnet, ist zu verstehen, dass andere Techniken verwendet
werden können,
um der Güte
der Anpassung zwischen der Gauß-Kurve
und dem tatsächlichen
Signal Rechnung zu tragen.
-
Unter
Bezugnahme auf 29 wird eine Wahrscheinlichkeit
bestimmt, dass ein mutmaßlicher
Peak ein tatsächlicher
Peak ist. Indem die Bestimmung der Peakwahrscheinlichkeit gemacht
wird, wird ein Wahrscheinlichkeitsprofil 300 erzeugt, in
dem das angepasste Signal-Rausch-Verhältnis die x-Achse ist und die Wahrscheinlichkeit
die y-Achse ist. Die Wahrscheinlichkeit befindet sich notwendigerweise
in einem Bereich zwischen einer 0%-Wahrscheinlichkeit und einer
100%-Wahrscheinlichkeit, die als 1 angezeigt ist. Je höher das
eingestellte Signal-Rausch-Verhältnis
ist, desto größer ist
im Allgemeinen die Sicherheit, dass ein mutmaßlicher Peak ein tatsächlicher
Peak ist.
-
Bei
einem Zielwert des angepassten Signal-Rausch-Verhältnisses
hat sich herausgestellt, dass die Wahrscheinlichkeit 100% ist, dass
der mutmaßliche
Peak ein tatsächlicher
Peak ist und mit Sicherheit zum Identifizieren der DNA-Zusammensetzung einer
biologischen Probe verwendet werden kann. Der Zielwert des angepassten
Signal-Rausch-Verhältnisses,
bei dem die Wahrscheinlichkeit von 100% angenommen wird, ist jedoch
ein variabler Parameter, der gemäß anwendungsspezifischer
Kriterien gesetzt werden soll. Das Ziel-Signal-Rausch-Verhältnis wird
beispielsweise abhängig
von Versuchserfahrung, Probeneigenschaften und der akzeptablen Fehlertoleranz
in dem gesamten System eingestellt werden. Insbesondere bei Situationen,
die ein konservativeres Vorgehen benötigen, in dem Fehler nicht
toleriert werden können,
kann das Ziel-eingestellte Signal-Rausch-Verhältnis auf beispielsweise 10
und höher
gesetzt werden. Entsprechend wird eine 100%-Wahrscheinlichkeit einem Peak nicht
zugeordnet werden, bis das eingestellte Signal-Rausch-Verhältnis 10 oder
mehr ist.
-
Ein
aggressiveres Vorgehen kann in anderen Situationen unternommen werden,
wenn Probendaten ausgeprägter
sind oder das Risiko eines Fehlers reduziert werden kann. In solch
einer Situation kann das System darauf eingestellt werden, eine
100%-Wahrscheinlichkeit anzunehmen mit einem Ziel-Signal-Rausch-Verhältnis von
5 oder größer. Natürlich kann
eine dazwischenliegende Signal-Rausch-Verhältnis-Zielzahl ausgewählt werden,
wie etwa 7, wenn ein mäßiges Fehlerrisiko
angenommen werden kann. Sobald das Ziel-eingestellte Signal-Rausch-Verhältnis für das Verfahren
festgesetzt ist, kann für
jedes angepasste Signal-Rausch-Verhältnis eine Wahrscheinlichkeit
bestimmt werden, dass ein mutmaßlicher
Peak ein tatsächlicher
Peak ist.
-
Wegen
der Chemie, die beim Durchführen
eines Identifikationstests einbezogen ist, insbesondere ein Massenspektrometrietest
einer Probe, die durch DNA-Vervielfältigung präpariert wurde, sollte das Allelverhältnis zwischen
der Signalstärke
des höchsten
Peaks und der Signalstärke
des zweit-(oder
dritt- usw.) höchsten Peaks
innerhalb eines erwarteten Verhältnisses
fallen. Falls das Allelverhältnis
außerhalb
der normalen Vorgaben fällt,
verhängt
die bevorzugte Ausführungsform
eine Allelverhältnisstrafe
auf die Wahrscheinlichkeit. Beispielsweise zeigt 30 eine
Allelstrafe 315, die eine x-Achse 317 aufweist,
die das Verhältnis
zwischen der Signalstärke
des zweithöchsten
Peaks geteilt durch die Signalstärke
des höchsten
Peaks ist. Die y-Achse 319 weist abhängig von dem bestimmten Allelverhältnis eine
Strafe zwischen 0 und 1 auf. Bei der bevorzugten Ausführungsform
wird angenommen, dass sich Allelverhältnisse über 30% innerhalb des erwarteten
Bereichs befinden und deswegen wird keine Strafe angewendet. Bei
einem Verhältnis
zwischen 10% und 30% erhöht sich
die Strafe linear, bis bei einem Allelverhältnis unter 10% angenommen
wird, dass der zweithöchste
Peak nicht real ist. Für
Allelverhältnisse
zwischen 10% und 30% wird das Allelstrafediagramm 315 verwendet,
um eine Strafe 319 zu bestimmen, die mit der in 29 bestimmten
Peakwahrscheinlichkeit multipliziert wird, um eine Endpeakwahrscheinlichkeit
zu bestimmen. Obwohl die bevorzugte Ausführungsform eine Allelverhältnisstrafe
beinhaltet, um möglichen
Chemiefehlern Rechnung zu tragen, ist zu verstehen, dass andere
Techniken verwendet werden können.
Eine ähnliche
Behandlung wird auf die anderen Peaks angewendet.
-
Mit
der für
jeden Peak bestimmten Peakwahrscheinlichkeit kann die statistische
Wahrscheinlichkeit für viele
Zusammensetzungskomponenten bestimmt werden, um beispielsweise die
Wahrscheinlichkeit jeder der drei möglichen Kombinationen zweier
Peaks zu bestimmen – Peak
G, Peak C und Kombinationen GG, CC und GC. 31 zeigt
ein Beispiel, in dem ein wahrscheinlichster Peak 325 mit
einer Endpeakwahrscheinlichkeit von 90% bestimmt wurde. Peak 325 ist
so positioniert, dass er eine G-Komponente der biologischen Probe repräsentiert.
Entsprechend kann behauptet werden, dass G mit einer Wahrscheinlichkeit
von 90% in der biologischen Probe vorhanden ist. Genauso wie in
dem in 31 gezeigten Beispiel gezeigt,
ist die zweithöchste Wahrscheinlichkeit
Peak 330, der eine Peakwahrscheinlichkeit von 20% aufweist.
Peak 330 befindet sich an einer Lage, die mit einer C-Zusammensetzung verknüpft ist.
Entsprechend kann behauptet werden, dass C mit einer 20%-Wahrscheinlichkeit
in der biologischen Probe vorhanden ist.
-
Mit
der Wahrscheinlichkeit des Vorhandenseins von G (90%) und der Wahrscheinlichkeit
des Vorhandenseins von C (20%) als Startpunkt kann die Wahrscheinlichkeit
des Vorhandenseins der Kombinationen von G und C berechnet werden.
Beispielsweise zeigt 31, dass die Wahrscheinlichkeit des
Vorhandenseins von GG 329 mit 72% berechnet ist. Dies wird
berechnet, da die Wahrscheinlichkeit von GG gleich der Wahrscheinlichkeit
des Vorhandenseins von G (90%) multipliziert mit der Wahrscheinlichkeit
des Nichtvorhandenseins von C (100%–20%) ist. Falls die Wahrscheinlichkeit
des Vorhandenseins von G 90% ist und die Wahrscheinlichkeit des
Nichtvorhandenseins von C 80% ist, ist damit die Wahrscheinlichkeit
von GG 72%.
-
In ähnlicher
Weise ist die Wahrscheinlichkeit des Vorhandenseins von CC äquivalent
zur Wahrscheinlichkeit des Vorhandenseins von C (20%) multipliziert
mit der Wahrscheinlichkeit des Nichtvorhandenseins von G (100%–90%). Wie
in
31 gezeigt, ist die Wahrscheinlichkeit des Vorhandenseins
von C 20%, während die
Wahrscheinlichkeit des Nichtvorhandenseins von G 10% ist, somit
ist die Wahrscheinlichkeit von CC nur 2%. Schließlich ist die Wahrscheinlichkeit
des Vorhandenseins von GC gleich der Wahrscheinlichhkeit des Vorhandenseins
von G (90%) multipliziert mit der Wahrscheinlichkeit des Vorhandenseins
von C (20%). Falls die Wahrscheinlichkeit des Vorhandenseins von
G 90% ist und die Wahrscheinlichkeit des Vorhandenseins von C 20%
ist, ist damit die Wahrscheinlichkeit des Vorhandenseins von GC
18%. Zusammenfassend ist die Wahrscheinlichkeit der Zusammensetzung
der biologischen Probe dann:
Wahrscheinlichkeit
von GG: | 72%; |
Wahrscheinlichkeit
von GC: | 18%;
und |
Wahrscheinlichkeit
von CC: | 2%. |
-
Sobald
die Wahrscheinlichkeiten jeder der möglichen Kombinationen bestimmt
wurden, wird 32 verwendet, um zu entscheiden,
ob genügend
Sicherheit vorhanden ist, um den Genotyp abzurufen. 32 zeigt
ein Abrufdiagramm 335, das eine x-Achse 337 aufweist,
die das Verhältnis
der höchsten
Kombinationswahrscheinlichkeit mit der zweithöchsten Kombinationswahrscheinlichkeit
ist. Die y-Achse 339 zeigt einfach an, ob das Verhältnis genügend hoch
ist, um das Abrufen eines Genotyps zu rechtfertigen.
-
Der
Wert des Verhältnisses
kann mit M angezeigt werden. Der Wert von M wird abhängig von
Versuchsdaten, Probenzusammensetzung und der Fähigkeit, Fehler zu akzeptieren,
gesetzt. Der Wert M kann beispielsweise relativ hoch gesetzt werden,
wie etwa auf einen Wert von 4, so dass die höchste Wahrscheinlichkeit mindestens
vier mal größer als
die zweithöchste
Wahrscheinlichkeit sein muss, bevor Sicherheit zum Abruf eines Genotyps
hergestellt ist. Wenn ein bestimmtes Fehlerniveau jedoch akzeptabel
ist, kann der Wert von M auf einen aggressiveren Wert gesetzt werden,
wie etwa auf 3, sodass das Verhältnis
zwischen den höchsten
und zweithöchsten
Wahrscheinlichkeiten nur ein Verhältnis von 3 oder höher sein
muss. Natürlich können mäßige Werte
für M gewählt werden,
wenn ein mäßiges Risiko
akzeptiert werden kann. Unter Verwendung des Beispiels aus 31,
in dem die Wahrscheinlichkeit von GG 72% war und die Wahrscheinlichkeit von
GC 18% war, ist das Verhältnis
zwischen 72% und 18% 4,0. Unabhängig
davon, ob M auf 3, 3,5 oder 4 gesetzt würde, würde deswegen das System den
Genotyp als GG abrufen. Obwohl die bevorzugte Ausführungsform
ein Verhältnis
zwischen den zwei höchsten
Peakwahrscheinlichkeiten verwendet, um zu bestimmen, ob ein Genotyp
sicher abgerufen werden kann, ist zu verstehen, dass andere Verfahren
anstelle verwendet werden können.
Es ist auch zu verstehen, dass die oben stehenden Techniken auch
zum Berechnen von Wahrscheinlichkeiten und Auswählen von Genotypen (oder allgemeineren
DNA-Mustern) verwendet werden können,
die aus Kombinationen von mehr als zwei Peaks bestehen.
-
Jetzt
unter Bezugnahme auf 33 wird ein Flussdiagramm angezeigt,
das den oben stehend beschriebenen Prozess des statistischen Genotypabrufs
allgemein definiert. Block 402 zeigt in 33,
dass die Höhe
jedes Peaks bestimmt wird, und dass in Block 404 ein Rauschprofil
für jeden
Peak extrapoliert wird. Das Signal wird aus der Höhe jedes
Peaks in Block 402 bestimmt, und das Rauschen jedes Peaks
wird bestimmt unter Verwendung des Rauschprofils in Block 406.
Im Block 410 wird das Signal-Rausch-Verhältnis
für jeden Peak
berechnet. Um einer nicht-Gauß'schen Peakform Rechnung
zu tragen, wird in Block 412 ein Restfehler bestimmt und
ein angepasstes Signal-Rausch-Verhältnis wird in Block 414 berechnet.
Block 416 zeigt, dass ein Wahrscheinlichkeitsprofil entwickelt
wird, wobei die Wahrscheinlichkeit des Vorhandenseins jedes Blocks in
Block 418 gefunden wird. Eine Allelstrafe kann in Block 420 angewendet
werden, wobei die Allelstrafe auf die angepasste Peakwahrscheinlichkeit
in Block 422 angewendet wird. Die Wahrscheinlichkeit jeder
Kombination von Komponenten wird in Block 424 berechnet,
wobei das Verhältnis
zwischen den zwei höchsten
Wahrscheinlichkeiten in Block 426 bestimmt wird. Wenn das
Verhältnis
der Wahrscheinlichkeiten einen Schwellwert übersteigt, wird der Genotyp
in Block 428 abgerufen.
-
Ein
Fachmann wird würdigen,
dass Verfahren, Vorrichtungen und Systeme anders als bei den bevorzugten
Ausführungsformen
umgesetzt werden können,
die in dieser Beschreibung zum Zweck der Veranschaulichung und nicht
der Einschränkung
dargestellt ist, und die vorliegende Erfindung wird nur von den
folgenden Ansprüchen
eingeschränkt.
Es ist zu bemerken, dass Äquivalente
der speziellen Ausführungsformen, die
in dieser Beschreibung besprochen wurden, die Erfindung genauso
umsetzen.