DE60131680T2

DE60131680T2 - Verfahren und vorrichtung zum identifizieren einer biologischen probe

Info

Publication number: DE60131680T2
Application number: DE60131680T
Authority: DE
Inventors: Ping San Diego YIP
Original assignee: Sequenom Inc
Current assignee: Sequenom Inc
Priority date: 2000-09-19
Filing date: 2001-09-18
Publication date: 2008-04-30
Anticipated expiration: 2021-09-19
Also published as: AU2002211240A1; EP1350211A2; CA2422700A1; US7917301B1; DE60131680D1; ATE379815T1; EP1350211B1; WO2002025567A3; WO2002025567A2

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung befindet sich im Gebiet der biologischen Identifizierung. Spezieller werden Prozesse und Systeme zum Identifizieren einer biologischen Probe durch Analyse von Informationen, die von einem Testinstrument empfangen wurden, bereitgestellt.
HINTERGRUND DER ERFINDUNG
Fortschritte im Gebiet der Genomanalyse führen zur Entdeckung neuer und wertvoller Informationen, die genetische Prozesse und Beziehungen betreffen. Diese neu beleuchtete genetische Information revolutioniert den Weg, wie medizinische Therapien verbessert, getestet und erbracht werden. Da mehr Informationen gesammelt werden, weist die genetische Analyse das Potenzial auf, eine integrale und zentrale Rolle im Entwickeln und Erbringen medizinischer Fortschritte zu spielen, die die Lebensqualität signifikant erhöhen.
Mit der steigenden Bedeutung und dem Vertrauen in genetische Informationen ist ein genaues und verlässliches Sammeln und Verarbeiten von genetischen Daten kritisch. Konventionelle bekannte Systeme zum Sammeln und Verarbeiten von genetischen oder von DNA-Daten sind jedoch unzureichend, um die Informationsbedürfnisse der Genomanalysegemeinschaft zu unterstützen. Beispielsweise benötigen bekannte DNA-Sammelsysteme oft wesentlich menschliches Eingreifen, das das ungewünschte Risiko von Ungenauigkeiten trägt, die mit menschlichem Eingreifen verbunden sind. Weiter limitiert die langsame Geschwindigkeit solche einer manuellen Tätigkeit die Menge der Daten stark, die in einer gegebenen Zeitperiode gesammelt werden können, was die benötigten medizinischen Fortschritte verlangsamt und wesentlich zu den Kosten des Datensammelns beiträgt.
In einem besonders reizvollen Gebiet der Genomanalyse wurde das Identifizieren und Klassifizieren geringster Abweichungen in menschlicher DNA mit der grundlegenden Behandlung oder dem medizinischen Ratschlag für ein spezifisches Individuum verknüpft. Beispielsweise sind die Abweichungen ein starker Hinweis auf die Anlage für eine bestimmte Erkrankung, Medikamentenverträglichkeit und Medikamenteneffizienz. Die vielversprechendste dieser geringsten Abweichungen wird gewöhnlich Einzelnukleotidpolymorphismen (SNPs) genannt, die sich auf einen einzelnen Basenpaarwechsel zwischen einer ersten Testperson und einer zweiten Testperson beziehen. Durch genaues und vollständiges Identifizieren solcher SNPs würde ein Anbieter aus dem Gesundheitswesen eine leistungsfähige Indikation der Wahrscheinlichkeit einer Person besitzen, eine bestimmte Krankheit zu erwerben, welche Medikamente am effektivsten für diese Person sein werden und welcher Medikamentenbehandlungsplan am vorteilhaftesten sein wird. Mit solchem Wissen bewaffnet kann der Anbieter aus dem Gesundheitswesen die Person unterstützen, andere Risikofaktoren von hochempfänglichen Krankheiten zu senken. Weiter kann der Anbieter aus dem Gesundheitswesen die geeignete Medikamententherapie sicher auswählen, ein Vorgang, der im Moment ein iterativer, Versuch und Irrtum umfassender Vorgang ist, in dem verschiedene Medikamenten- und Behandlungspläne ausprobiert werden, bis ein effektiver gefunden ist. Dies ist nicht nur eine Verschwendung von begrenzten medizinischen Resourcen, sondern der Zeitverlust, eine effektive Therapie zu finden, kann auch ernste medizinische Konsequenzen für den Patienten aufweisen.
Um vollständig von der Verwendung von SNP-Daten zu profitieren, müssen riesige Mengen von DNA-Daten gesammelt, verglichen und analysiert werden. Beispielsweise benötigt das Sammeln und Identifizieren des SNP-Profils einer einzelnen menschlichen Testperson das Sammeln, Identifizieren und Klassifizieren von tausenden, sogar zehntausenden von DNA-Proben. Weiter muss die Analyse der entstandenen DNA-Daten mit Präzision durchgeführt werden. Beim Ausführen einer genetischen Abfrage, bei der eine Zusammensetzung einer biologischen Probe identifiziert wird, kann jeder Fehler im Abruf zu einer schädlichen Beeinflussung des medizinischen Ratschlags oder der Behandlung, die dem Patienten gegeben wird, führen.
Herkömmlich sind bekannte Systeme und Prozesse zum Sammeln und Analysieren von DNA-Daten unzulänglich, um rechtzeitig und effizient ein ausgedehntes medizinisches Programm umzusetzen, das von SNP-Informationen profitiert. Beispielsweise benötigen viele bekannte DNA-Analysetechniken die Verwendung eines Operators oder Technikers, um die DNA-Daten zu überwachen und nachzuprüfen. Ein Operator, auch mit ausreichend Training und wesentlicher Erfahrung, wird wahrscheinlich immer noch gelegentlich Klassifizierungsfehler machen. Beispielsweise kann der Operator ein Basenpaar unkorrekt identifizieren, was dazu führt, dass der Patient ein fehlerhaftes SNP-Profil erhält. Alternativ kann der Anwender die Daten ansehen und entscheiden, dass die Daten nicht klar ein bestimmtes Basenpaar identifizieren. Obwohl so ein "Nichtabruf" berechtigt sein kann, ist es wahrscheinlich, dass der Operator "Nichtabruf"-Entscheidungen treffen wird, wenn die Daten eigentlich einen gültigen Abruf unterstützen würden. In solch einer Weise geht die Gelegenheit für ein vollständigeres Profil des Patienten verloren.
Damit besteht der Bedarf für Systeme, Vorrichtungen und Prozesse, um effizient und genau Daten zu sammeln und zu analysieren, wie etwa DNA-Daten. Damit ist es hier eine Aufgabe, solche Systeme, Vorrichtungen und Prozesse bereitzustellen. Es ist hier eine Aufgabe, eine Vorrichtung und einen Prozess zum genauen Identifizieren von genetischen Informationen bereitzustellen. Es ist eine andere Aufgabe, Prozesse und Vorrichtungen zum Extrahieren von genetischen Informationen aus genetischen Daten in einer hochautomatisierten Weise bereitzustellen. Um die Nachteile in den bekannten herkömmlichen Systemen zu überwinden, wird ein Verfahren und eine Vorrichtung zum Identifizieren einer biologischen Probe bereitgestellt.
EP0296781 beschreibt ein Gerät zum Quantifizieren chromatographischer Informationen. Das Spektrum wird gefiltert, um Rauschen zu entfernen, und dann wird das sich daraus ergebende Spektrum basislinienkorrigiert.
ZUSAMMENFASSUNG DER ERFINDUNG
Mit einem ersten Aspekt der vorliegenden Erfindung wird ein automatisiertes Verfahren zum Identifizieren einer Komponente einer biologischen Probe bereitgestellt, wie in Anspruch 1 beschrieben.
Mit einem zweiten Aspekt der vorliegenden Erfindung wird ein computerisiertes System zum Identifizieren einer Komponente in einer biologischen Probe bereitgestellt, wie in Anspruch 38 beschrieben.
Mit einem dritten Aspekt der vorliegenden Erfindung wird ein maschinenlesbares Programm bereitgestellt, das auf einem Rechengerät operiert, wobei das Rechengerät konfiguriert ist, um einen Datensatz von einem Testinstrument zu empfangen, der rechnerlesbare Daten umfasst, die Komponenten einer biologischen Probe repräsentieren, wie in Anspruch 40 beschrieben.
In einem speziellen Beispiel besteht der Datensatz aus DNA-Spektrometriedaten, die von einem Massenspektrometer empfangen werden. Der Datensatz ist entrauscht und eine Basislinie ist gelöscht. Da mögliche Zusammensetzungen der biologischen Probe bekannt sein können, können Gebiete mit erwarteten Peaks bestimmt werden. Unter Verwendung der Gebiete mit erwarteten Peaks wird eine Restbasislinie erzeugt, um den Datensatz weiter zu korrigieren. Wahrscheinliche Peaks sind dann im korrigierten Datensatz identifizierbar, die zum Identifizieren der Zusammensetzung der biologischen Probe verwendet werden. In einem offenbarten Beispiel werden statistische Verfahren eingesetzt, um die Wahrscheinlichkeit zu bestimmen, dass ein wahrscheinlicher Peak ein tatsächlicher Peak ist, nicht ein tatsächlicher Peak ist, oder dass die Daten nicht beweiskräftig genug zum Abruf sind.
Vorteilhafterweise machen das Verfahren und das System zum Identifizieren einer biologischen Probe genaue Zusammensetzungsabfragen in einer hochautomatisierten Weise. In solch einer Weise können beispielsweise komplette SNP-Profilinformationen effizient gesammelt werden. Wichtiger werden die gesammelten Daten mit hochgenauen Ergebnissen analysiert. Beispielsweise, wenn eine bestimmte Zusammensetzung abgerufen wird, kann sich auf das Ergebnis mit großer Sicherheit verlassen werden. Solche Sicherheit wird durch den eingesetzten robusten rechnergestützten Prozess und das hochautomatisierte Verfahren des Sammelns, Verarbeitens und Analysierens des Datensatzes bereitgestellt.
Diese und andere Merkmale und Vorteile der vorliegenden Erfindung können beim Durchlesen der folgenden detaillierten Beschreibung der Erfindung gewürdigt werden, zusammen mit den begleitenden Figuren, in denen sich gleiche Bezugszeichen durchgehend auf entsprechende Teile beziehen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das ein hier bereitgestelltes System zeigt.
2 ist ein Flussdiagramm eines hier bereitgestellten Verfahrens zum Identifizieren einer biologischen Probe.
3 ist eine graphische Darstellung von Daten eines Massenspektrometers.
4 ist ein Diagramm einer Wavelettransformation von Massenspektrometriedaten.
5 ist eine graphische Darstellung von Wavelet Hochstufe-0-Daten.
6 ist eine graphische Darstellung eines Stufe 0-Rauschprofils.
7 ist eine graphische Darstellung, wie Stufenrauschen-Standardabweichungen erzeugt werden.
8 ist eine graphische Darstellung, wie ein Schwellwert auf Datenstufen angewendet wird.
9 ist eine graphische Darstellung eines dünn besetzten Datensatzes.
10 ist eine Formel zum Verschieben von Signalen.
11 ist eine graphische Darstellung einer Wavelettransformation eines entrauschten und verschobenen Signals.
12 ist eine graphische Darstellung eines entrauschten und verschobenen Signals.
13 ist eine graphische Darstellung, wie Peakbereiche entfernt werden.
14 ist eine graphische Darstellung, wie ein peakfreies Signal erzeugt wird.
15 ist ein Blockdiagramm eines Verfahrens zum Erzeugen einer Basislinienkorrektur.
16 ist eine graphische Darstellung einer Basislinie und eines Signals.
17 ist eine graphische Darstellung eines Signals mit entfernter Basislinie.
18 ist eine Tabelle, die komprimierte Daten zeigt.
19 ist ein Flussdiagramm einer Methode zum Komprimieren von Daten.
20 ist eine graphische Darstellung eines Massenverschiebens.
21 ist eine graphische Darstellung, wie die Peakbreite bestimmt wird.
22 ist eine graphische Darstellung, wie Peaks entfernt werden.
23 ist eine graphische Darstellung eines Signals mit entfernten Peaks.
24 ist eine graphische Darstellung einer Restbasislinie.
25 ist eine graphische Darstellung eines Signals mit entfernter Restbasislinie.
26 ist eine graphische Darstellung, wie die Peakhöhe bestimmt wird.
27 ist eine graphische Darstellung, wie ein Signal-Rausch-Verhältnis für jeden Peak bestimmt wird.
28 ist eine graphische Darstellung, wie ein Restfehler für jeden Peak bestimmt wird.
29 ist eine graphische Darstellung von Peakwahrscheinlichkeiten.
30 ist eine graphische Darstellung, wie ein Allelverhältnis auf eine Peakwahrscheinlichkeit angewendet wird.
31 ist eine graphische Darstellung, wie eine Peakwahrscheinlichkeit bestimmt wird.
32 ist eine graphische Darstellung, wie ein Genotyp abgerufen wird; und
33 ist ein Flussdiagramm, das ein statistisches Verfahren zum Abrufen eines Genotyps darstellt.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Ein Verfahren und eine Vorrichtung zum Identifizieren einer biologischen Probe werden hier bereitgestellt. Unter Bezugnahme auf 1 ist ein Gerät 10 zum Identifizieren einer biologischen Probe offenbart. Das Gerät 10 zum Identifizieren einer biologischen Probe umfasst im Allgemeinen ein Massenspektrometer 15, das mit einem Rechengerät 20 in Verbindung steht. Bei einer bevorzugten Ausführungsform kann das Massenspektrometer ein MALDI-TOF-Massenspektrometer sein, produziert von der Bruker-Franzen Analytik GmbH. Es ist jedoch zu verstehen, dass andere Massenspektrometer anstelle verwendet werden können. Das Rechengerät 20 ist vorzugsweise ein Mehrzweckrechengerät. Es ist jedoch zu verstehen, dass das Rechengerät alternativ konfiguriert sein kann. Beispielsweise kann es im Massenspektrometer integriert sein oder kann Teil eines Computers in einem größeren Netzwerksystem sein.
Das Gerät 10 zum Identifizieren einer biologischen Probe kann als ein automatisiertes Identifikationssystem betrieben sein, das einen Roboter 25 mit einem Roboterarm 27 aufweist, der zum Liefern einer Probenplatte 29 in einen Aufnahmebereich 31 des Massenspektrometers 15 konfiguriert ist. in solch einer Weise kann die zu identifizierende Probe auf die Platte 29 gesetzt werden und im Massenspektrometer 15 automatisch aufgenommen werden. Die biologische Probe wird dann im Massenspektrometer verarbeitet, um Daten zu erzeugen, die auf die Masse der DNA-Fragmente in der biologischen Probe hinweisen. Diese Daten können direkt zum Rechengerät 20 gesendet werden, oder können innerhalb des Massenspektrometers einigen Vorverarbeitungs- oder Filtervorgängen unterzogen werden. Bei einer bevorzugten Ausführungsform überträgt das Massenspektrometer 15 nicht verarbeitete und nicht gefilterte Massenspektrometriedaten an das Rechengerät 20. Es ist jedoch zu verstehen, dass die Analyse im Rechengerät angepasst werden kann, das Vorverarbeiten oder Filtern, das innerhalb des Massenspektrometers ausgeführt wird, aufzunehmen.
Unter Bezugnahme auf 2 wird ein allgemeines Verfahren 35 zum Identifizieren einer biologischen Probe dargestellt. Beim Verfahren 35 werden Daten in ein Rechengerät von einem Testinstrument im Block 40 empfangen. Vorzugsweise werden die Daten in einer rohen nicht verarbeiteten und nicht gefilterten Form empfangen, können aber alternativ aber auch irgendeine Form des Filterns oder Verarbeitens aufweisen. Das Testinstrument einer bevorzugten Ausführungsform ist ein Massenspektrometer, wie oben stehend beschrieben. Es ist jedoch zu verstehen, dass das Massenspektrometer durch andere Testinstrumente ersetzt werden kann.
Die vom Testinstrument, und insbesondere vom Massenspektrometer erzeugten Daten beinhalten Informationen, die die Identifizierung der biologischen Probe anzeigen. Spezieller zeigen die Daten die DNA-Zusammensetzung der biologischen Probe an. Typischerweise sind Massenspektrometriedaten, die von aus DNA-Vervielfältigungstechniken gewonnen DNA-Proben gesammelt werden, verrauschter als beispielsweise die von typischen Proteinproben. Dies hat teilweise den Grund, dass Proteinproben leichter in größerer Fülle vorbereitet werden können und Proteinproben verglichen mit DNA-Proben leichter ionisierbar sind. Dementsprechend sind herkömmliche Massenspektrometer-Datenanalysetechniken im Allgemeinen ineffektiv zur DNA-Analyse einer biologischen Probe.
Um die Analysefähigkeit zu verbessern, so dass DNA-Zusammensetzungsdaten leichter unterschieden werden können, verwendet eine bevorzugte Ausführungsform Wavelettechnologie zur Analyse der DNA-Massenspektrometriedaten. Wavelets sind ein analytisches Hilfsmittel zum Signalverarbeiten, einer numerischen Analyse und dem mathematischen Modellieren. Wavelettechnologie stellt eine grundlegende Hochrechenfunktionalität bereit, die auf einen Datensatz angewendet wird. Unter Verwendung der Waveletzerlegung kann der Datensatz gleichzeitig in sowohl den Zeit- als auch den Frequenzgebieten analysiert werden. Eine Wavelettransformation ist die Technik der Wahl bei der Analyse von Daten, die komplizierte Zeit-(Masse-) und Frequenzbereichinformationen zeigen, wie etwa MALDI-TOF-DNA-Daten. Wavelettransformationen, wie hier beschrieben, weisen verglichen mit konventionellen Fourier-Analysetechniken überlegene Entrauscheigenschaften auf. Wavelettransformationen haben sich als speziell effektiv im Interpretieren der inhärent verrauschten MALDI-TOF-Spektren einer DNA-Probe erwiesen. Beim Verwenden von Wavelets wird eine "kleine Welle" oder "Skalierfunktion" verwendet, um einen Datensatz in Stufen zu transformieren, wobei jede Stufe eine Frequenzkomponente im Datensatz repräsentiert. Massenspektrometriedaten können unter Verwendung von Wavelettransformationen verarbeitet, gefiltert und analysiert werden, und zwar mit genügendem Unterscheidungsvermögen, das zur Identifikation der DNA-Zusammensetzung einer biologischen Probe nützlich ist.
Wieder unter Bezugnahme auf 2 werden die in Block 40 empfangenen Daten in Block 45 entrauscht. Die entrauschten Daten weisen dann eine Basislinienkorrektur auf, die in Block 50 angewendet wird. Eine Basislinienkorrektur ist im Allgemeinen notwendig, da aus dem Testinstrument, insbesondere aus einem Massenspektrometerinstrument, kommende Daten Daten aufweisen, die in einer im Allgemeinen exponentiell abfallenden Weise angeordnet sind. Diese im Allgemeinen exponentiell abfallende Anordnung liegt nicht an der Zusammensetzung der biologischen Probe, sondern ist ein Ergebnis der physikalischen Eigenschaften und Charakteristiken des Testinstruments und anderer Chemikalien, die in der Vorbereitung der DNA-Probe einbezogen waren. Dementsprechend korrigiert eine Basislinienkorrektur im Wesentlichen die Daten, um eine Komponente der Daten zu entfernen, die dem Testsystem und den Charakteristiken der Probenvorbereitung zuzuschreiben sind.
Nach dem Entrauschen in Block 45 und der Basislinienkorrektur in Block 50 verbleibt ein Signal, das im Allgemeinen auf die Zusammensetzung der biologischen Probe hinweist. Jedoch wegen des außergewöhnlichen Unterscheidungsvermögens, das zum Analysieren der DNA-Zusammensetzung der biologischen Probe notwendig ist, ist die Zusammensetzung nicht leicht aus dem entrauschten und korrigierten Signal deutlich zu erkennen. Obwohl das Signal beispielsweise Peakbereiche umfassen kann, ist es noch nicht klar, ob diese "mutmaßlichen" Peaks tatsächlich eine DNA-Zusammensetzung repräsentieren, oder ob die mutmaßlichen Peaks ein Ergebnis einer systemischen oder chemischen Abweichung sind. Weiter würde jeder Abruf der Zusammensetzung der biologischen Probe jedoch eine Fehlerwahrscheinlichkeit aufweisen, die für klinische oder therapeutische Zwecke inakzeptabel sein würde. In solchen kritischen Situationen besteht der Bedarf nach einem hohen Grad an Sicherheit, dass jeder Abruf oder jede Identifikation der Probe genau ist. Damit sind zusätzliche Datenverarbeitung und -interpretation notwendig, bevor die Probe genau und sicher identifiziert werden kann.
Da die Datenmenge, die bei jedem Massenspektrometrietest entsteht typischerweise tausende von Datenpunkten umfasst, und ein automatisiertes System eingestellt werden kann, hunderte oder sogar tausende Tests pro Stunde durchzuführen, ist die Menge der generierten Massenspektrometriedaten enorm. Um effiziente Übertragung und Speicherung der Massenspektrometriedaten zu erleichtern, zeigt Block 55, dass die entrauschten und basislinienkorrigierten Daten komprimiert werden.
In einer bevorzugten Ausführungsform wird die biologische Probe ausgewählt und verarbeitet, um nur einen begrenzten Bereich von möglichen Zusammensetzungen aufzuweisen. Dementsprechend ist es deswegen bekannt, wo auf Zusammensetzung hinweisende Peaks lokalisiert sein sollten, falls vorhanden. Unter Ausnutzung des Wissens über die Lage dieser erwarteten Peaks passt die Methode 35 in Block 60 die mutmaßlichen Peaks im verarbeiteten Signal an die Lage der erwarteten Peaks an. In solch einer Weise kann die Wahrscheinlichkeit jedes mutmaßlichen Peaks in den Daten bestimmt werden, ob er ein tatsächlicher auf die Zusammensetzung der biologischen Probe hinweisender Peak ist. Dann, wenn die Wahrscheinlichkeit jedes Peaks in Block 60 bestimmt ist, bestimmt die Methode 35 in Block 65 statistisch die Zusammensetzung der biologischen Probe und bestimmt, ob die Sicherheit zum Abruf eines Genotyps hoch genug ist.
Wieder unter Bezugnahme auf Block 40 werden Daten aus dem Testinstrument, das vorzugsweise ein Massenspektrometer ist, empfangen. In einer spezifischen Darstellung zeigt 3 ein Beispiel von Daten eines Massenspektrometers. Die Massenspektrometerdaten 70 umfassen im Allgemeinen Datenpunkte, die entlang einer x-Achse und einer y-Achse verteilt sind. Die x-Achse repräsentiert die Masse der erfassten Teilchen, während die y-Achse eine numerische Konzentration der Teilchen repräsentiert. Wie aus 3 ersichtlich ist, fallen die Massenspektrometriedaten im Allgemeinen exponentiell ab, wobei die Daten am linken Ende der x-Achse im Allgemeinen in einer exponentiellen Weise auf Daten am schwereren Ende der x-Achse hin abfallen. Das im Allgemeinen exponentielle Vorliegen der Daten weist jedoch nicht auf die Zusammensetzung der biologischen Probe hin, sondern spiegelt mehr einen systematischen Fehler und Charakteristiken wider. Weiter, wie oben stehend beschrieben und in 3 dargestellt, ist in den Massenspektrometrie-DNA-Daten 70 bedeutendes Rauschen vorhanden.
Wieder unter Bezugnahme auf Block 45, wo die in Block 40 empfangenen Rohdaten entrauscht werden, wird der Entrauschvorgang detaillierter beschrieben. Der Entrauschvorgang bringt im Allgemeinen, wie in 2 dargestellt, mit sich: 1) Durchführen einer Wavelettransformation auf den Rohdaten, um die Rohdaten in Wavelet-Stufenkoeffizienten zu zerlegen; 2) Erzeugen eines Rauschprofils aus der höchsten Stufe der Waveletkoeffizienten; und 3) Anwenden eines skalierten Rauschprofils auf die anderen Stufen in der Wavelettransformation. Jeder Schritt des Entrauschvorgangs ist weiter unten beschrieben.
Jetzt unter Bezugnahme auf 4 ist die Wavelettransformation der rohen Massenspektrometriedaten allgemein skizziert. Unter Verwendung von Wavelettransformationstechniken werden die Massenspektrometriedaten 70 sequenziell in Stufen umgewandelt. In jeder Stufe liegen die Daten in einer Hochstufe und einer Tiefstufe vor, wobei die Tiefstufe als Eingabe der sequenziell nächsten Stufe dient. Beispielsweise werden die Massenspektrometriedaten 70 in Hochstufe-0-Daten 82 und Tiefstufe-0-Daten 83 umgewandelt. Tiefstufe-0-Daten 83 werden dann als Eingabe für die Transformation der nächsten Stufe verwendet, um Hochstufe-1-Daten 84 und Tiefstufe-1-Daten 85 zu erzeugen. In einer ähnlichen Weise werden die Tiefstufe-1-Daten 85 als eine Eingabe verwendet, die in Hochstufe-2-Daten 86 und Tiefstufe-2-Daten 87 umgewandelt wird. Die Transformation wird fortgesetzt, bis keine nützlichen Informationen durch weitere Wavelettransformationen abgeleitet werden können. Beispielsweise wird in der bevorzugten Ausführungsform ein 24-Punkt-Wavelet verwendet. Spezieller wird ein Wavelet, das gemeinhin als Daubechies 24 bezeichnet wird, verwendet, um die Rohdaten zu zerlegen. Es ist jedoch zu verstehen, dass andere Wavelets für die Wavelettransformation verwendet werden können. Da jede Stufe bei einer Wavelettransformation die Hälfte der Datenpunkte der vorhergehenden Stufe aufweist, kann die Wavelettransformation fortgesetzt werden, bis die Tiefstufe-n-Daten 89 ungefähr 50 Punkte aufweisen. Dementsprechend enthalten die Hochstufe-n-Daten 88 ungefähr 100 Datenpunkte. Da das bevorzugte Wavelet 24 Punkte lang ist, können nur wenige Daten oder Informationen durch Fortsetzen der Wavelettransformation auf einem Datensatz von ungefähr 50 Punkten abgeleitet werden.
5 zeigt ein Beispiel von Hochstufe-0-Daten 95. Da Hochstufe-0-Daten 95 im Allgemeinen die höchsten Frequenzen in den Massenspektrometriedaten anzeigen, werden Hochstufe-0-Daten 95 eng mit der Menge des Hochfrequenzrauschens in den Massenspektrometriedaten in Beziehung stehen. Bei 6 wurde eine exponentielle Anpassformel auf die Hochstufe-0-Daten 95 angewandt, um ein Stufe-0-Rauschprofil 97 zu erzeugen. Speziell hat die exponentielle Anpassformel das Format A₀ + A₁ EXP(–A₂m). Es ist zu verstehen, dass andere exponentielle Anpassformeln oder andere Typen von Kurvenanpassungen verwendet werden können.
Jetzt werden unter Bezugnahme auf 7 Rauschprofile für die anderen Hochstufen bestimmt. Da die späteren Datenpunkte bei jeder Stufe voraussichtlich repräsentativ für das Niveau des Rauschens jeder Stufe sind, werden nur die späteren Datenpunkte jeder Stufe zum Erzeugen eines Standardabweichungsbetrags verwendet, der repräsentativ für den Rauschinhalt der speziellen Stufe ist. Spezieller werden beim Erzeugen des Rauschprofils für jede verbleibende Stufe nur die letzten 5% der Datenpunkte jeder Stufe analysiert, um eine Standardabweichungszahl zu bestimmen. Es ist zu verstehen, dass eine andere Anzahl von Punkten oder alternative Verfahren verwendet werden können, um solch einen Standardabweichungsbetrag zu erzeugen.
Die Standardabweichungszahl für jede Stufe wird mit dem Stufe 0-Rauschprofil (der exponentiellen Kurve) 97 verwendet, um ein skaliertes Rauschprofil für jede Stufe zu erzeugen. Beispielsweise zeigt 7, dass Hochstufe-1-Daten 98 Hochstufe-1-Daten 103 mit den letzten 5% der Datenpunkte, die durch Gebiet 99 repräsentiert werden, aufweisen. Die Punkte in Gebiet 99 werden ausgewertet, um eine Standardabweichungszahl zu bestimmen, die den Rauschinhalt der Hochstufe-1-Daten 103 anzeigt. Die Standardabweichungszahl wird dann mit dem Stufe-0-Rauschprofil 97 verwendet, um ein Stufe-1-Rauschprofil zu erzeugen.
In ähnlicher Weise weist Hochstufe 2 100 Hochstufe-2-Daten 104 auf, wobei die letzten 5% der Punkte durch Gebiet 101 repräsentiert werden. Die Datenpunkte in Gebiet 101 werden dann verwendet, um eine Standardabweichungszahl zu berechnen, die dann verwendet wird, um das Stufe-0-Rauschprofil 97 zu skalieren, um ein Rauschprofil für die Stufe-2-Daten zu erzeugen. Derselbe Vorgang wird für alle Hochstufen-Daten fortgesetzt, wie bei Hochstufe n 105 gezeigt. Für Hochstufe n 105 weisen Hochstufe-n-Daten 108 die letzten 5% der in Gebiet 106 angezeigten Datenpunkte auf. Die Datenpunkte in Gebiet 106 werden verwendet, um eine Standardabweichungszahl für Stufe n zu bestimmen. Die Stufe-n-Standardabweichungszahl wird dann mit dem Stufe-0-Rauschprofil 97 verwendet, um ein Rauschprofil der Stufe n zu erzeugen. Entsprechend weisen alle der Hochstufendaten ein Rauschprofil auf.
8 zeigt, wie das Rauschprofil auf die Daten jeder Stufe angewendet wird.
Im Allgemeinen wird das Rauschprofil verwendet, um einen Schwellwert zu erzeugen, der auf die Daten jeder Stufe angewendet wird. Da das Rauschprofil bereits skaliert ist, um den Rauschinhalt jeder Stufe einzustellen, erlaubt das Berechnen eines Schwellwerts weiteres Einstellen, um die Menge des entfernten Rauschens abzustimmen. Waveletkoeffizienten unterhalb des Schwellwerts werden ignoriert, während die über dem Schwellwert erhalten bleiben. Dementsprechend ist bei den verbleibenden Daten ein wesentlicher Anteil des Rauschinhalts entfernt.
Wegen der Eigenschaften der Wavelettransformation weisen die tieferen Stufen, wie etwa Stufe 0 und 1, mehr Rauschinhalt als die späteren Stufen, wie etwa Stufe 2 oder Stufe n, auf. In der Tat weisen Tiefstufe-n-Daten wahrscheinlich überhaupt wenig Rauschen auf. Bei einer bevorzugten Ausführungsform werden deshalb die Rauschprofile aggressiver in den tieferen Stufen und weniger aggressiv in den späten Stufen angewendet. Beispielsweise zeigt 8, dass der Hochstufe-0-Schwellwert durch Multiplizieren des Stufe-0-Rauschprofils mit einem Faktor von 4 bestimmt ist. In solch einer Weise wird sich eine signifikante Anzahl von Datenpunkten der Hochstufe-0-Daten 95 unterhalb des Schwellwerts befinden und deswegen ausgeschlossen sein. Der Hochstufe-1-Schwellwert 112 ist auf zweimal des Rauschprofils für die Hochstufe-1-Daten eingestellt und der Hochstufe-2-Schwellwert 114 ist dem Rauschprofil der Hochstufe 2 gleichgesetzt. Dieser geometrischen Progression folgend wird der Hochstufe-n-Schwellwert 116 deswegen durch Skalierung des Rauschprofils der jeweiligen Hochstufe n durch einen Faktor gleich (1/2^n-2) bestimmt. Es ist zu verstehen, dass andere Faktoren zum Skalieren des Rauschprofils jeder Stufe angewendet werden können. Das Rauschprofil kann beispielsweise mehr oder weniger aggressiv skaliert werden, um spezifischen systemischen Eigenschaften oder Probenzusammensetzungen gerecht zu werden. Wie darauf oben stehend hingewiesen wurde, wird auf Tiefstufe-n-Daten kein Rauschprofil angewandt, da angenommen wird, dass Tiefstufe-n-Daten wenig oder keinen Rauschinhalt aufweisen. Nachdem die skalierten Rauschprofile auf alle Hochstufedaten angewendet wurden, sind die Massenspektrometriedaten 70 entrauscht und zum weiteren Verarbeiten bereit. Eine Wavelettransformation des entrauschten Signals führt zum dünn besetzten Datensatz 120, wie in 9 gezeigt.
Wieder unter Bezugnahme auf 2 wurden die Massenspektrometriedaten, die in Block 40 empfangen wurden, in Block 45 entrauscht und werden jetzt Block 50 zur Basislinienkorrektur übergeben. Vor dem Durchführen der Basislinienkorrektur werden die durch den Wavelet-Transformationsvorgang eingeführten Artefakte vorzugsweise entfernt. Wavelet-Transformationsergebnisse schwanken leicht abhängig davon, welcher Punkt des Wavelets als Startpunkt verwendet wird. Die bevorzugte Ausführungsform verwendet beispielsweise das 24-Punkt-Daubechies-24-Wavelet. Durch Starten der Transformation beim Punkt 0 des Wavelets wird ein leicht unterschiedliches Ergebnis erzeugt als beim Starten an Punkt 1 oder 2 des Wavelets. Die entrauschten Daten werden deswegen unter Verwendung jedes vorhandenen möglichen Startpunkts transformiert, wobei die Ergebnisse zum Bestimmen eines entrauschten und verschobenen Endsignals gemittelt werden. 10 zeigt beispielsweise, dass der Waveletkoeffizient 24 verschiedene Male angewendet wird und dann die Ergebnisse zum Erzeugen des Enddatensatzes gemittelt werden. Es ist zu verstehen, dass andere Techniken verwendet werden können, um durch Waveletverschiebung eingeführten leichten Fehlern Rechnung zu tragen.
Die Formel wird in 10 allgemein angezeigt. Wenn das Signal entrauscht und verschoben wurde, wird ein entrauschtes und verschobenes Signal 130, wie in 12 gezeigt, erzeugt. 11 zeigt ein Beispiel des Waveletkoeffizientendatensatzes 135 aus dem entrauschten und verschobenen Signal 130.
13 zeigt, dass Gebiete mit mutmaßlichen Peaks 145, 147 und 149 im entrauschten und verschobenen Signal 150 lokalisiert sind. Die Gebiete mit mutmaßlichen Peaks werden systematisch identifiziert durch Aufnahme eines gleitenden Mittelwerts entlang des Signals 150 und durch Identifizieren von Bereichen des Signals 150, die einen mit dem gleitenden Mittelwert in Beziehung stehenden Schwellwert überschreiten. Es ist zu verstehen, dass andere Methoden verwendet werden können, um Gebiete mit mutmaßlichen Peaks im Signal 150 zu identifizieren.
Gebiete mit mutmaßlichen Peaks 145, 147 und 149 werden aus dem Signal 150 entfernt, um ein peakfreies Signal 155 zu erzeugen, wie in 14 gezeigt. Das peakfreie Signal 155 wird weiter analysiert, um verbleibende Minimumwerte 157 zu identifizieren und die verbleibenden Minimumwerte 157 werden verbunden, um ein peakfreies Signal 155 zu erzeugen.
15 zeigt ein Verfahren des Verwendens des peakfreien Signals 155 zum Erzeugen einer Basislinie 170, wie in 16 gezeigt. Wie in Block 162 gezeigt, wird eine Wavelettransformation auf dem peakfreien Signal 155 durchgeführt. Alle Stufen der Wavelettransformation werden in Block 164 beseitigt, außer die Tiefstufe n. Die Tiefstufe n wird im Allgemeinen die tiefsten Frequenzkomponenten des peakfreien Signals 155 anzeigen und wird deshalb im Allgemeinen die exponentiellen Eigenschaften des Systems anzeigen. Block 166 zeigt, dass ein Signal aus den n Tiefkoeffizienten rekonstruiert wird und das Basisliniensignal 170 in Block 168 erzeugt wird.
16 zeigt ein entrauschtes und verschobenes Datensignal 172, das an eine korrigierte Basislinie 170 angrenzend gesetzt ist. Die Basislinienkorrektur 170 wird vom entrauschten und verschobenen Signal 172 subtrahiert, um ein Signal 175 zu erzeugen, das eine angewendete Basislinienkorrektur aufweist, wie in 17 gezeigt. Obwohl solch ein entrauschtes, verschobenes und korrigiertes Signal für die meisten Identifikationszwecke ausreichend ist, sind die mutmaßlichen Peaks im Signal 150 nicht mit genügender Sicherheit oder Genauigkeit identifizierbar, um die DNA-Zusammensetzung einer biologischen Probe abzurufen.
Wieder unter Bezugnahme auf 2 werden die Daten der Basislinienkorrektur 50 jetzt in Block 55 komprimiert; die in einer bevorzugten Ausführungsform verwendete Komprimierungstechnik wird in 18 detailliert. In 18 werden die Daten der basislinienkorrigierten Daten in einem Array-Format 182 mit x-Achsenpunkten 183 dargestellt, die einen zugeordneten Datenwert 184 aufweisen. Die x-Achse ist durch Waveletkoeffizienten ungleich null indiziert und der zugeordnete Wert ist der Wert des Waveletkoeffizienten. Bei dem dargestellten Datenbeispiel von Tabelle 182 wird der Maximalwert 184 als 1000 angezeigt. Obwohl eine spezielle vorteilhafte Komprimierungstechnik für Massenspektrometriedaten gezeigt wird, ist zu verstehen, dass andere Komprimierungstechniken verwendet werden können. Obwohl nicht bevorzugt, können die Daten auch ohne Komprimierung gespeichert sein.
Durch Komprimieren der Daten entsprechend einer bevorzugten Ausführungsform wird ein Zwischenformat 186 erzeugt. Das Zwischenformat 186 umfasst im Allgemeinen eine reelle Zahl, die einen Ganzzahlanteil 188 und einen Dezimalanteil 190 aufweist. Der Ganzzahlanteil ist der x-Achsenpunkt 183, während der Dezimalanteil der Datenwert 184 geteilt durch den Maximaldatenwert ist. Beispielsweise wird in den Daten 182 ein Datenwert "25" beim x-Achsenpunkt "100" angezeigt. Der Zwischenwert dieses Datenpunkts würde "100.025" sein.
Aus den komprimierten Zwischendaten 186 werden die komprimierten Enddaten 195 erzeugt. Der erste Punkt der Zwischendatendatei wird der Startpunkt für die komprimierten Daten. Danach wird jeder Datenpunkt in den komprimierten Daten 195 in folgender Weise berechnet: Der Ganzzahlanteil (links vom Dezimalzeichen) wird durch die Differenz zwischen der aktuellen und der letzten Ganzzahl ersetzt. Der Rest (rechts vom Dezimalzeichen) bleibt intakt. Beispielsweise wird der Startpunkt der komprimierten Daten 195 als der gleiche wie der Zwischendatenpunkt angezeigt, der "100.025" ist. Der Vergleich zwischen dem ersten Zwischendatenpunkt "100.025" und dem zweiten Zwischendatenpunkt "150.220" ist "50.220". Deswegen wird "50.220" der zweite Datenpunkt der komprimierten Daten 195. In einer ähnlichen Weise ist der zweite Zwischenpunkt "150.220" und der dritte Zwischendatenpunkt ist "500.0001". Deswegen wird der dritten komprimierte Datenpunkt "350.000". Die Berechnung zum Bestimmen von komprimierten Datenpunkten wird fortgesetzt, bis das gesamte Array der Datenpunkte in ein einzelnes Array von reellen Zahlen umgewandelt ist.
19 beschreibt allgemein das Verfahren eines Komprimierens von Massenspektrometriedaten, wobei gezeigt ist, dass die Datei bei Block 201 als ein Array von Koeffizienten in Block 202 dargestellt wird. Der Datenstartpunkt und das Maximum wird wie in Block 203 gezeigt bestimmt und die reellen Zwischenzahlen werden in Block 204 berechnet, wie oben stehend beschrieben. Mit den erzeugten Zwischendatenpunkten werden die komprimierten Daten bei Block 205 erzeugt. Das beschriebene Komprimierungsverfahren ist hoch vorteilhaft und effizient zum Komprimieren von Datensätzen, wie etwa verarbeitete Datensätze eines Massenspektrometrieinstruments. Das Verfahren ist speziell nützlich für Daten, wie etwa Massenspektrometriedaten, die große Zahlen verwenden und durch das Verarbeiten gelegentliche längliche Lücken in x-Achsendaten aufweisen. Dementsprechend kann ein x-y-Daten-Array für verarbeitete Massenspektrometriedaten mit einer effektiven Komprimierungsrate von 10× oder mehr gespeichert werden. Obwohl die Komprimierungstechnik auf Massenspektrometriedaten angewendet wird, ist zu verstehen, dass das Verfahren auch vorteilhaft sein kann, um auf andere Datensätze angewendet zu werden.
Wieder unter Bezugnahme auf 2 werden die Peakhöhen jetzt in Block 60 bestimmt. Der erste Schritt des Bestimmens der Peakhöhe ist in 20 dargestellt, wo das Signal 210 nach links oder rechts verschoben wird, um mit der Lage der erwarteten Peaks zu korrespondieren. Da der Satz der möglichen Zusammensetzungen der biologischen Probe bekannt ist, bevor die Massenspektrometriedaten erzeugt werden, ist die mögliche Lage der erwarteten Peaks auch bereits bekannt. Diese möglichen Peaks werden als erwartete Peaks bezeichnet, wie etwa erwartete Peaks 212, 214 und 216. Wegen einer Kalibrierung oder anderen Fehlern in den Testinstrumentdaten kann das gesamte Signal nach links oder rechts aus seiner tatsächlichen Lage heraus verschoben sein. Deswegen können mutmaßliche Peaks, die sich im Signal befinden, wie etwa mutmaßliche Peaks 218, 222 bzw. 224, mit den erwarteten Peaks 212, 214 bzw. 216 verglichen werden. Das gesamte Signal wird dann derart verschoben, dass die mutmaßlichen Peaks näher mit den erwarteten Peaks abgeglichen sind.
Sobald die mutmaßlichen Peaks zum Abgleich mit den erwarteten Peaks verschoben wurden, wird der stärkste mutmaßliche Peak in 21 identifiziert. Bei einer bevorzugten Ausführungsform wird der stärkste Peak durch eine Kombination der Analyse einerseits der gesamten Peakhöhe und andererseits des Gebiets unterhalb des Peaks berechnet. Beispielsweise würde ein mäßig hoher, aber breiter Peak stärker sein als ein sehr hoher Peak, der extrem schmal ist. Mit der Identifizierung des stärksten mutmaßlichen Peaks, wie etwa mutmaßlicher Peak 225, wird eine Gauß'sche Kurve 228 dem Peak 225 angepasst. Sobald die Gauß'sche Kurve angepasst ist, wird die Breite (W) der Gauß'schen Kurve bestimmt und wird als die Peakbreite für zukünftige Berechnungen verwendet.
Wie oben stehend allgemein angesprochen, ist das entrauschte, verschobene und basislinienkorrigierte Signal nicht genügend verarbeitet, um die DNA-Zusammensetzung der biologischen Probe sicher abzurufen. Obwohl beispielsweise die Basislinie im Allgemeinen entfernt wurde, sind immer noch Restbasislinieneffekte vorhanden. Diese Restbasislinieneffekte werden deswegen entfernt, um die Genauigkeit und Sicherheit beim Identifizieren zu erhöhen.
Um die Restbasislinieneffekte zu entfernen, zeigt 22, dass die mutmaßlichen Peaks 218, 222 und 224 aus dem basislinienkorrigierten Signal entfernt werden. Die Peaks werden entfernt durch Identifizieren einer Mittellinie 230, 232 bzw. 234 der mutmaßlichen Peaks 218, 222 bzw. 224 und Entfernen eines Gebiets einerseits zur Linken und andererseits zur Rechten der identifizierten Mittellinie. Für jeden mutmaßlichen Peak wird ein Gebiet gleich zweimal der Breite (W) der Gauß'schen Kurve links von der Mittellinie entfernt, während ein Gebiet äquivalent zu 50 Dalton rechts von der Mittellinie entfernt wird. Es hat sich herausgestellt, dass das 50 Dalton repräsentierende Gebiet angemessen ist, um den Effekt von Salzaddukten, die mit einem tatsächlichen Peak assoziiert sind, zu entfernen. Solche Addukte tauchen rechts von einem gegenwärtigen Peak auf und sind ein natürlicher Effekt der Chemie, der beim Ermitteln eines Massenspektrums einbezogen ist. Obwohl ein 50 Dalton-Puffer ausgewählt wurde, ist zu verstehen, dass andere Bereiche oder Verfahren verwendet werden können, um die Addukteffekte zu reduzieren oder zu eliminieren.
Die Peaks werden entfernt und verbleibende Minima 247, die angeordnet sind, wie in 23 mit dem Minima 247 gezeigt wird, werden verbunden, um Signal 245 zu erzeugen. Ein quartisches Polynom wird auf Signal 245 angewendet, um eine Restbasislinie 250 zu erzeugen, wie in 24 gezeigt. Die Restbasislinie 250 wird vom Signal 225 subtrahiert, um das Endsignal 255 zu erzeugen, wie in 25 angezeigt. Obwohl die Restbasislinie ein Ergebnis eines quartischen Anpassens an das Signal 245 ist, ist zu verstehen, dass andere Techniken verwendet werden können, um die Restbasislinie zu glätten oder anzupassen.
Um die Peakhöhe zu bestimmen, wie in 26 gezeigt, wird eine Gauß-Kurve, wie etwa Gauß-Kurven 266, 268 bzw. 270, an jeden der Peaks, wie etwa Peaks 260, 262 bzw. 264, angepasst. Entsprechend wird die Höhe der Gauß-Kurve als Höhe 272, 274 und 276 bestimmt. Dann, wenn die Höhe jedes Gauß'schen Peaks bestimmt ist, kann sich das Verfahren zum Identifizieren einer biologischen Zusammensetzung 35 in die Phase 65 des Genotypbestimmens bewegen, wie in 2 gezeigt.
Ein Hinweis auf die Sicherheit, dass ein mutmaßlicher Peak ein tatsächlicher Peak ist, kann durch Berechnen eines Signal-Rausch-Verhältnisses für jeden mutmaßlichen Peak wahrgenommen werden. Dementsprechend sind mutmaßliche Peaks mit einem starker Signal-Rausch-Verhältnis im Allgemeinen wahrscheinlicher ein tatsächlicher Peak als ein mutmaßlicher Peak mit einem niedrigeren Signal-Rausch-Verhältnis. Wie oben stehend beschrieben und in 27 gezeigt, wird die Höhe jedes Peaks, wie etwa Höhe 272, 274 und 276, für jeden Peak bestimmt, wobei die Höhe ein Indikator für die Signalstärke jedes Peaks ist. Das Rauschprofil, wie etwa Rauschprofil 97, wird in Rauschprofil 280 über die identifizierten Peaks extrapoliert. Bei der Mittellinie jeder der Peaks wird ein Rauschwert bestimmt, wie etwa Rauschwert 282, 283 und 284. Mit einem erzeugten Signalwert und Rauschwert können die Signal-Rausch-Verhältnisse für jeden Peak berechnet werden. Das Signal-Rausch-Verhältnis für den ersten Peak in 27 würde beispielsweise als Signalwert 272 geteilt durch Rauschwert 282 berechnet werden und in einer ähnlichen Weise würde das Signal-Rausch-Verhältnis des mittleren Peaks in 27 als Signal 274 geteilt durch Rauschwert 283 bestimmt werden.
Obwohl das Signal-Rausch-Verhältnis im Allgemeinen ein nützlicher Indikator für das Vorhandensein eines tatsächlichen Peaks ist, hat sich herausgestellt, dass weiteres Verarbeiten die Sicherheit, mit der eine Probe identifiziert werden kann, erhöht. Das Signal-Rausch-Verhältnis jedes Peaks wird beispielsweise bei der bevorzugten Ausführungsform vorzugsweise durch die Güte der Anpassung zwischen einer Gauß-Kurve und jedem mutmaßlichen Peak eingestellt. Es ist eine Eigenschaft eines Massenspektrometers, das Probenmaterial in einer Weise, die im Allgemeinen einer Normalverteilung entspricht, erfasst wird. Entsprechend wird größere Sicherheit einem mutmaßlichen Signal zugeordnet, das eine Gauß-Kurvenform aufweist, statt einem Signal, das eine weniger starke Normalverteilung aufweist. Der sich durch das Aufweisen einer nicht Gauß-kurvenförmigen Form ergebende Fehler, kann als "Restfehler" bezeichnet werden.
Unter Bezugnahme auf 28 wird ein Restfehler berechnet, durch Durchführen einer Berechnung mit der Wurzel eines quadratischen Mittelwerts zwischen der Gauß-Kurve 293 und dem mutmaßlichen Peak 290 im Datensignal. Die Berechnung wird auf Daten innerhalb einer Breite auf jeder Seite der Mittellinie der Gauß-Kurve durchgeführt. Der Restfehler wird berechnet, wie:
wobei G der Gauß'sche Signalwert, R der mutmaßliche Peakwert und N die Anzahl der Punkte zwischen –W bis +W ist. Der berechnete Restfehler wird verwendet, um ein angepasstes Signal-Rausch-Verhältnis zu erzeugen, wie unten stehend beschrieben.
Ein angepasstes Signal-Rausch-Verhältnis wird für jeden mutmaßlichen Peak unter Verwendung der Formel (S/N)·EXP^(-1·R) berechnet, wobei S/N das Signal-Rausch-Verhältnis und R der oben bestimmte Restfehler ist. Obwohl die bevorzugte Ausführungsform ein angepasstes Signal-Rausch-Verhältnis unter Verwendung eines Restfehlers für jeden Peak berechnet, ist zu verstehen, dass andere Techniken verwendet werden können, um der Güte der Anpassung zwischen der Gauß-Kurve und dem tatsächlichen Signal Rechnung zu tragen.
Unter Bezugnahme auf 29 wird eine Wahrscheinlichkeit bestimmt, dass ein mutmaßlicher Peak ein tatsächlicher Peak ist. Indem die Bestimmung der Peakwahrscheinlichkeit gemacht wird, wird ein Wahrscheinlichkeitsprofil 300 erzeugt, in dem das angepasste Signal-Rausch-Verhältnis die x-Achse ist und die Wahrscheinlichkeit die y-Achse ist. Die Wahrscheinlichkeit befindet sich notwendigerweise in einem Bereich zwischen einer 0%-Wahrscheinlichkeit und einer 100%-Wahrscheinlichkeit, die als 1 angezeigt ist. Je höher das eingestellte Signal-Rausch-Verhältnis ist, desto größer ist im Allgemeinen die Sicherheit, dass ein mutmaßlicher Peak ein tatsächlicher Peak ist.
Bei einem Zielwert des angepassten Signal-Rausch-Verhältnisses hat sich herausgestellt, dass die Wahrscheinlichkeit 100% ist, dass der mutmaßliche Peak ein tatsächlicher Peak ist und mit Sicherheit zum Identifizieren der DNA-Zusammensetzung einer biologischen Probe verwendet werden kann. Der Zielwert des angepassten Signal-Rausch-Verhältnisses, bei dem die Wahrscheinlichkeit von 100% angenommen wird, ist jedoch ein variabler Parameter, der gemäß anwendungsspezifischer Kriterien gesetzt werden soll. Das Ziel-Signal-Rausch-Verhältnis wird beispielsweise abhängig von Versuchserfahrung, Probeneigenschaften und der akzeptablen Fehlertoleranz in dem gesamten System eingestellt werden. Insbesondere bei Situationen, die ein konservativeres Vorgehen benötigen, in dem Fehler nicht toleriert werden können, kann das Ziel-eingestellte Signal-Rausch-Verhältnis auf beispielsweise 10 und höher gesetzt werden. Entsprechend wird eine 100%-Wahrscheinlichkeit einem Peak nicht zugeordnet werden, bis das eingestellte Signal-Rausch-Verhältnis 10 oder mehr ist.
Ein aggressiveres Vorgehen kann in anderen Situationen unternommen werden, wenn Probendaten ausgeprägter sind oder das Risiko eines Fehlers reduziert werden kann. In solch einer Situation kann das System darauf eingestellt werden, eine 100%-Wahrscheinlichkeit anzunehmen mit einem Ziel-Signal-Rausch-Verhältnis von 5 oder größer. Natürlich kann eine dazwischenliegende Signal-Rausch-Verhältnis-Zielzahl ausgewählt werden, wie etwa 7, wenn ein mäßiges Fehlerrisiko angenommen werden kann. Sobald das Ziel-eingestellte Signal-Rausch-Verhältnis für das Verfahren festgesetzt ist, kann für jedes angepasste Signal-Rausch-Verhältnis eine Wahrscheinlichkeit bestimmt werden, dass ein mutmaßlicher Peak ein tatsächlicher Peak ist.
Wegen der Chemie, die beim Durchführen eines Identifikationstests einbezogen ist, insbesondere ein Massenspektrometrietest einer Probe, die durch DNA-Vervielfältigung präpariert wurde, sollte das Allelverhältnis zwischen der Signalstärke des höchsten Peaks und der Signalstärke des zweit-(oder dritt- usw.) höchsten Peaks innerhalb eines erwarteten Verhältnisses fallen. Falls das Allelverhältnis außerhalb der normalen Vorgaben fällt, verhängt die bevorzugte Ausführungsform eine Allelverhältnisstrafe auf die Wahrscheinlichkeit. Beispielsweise zeigt 30 eine Allelstrafe 315, die eine x-Achse 317 aufweist, die das Verhältnis zwischen der Signalstärke des zweithöchsten Peaks geteilt durch die Signalstärke des höchsten Peaks ist. Die y-Achse 319 weist abhängig von dem bestimmten Allelverhältnis eine Strafe zwischen 0 und 1 auf. Bei der bevorzugten Ausführungsform wird angenommen, dass sich Allelverhältnisse über 30% innerhalb des erwarteten Bereichs befinden und deswegen wird keine Strafe angewendet. Bei einem Verhältnis zwischen 10% und 30% erhöht sich die Strafe linear, bis bei einem Allelverhältnis unter 10% angenommen wird, dass der zweithöchste Peak nicht real ist. Für Allelverhältnisse zwischen 10% und 30% wird das Allelstrafediagramm 315 verwendet, um eine Strafe 319 zu bestimmen, die mit der in 29 bestimmten Peakwahrscheinlichkeit multipliziert wird, um eine Endpeakwahrscheinlichkeit zu bestimmen. Obwohl die bevorzugte Ausführungsform eine Allelverhältnisstrafe beinhaltet, um möglichen Chemiefehlern Rechnung zu tragen, ist zu verstehen, dass andere Techniken verwendet werden können. Eine ähnliche Behandlung wird auf die anderen Peaks angewendet.
Mit der für jeden Peak bestimmten Peakwahrscheinlichkeit kann die statistische Wahrscheinlichkeit für viele Zusammensetzungskomponenten bestimmt werden, um beispielsweise die Wahrscheinlichkeit jeder der drei möglichen Kombinationen zweier Peaks zu bestimmen – Peak G, Peak C und Kombinationen GG, CC und GC. 31 zeigt ein Beispiel, in dem ein wahrscheinlichster Peak 325 mit einer Endpeakwahrscheinlichkeit von 90% bestimmt wurde. Peak 325 ist so positioniert, dass er eine G-Komponente der biologischen Probe repräsentiert. Entsprechend kann behauptet werden, dass G mit einer Wahrscheinlichkeit von 90% in der biologischen Probe vorhanden ist. Genauso wie in dem in 31 gezeigten Beispiel gezeigt, ist die zweithöchste Wahrscheinlichkeit Peak 330, der eine Peakwahrscheinlichkeit von 20% aufweist. Peak 330 befindet sich an einer Lage, die mit einer C-Zusammensetzung verknüpft ist. Entsprechend kann behauptet werden, dass C mit einer 20%-Wahrscheinlichkeit in der biologischen Probe vorhanden ist.
Mit der Wahrscheinlichkeit des Vorhandenseins von G (90%) und der Wahrscheinlichkeit des Vorhandenseins von C (20%) als Startpunkt kann die Wahrscheinlichkeit des Vorhandenseins der Kombinationen von G und C berechnet werden. Beispielsweise zeigt 31, dass die Wahrscheinlichkeit des Vorhandenseins von GG 329 mit 72% berechnet ist. Dies wird berechnet, da die Wahrscheinlichkeit von GG gleich der Wahrscheinlichkeit des Vorhandenseins von G (90%) multipliziert mit der Wahrscheinlichkeit des Nichtvorhandenseins von C (100%–20%) ist. Falls die Wahrscheinlichkeit des Vorhandenseins von G 90% ist und die Wahrscheinlichkeit des Nichtvorhandenseins von C 80% ist, ist damit die Wahrscheinlichkeit von GG 72%.
In ähnlicher Weise ist die Wahrscheinlichkeit des Vorhandenseins von CC äquivalent zur Wahrscheinlichkeit des Vorhandenseins von C (20%) multipliziert mit der Wahrscheinlichkeit des Nichtvorhandenseins von G (100%–90%). Wie in 31 gezeigt, ist die Wahrscheinlichkeit des Vorhandenseins von C 20%, während die Wahrscheinlichkeit des Nichtvorhandenseins von G 10% ist, somit ist die Wahrscheinlichkeit von CC nur 2%. Schließlich ist die Wahrscheinlichkeit des Vorhandenseins von GC gleich der Wahrscheinlichhkeit des Vorhandenseins von G (90%) multipliziert mit der Wahrscheinlichkeit des Vorhandenseins von C (20%). Falls die Wahrscheinlichkeit des Vorhandenseins von G 90% ist und die Wahrscheinlichkeit des Vorhandenseins von C 20% ist, ist damit die Wahrscheinlichkeit des Vorhandenseins von GC 18%. Zusammenfassend ist die Wahrscheinlichkeit der Zusammensetzung der biologischen Probe dann:

Wahrscheinlichkeit von GG: 72%;

Wahrscheinlichkeit von GC: 18%; und

Wahrscheinlichkeit von CC: 2%.
Sobald die Wahrscheinlichkeiten jeder der möglichen Kombinationen bestimmt wurden, wird 32 verwendet, um zu entscheiden, ob genügend Sicherheit vorhanden ist, um den Genotyp abzurufen. 32 zeigt ein Abrufdiagramm 335, das eine x-Achse 337 aufweist, die das Verhältnis der höchsten Kombinationswahrscheinlichkeit mit der zweithöchsten Kombinationswahrscheinlichkeit ist. Die y-Achse 339 zeigt einfach an, ob das Verhältnis genügend hoch ist, um das Abrufen eines Genotyps zu rechtfertigen.
Der Wert des Verhältnisses kann mit M angezeigt werden. Der Wert von M wird abhängig von Versuchsdaten, Probenzusammensetzung und der Fähigkeit, Fehler zu akzeptieren, gesetzt. Der Wert M kann beispielsweise relativ hoch gesetzt werden, wie etwa auf einen Wert von 4, so dass die höchste Wahrscheinlichkeit mindestens vier mal größer als die zweithöchste Wahrscheinlichkeit sein muss, bevor Sicherheit zum Abruf eines Genotyps hergestellt ist. Wenn ein bestimmtes Fehlerniveau jedoch akzeptabel ist, kann der Wert von M auf einen aggressiveren Wert gesetzt werden, wie etwa auf 3, sodass das Verhältnis zwischen den höchsten und zweithöchsten Wahrscheinlichkeiten nur ein Verhältnis von 3 oder höher sein muss. Natürlich können mäßige Werte für M gewählt werden, wenn ein mäßiges Risiko akzeptiert werden kann. Unter Verwendung des Beispiels aus 31, in dem die Wahrscheinlichkeit von GG 72% war und die Wahrscheinlichkeit von GC 18% war, ist das Verhältnis zwischen 72% und 18% 4,0. Unabhängig davon, ob M auf 3, 3,5 oder 4 gesetzt würde, würde deswegen das System den Genotyp als GG abrufen. Obwohl die bevorzugte Ausführungsform ein Verhältnis zwischen den zwei höchsten Peakwahrscheinlichkeiten verwendet, um zu bestimmen, ob ein Genotyp sicher abgerufen werden kann, ist zu verstehen, dass andere Verfahren anstelle verwendet werden können. Es ist auch zu verstehen, dass die oben stehenden Techniken auch zum Berechnen von Wahrscheinlichkeiten und Auswählen von Genotypen (oder allgemeineren DNA-Mustern) verwendet werden können, die aus Kombinationen von mehr als zwei Peaks bestehen.
Jetzt unter Bezugnahme auf 33 wird ein Flussdiagramm angezeigt, das den oben stehend beschriebenen Prozess des statistischen Genotypabrufs allgemein definiert. Block 402 zeigt in 33, dass die Höhe jedes Peaks bestimmt wird, und dass in Block 404 ein Rauschprofil für jeden Peak extrapoliert wird. Das Signal wird aus der Höhe jedes Peaks in Block 402 bestimmt, und das Rauschen jedes Peaks wird bestimmt unter Verwendung des Rauschprofils in Block 406. Im Block 410 wird das Signal-Rausch-Verhältnis für jeden Peak berechnet. Um einer nicht-Gauß'schen Peakform Rechnung zu tragen, wird in Block 412 ein Restfehler bestimmt und ein angepasstes Signal-Rausch-Verhältnis wird in Block 414 berechnet. Block 416 zeigt, dass ein Wahrscheinlichkeitsprofil entwickelt wird, wobei die Wahrscheinlichkeit des Vorhandenseins jedes Blocks in Block 418 gefunden wird. Eine Allelstrafe kann in Block 420 angewendet werden, wobei die Allelstrafe auf die angepasste Peakwahrscheinlichkeit in Block 422 angewendet wird. Die Wahrscheinlichkeit jeder Kombination von Komponenten wird in Block 424 berechnet, wobei das Verhältnis zwischen den zwei höchsten Wahrscheinlichkeiten in Block 426 bestimmt wird. Wenn das Verhältnis der Wahrscheinlichkeiten einen Schwellwert übersteigt, wird der Genotyp in Block 428 abgerufen.
Ein Fachmann wird würdigen, dass Verfahren, Vorrichtungen und Systeme anders als bei den bevorzugten Ausführungsformen umgesetzt werden können, die in dieser Beschreibung zum Zweck der Veranschaulichung und nicht der Einschränkung dargestellt ist, und die vorliegende Erfindung wird nur von den folgenden Ansprüchen eingeschränkt. Es ist zu bemerken, dass Äquivalente der speziellen Ausführungsformen, die in dieser Beschreibung besprochen wurden, die Erfindung genauso umsetzen.

Claims

Automatisiertes Verfahren zum Identifizieren einer Komponente in einer biologischen Probe, umfassend: Erzeugen eines computerlesbaren Datensatzes eines Testinstrumentes (15), der Komponenten in der biologischen Probe repräsentierende Daten umfasst, zur Analyse durch einen Computer (20), und Verwenden des Computers zum: Entrauschen des Datensatzes zum Erzeugen entrauschter Daten; Löschen einer Basislinie aus den entrauschten Daten zum Erzeugen eines Zwischendatensatzes, dadurch gekennzeichnet, dass der Computer weiter verwendet wird zum: Definieren mutmaßlicher Peaks im Zwischendatensatz, wobei die mutmaßlichen Peaks Komponenten in der biologischen Probe repräsentieren; Erzeugen einer Restbasislinie durch Entfernen der mutmaßlichen Peaks des Zwischendatensatzes; Entfernen der Restbasislinie des Zwischendatensatzes zum Erzeugen eines korrigierten Datensatzes; Lokalisieren eines wahrscheinlichen Peaks im korrigierten Datensatz; und Identifizieren der die dem lokalisierten wahrscheinlichen Peak entsprechenden Komponente.
Verfahren nach Anspruch 1, wobei der Datensatz ein Spektrometriedatensatz ist.
Verfahren nach Anspruch 1, wobei der Datensatz von einem Massenspektrometer (15) erzeugt wird.
Verfahren nach Anspruch 1, wobei das Entrauschen des Datensatzes ein Erzeugen eines Rauschprofils des Datensatzes umfasst.
Verfahren nach Anspruch 1, wobei das Entrauschen des Datensatzes ein Transformieren des Datensatzes unter Verwendung von Wavelet-Technologie in eine Reihe von Stufen umfasst.
Verfahren nach Anspruch 5, das weiter das Erzeugen eines Rauschprofils der Stufe 0 umfasst.
Verfahren nach Anspruch 6, das weiter das Erzeugen eines Rauschprofils andere Stufen umfasst.
Verfahren nach Anspruch 7, wobei das Rauschprofil für jede der anderen Stufen das durch einen Skalierungsfaktor skalierte Rauschprofil der Stufe 0 ist.
Verfahren nach Anspruch 8, wobei der Skalierungsfaktor von dem Endabschnitt der jeweils anderen Stufen abgeleitet ist.
Verfahren nach Anspruch 5, das weiter das Anwenden eines Schwellwerts auf ausgewählte Stufen umfasst, wobei der Schwellwert aus dem Rauschprofil abgeleitet wird.
Verfahren nach Anspruch 10, wobei der Schwellwert mit einem Schwellwertfaktor skaliert wird, bevor er auf die ausgewählten Stufen angewendet wird.
Verfahren nach Anspruch 7, wobei der Schwellwertfaktor derart gewählt ist, dass höhere Stufen von Daten weniger als tiefere Stufen gefiltert sind.
Verfahren nach Anspruch 5, das weiter das Erzeugen eines dünnbesetzten Datensatzes umfasst, der die entrauschten Daten anzeigt.
Verfahren nach Anspruch 5, das weiter ein Verschieben der entrauschten Daten umfasst, um Schwankungen wegen eines Startwerts für die Wavelet-Transformation Rechnung zu tragen.
Verfahren nach Anspruch 1, wobei das Korrigieren der Basislinie weiter das Erzeugen eines gleitenden Mittelwerts des entrauschten Datensatzes umfasst.
Verfahren nach Anspruch 15, wobei der gleitende Mittelwert zum Finden der Peakbereiche im entrauschten Datensatz verwendet wird.
Verfahren nach Anspruch 16, wobei die Peakbereiche aus dem entrauschten Datensatz entfernt werden.
Verfahren nach Anspruch 17, das weiter das Erzeugen einer Basislinienkorrektur umfasst.
Verfahren nach Anspruch 1, das weiter das Komprimieren des Zwischendatensatzes umfasst, wobei der Zwischendatensatz eine Mehrzahl von Datenwerten aufweist, die entsprechenden Adressen zugeordnet sind.
Verfahren nach Anspruch 19, wobei ein komprimierter Datenwert eine reelle Zahl ist, die einen Ganzteil umfasst, der die Differenz zwischen zwei Adressen repräsentiert.
Verfahren nach Anspruch 19, wobei ein komprimierter Datenwert eine reelle Zahl ist, die einen Dezimalteil umfasst, der die Differenz zwischen einem Maximalwert aller Datenwerte und einem Wert an einer bestimmten Adresse repräsentiert.
Verfahren nach Anspruch 1, das weiter ein Durchführen einer Massenverschiebung basierend auf der Position des mutmaßlichen Peaks umfasst.
Verfahren nach Anspruch 1, wobei das Generieren der Restbasislinie ein Löschen eines Bereichs um jeden mutmaßlichen Peak im Zwischendatensatz umfasst.
Verfahren nach Anspruch 23, wobei der gelöschte Bereich von einer ermittelten Breite eines mutmaßlichen Peaks abgeleitet wird.
Verfahren nach Anspruch 23, wobei die Restbasislinie aus im Zwischendatensatz verbleibenden Daten abgeleitet wird, nachdem die Bereiche um die mutmaßlichen Peaks entfernt worden sind.
Verfahren nach Anspruch 23, wobei das Generieren der Restbasislinie das Anpassen eines quartischen Polynoms an den Datensatz umfasst, der in den Zwischendaten verbleibt, nachdem die Peaks entfernt wurden.
Verfahren nach Anspruch 1, wobei der wahrscheinliche Peak durch Anpassen einer Gauß'schen Kurve an das Peakgebiet im korrigierten Datensatz lokalisisert wird.
Verfahren nach Anspruch 1, wobei der Identifizierungsschritt das Verwenden eines erzeugten Rauschprofils umfasst, um das Signal-Rausch-Verhältnis des wahrscheinlichen Peaks zu berechnen.
Verfahren nach Anspruch 28, wobei ein Restpeakfehler durch Vergleich des wahrscheinlichen Peaks mit einer Gauß'schen Kurve berechnet wird.
Verfahren nach Anspruch 29, wobei der Restpeakfehler verwendet wird, um das Signal-Rausch-Verhältnis einzustellen zum Erzeugen eines eingestellten Signal-Rausch-Verhältnises.
Verfahren nach Anspruch 1, wobei der Identifizierungsschritt ein Ableiten einer Peakwahrscheinlichkeit für den wahrscheinlichen Peak umfasst.
Verfahren nach Anspruch 31, wobei die Peakwahrscheinlichkeit unter Verwendung des Signal-Rausch-Verhältnisses abgeleitet wird.
Verfahren nach Anspruch 31, wobei die Peakwahrscheinlichkeit unter Verwendung eines Allelverhältnisses abgeleitet wird, wobei das Allelverhältnis ein Vergleich von zwei in den korrigierten Daten angezeigten Peakhöhen ist.
Verfahren nach Anspruch 1, wobei der Identifizierungsschritt ein Berechnen einer Peakwahrscheinlichkeit umfasst, dass ein wahrscheinlicher Peak in den korrigierten Daten ein Peak ist, der die Zusammensetzung der biologischen Probe anzeigt.
Verfahren nach Anspruch 34, wobei die Peakwahrscheinlichkeit für jeden aus einer Mehrzahl von wahrscheinlichen Peaks in den korrigierten Daten berechnet wird.
Verfahren nach Anspruch 35, wobei eine höchste Wahrscheinlichkeit mit einer zweithöchsten Wahrscheinlichkeit verglichen wird, um ein Abrufverhältnis zu erzeugen.
Verfahren nach Anspruch 36, wobei das Abrufverhältnis zum Bestimmen verwendet wird, ob die Zusammensetzung der biologischen Probe abgerufen werden wird.
Computerbasiertes System (16) zum Identifizieren einer Komponente in einer biologischen Probe, wobei das System umfasst: ein Testinstrument (15) zum Empfangen der biologischen Probe und Erzeugen eines Datensatzes, geeignet zur Analyse durch einen Computer (20), der Komponenten in der biologischen Probe repräsentierende Daten umfasst; ein mit dem Testinstrument (15) in Verbindung stehender Computer, der zum Aufnehmen des erzeugten Datensatzes konfiguriert ist, wobei der Computer (20) zum Durchführen der Schritte programmiert ist: Entrauschen des Datensatzes zum Erzeugen entrauschter Daten; Löschen einer Basislinie aus den entrauschten Daten zum Erzeugen eines Zwischendatensatzes, gekennzeichnet durch: Definieren mutmaßlicher Peaks im Zwischendatensatz, wobei die mutmaßlichen Peaks Komponenten in der biologischen Probe repräsentieren; Erzeugen einer Restbasislinie durch Entfernen der mutmaßlichen Peaks des Zwischendatensatzes; Entfernen der Restbasislinie aus dem Zwischendatensatz zum Erzeugen eines korrigierten Datensatzes; Lokalisieren eines wahrscheinlichen Peaks im korrigierten Datensatz und Identifizieren der die den lokalisierten wahrscheinlichen Peaks entsprechende Komponente.
System nach Anspruch 38, wobei der Computer (20) mit dem Testinstrument (15) integral ist.
Ein auf einem Rechengerät (20) operierendes maschinenlesbares Programm, wobei das Rechengerät (20) konfiguriert ist, einen Datensatz von einem Testinstrument zu empfangen, der computerlesbare Daten umfasst, die Komponenten einer biologischen Probe respräsentieren, wobei das Programm das Rechengerät dazu anweist, die Schritte umzusetzen: Entrauschen des Datensatzes zum Erzeugen entrauschte Daten; Löschen einer Basislinie aus den entrauschten Daten zum Erzeugen eines Zwischendatensatzes, gekennzeichnet durch: Definieren mutmaßlicher Peaks im Zwischendatensatz, wobei die mutmaßlichen Peaks Komponenten in der biologischen Probe repräsentieren; Erzeugen einer Restbasislinie durch Entfernen der mutmaßlichen Peaks des Zwischendatensatzes; Entfernen der Restbasislinie aus dem Zwischendatensatz zum Erzeugen eines korrigierten Datensatzes; Lokalisieren eines wahrscheinlichen Peaks im korrigierten Datensatz und Identifizieren der die den lokalisierten wahrscheinlichen Peaks entsprechende Komponente.
System nach Anspruch 38, wobei das Instrument ein Massenspektrometer ist.
System nach Anspruch 41, wobei der Computer weiter dazu programmiert ist, den Schritt eines Verwendens einer statistischen Methode durchzuführen zum Bestimmen, ob der lokalisierte wahrscheinliche Peak ein tatsächlicher Peak ist.
System nach Anspruch 38, wobei die biologische Probe eine DNA-Probe ist.
System nach Anspruch 38, wobei der wahrscheinliche Peak identifiziert wird durch: Berechnen der Wahrscheinlichkeit, dass jeder der mutmaßlichen Peaks im korrigierten Datensatz ein tatsächlicher Peak ist; Vergleichen der höchsten Wahrscheinlichkeit mit einer zweithöchsten Wahrscheinlichkeit, um ein Abrufverhältnis zu erzeugen; und Verwenden des Abrufverhältnisses zum Bestimmen, ob die Identität der Komponente der biologischen Probe abgerufen wird.