-
HINTERGRUND DER ERFINDUNG
-
Diese
Erfindung bezieht sich im Allgemeinen auf die Analyse von Remote-Datenverkehr
und im Besonderen auf ein System und ein Verfahren zum Analysieren
von Remote-Datenverkehr
in einer dezentralisierten Rechnerumgebung.
-
Das
World Wide Web (im Folgenden „Web") ist dabei, sich
rasant zu einem der wichtigsten Publikationsmedien heutzutage zu
entwickeln. Der Grund dafür
ist einfach: über
das Internet miteinander verbundene Webserver bieten einen Zugang
zu einer potentiell weltweiten Zielgruppe, bei einer minimalen Investition
in Zeit und in Hilfsmittel zum Erstellen einer Webseite. Der Webserver
macht eine große
Auswahl von Medien in einer Vielzahl von Formaten, einschließlich Audio-
und Videoformat, herkömmlichen
Texten und Grafiken, zum Auffinden und Einstellen verfügbar. Und
die Leichtigkeit, mit der eine Webseite erstellt werden kann, lässt das Erreichen
dieser weltweiten Zielgruppe für
alle Typen von Nutzern Wirklichkeit werden, von Unternehmen über neu
gegründete
Firmen bis hin zu Organisationen und Privatpersonen.
-
Anders
als andere Medienformen ist eine Webseite interaktiv und der Webserver
kann passiv Zugangsinformationen über jeden Nutzer sammeln, indem
die zwischen dem Webserver und dem Nutzer ausgetauschten Datenverkehrspakete
beobachtet und aufgezeichnet werden. Wichtige Daten über die
Nutzer können
direkt oder schlussfolgernd bestimmt werden, indem der Datenverkehr
und der Kontext des „Treffers" analysiert werden.
Darüber
hinaus kann über
einen längeren
Zeitraum gesammelter Datenverkehr statistische Informationen liefern,
wie z. B. die Anzahl von Nutzern, die die Seite jeden Tag aufrufen,
aus welchen Ländern, Staaten
oder Städten
die Nutzer sich einloggen, sowie den nutzungsintensivsten Tag oder
die nutzungsintensivste Stunde der Woche. Solche statistischen Informationen
sind hilfreich beim Maßschneidern
von Marketingstrategien oder unternehmerischen Strategien, um sich
an die offenkundigen Bedürfnisse
der Zielgruppe besser anpassen zu können.
-
Um
die Verwendung dieser statistischen Informationen zu optimieren,
muss die Webserver-Verkehrsanalyse in angemessener Zeit erfolgen.
Allerdings ist es für
einen Webserver nicht unüblich,
täglich
tausende von Nutzern zu verarbeiten. Die resultierenden, vom Webserver
aufgezeichneten Zugangsinformationen laufen auf einen Datenverkehr
in Megabyte-Größenordnung
hinaus. Einige Webserver generieren einen täglichen Datenverkehr in Gigabyte-Größenordnung.
Das Analysieren des Datenverkehrs, um Trends zu ermitteln oder Statistiken
zu erstellen, ist selbst für
einen einzigen Tag rechenintensiv und zeitaufwändig. Darüber hinaus wächst die
Verarbeitungszeit, die zur Analyse des Datenverkehrs für mehrere
Tage, Wochen oder Monate benötigt
wird, linear mit der Zunahme des interessierenden Zeitfensters an.
-
Das
Problem, eine Verkehrsanalyse effizient und in angemessener Zeit
durchzuführen,
tritt nicht nur bei Webservern auf. Vielmehr ist die Analyse von
Datenverkehr immer dann möglich,
wenn Datenverkehr beobachtbar ist und auf eine einheitliche Weise
aufgezeichnet werden kann, wie z. B. in einer dezentralisierten Datenbank,
in einem Client-Server-System oder in einer anderen Remote-Zugriffsumgebung.
-
Ein
aus dem Stand der Technik bekanntes Analyseprogramm für Webserververkehr
ist in „WebTrends Installation
and User Guide",
Version 2.2, Oktober 1996, beschrieben. WebTrends ist eine Marke,
z. B. für
Software, Portland, Oregon. Allerdings kann dieses aus dem Stand
der Technik bekannte Analyseprogramm keine Ad-hoc-Abfragen unter
Verwendung eines Protokoll-basierenden Archivs von Analysezusammenfassungen für eine effiziente
Durchführung
ausführen.
-
Andere
aus dem Stand der Technik bekannte Analyseprogramme für Webserververkehr
sind im Allgemeinen effizient in der Verarbeitung von Server-Datenverkehr
mit mäßigem Umfang,
wenn sie auf einem Kleinserver oder einem Nicht-Mainframe-System
laufen. Beispiele für
diese Analyseprogramme sind Market Focus, lizenziert durch Intersé Corporation,
Hit List, lizenziert durch MarketWave und Net.Analysis, lizenziert
durch Net.Genisys. Allerdings erfordern diese Analyseprogramme zunehmend
teure und komplexe Hardware-Systeme zur Verarbeitung größerer Datenverkehrsmengen.
Letzteres ist für
die Mehrheit der Webserverbetreiber nicht zu realisieren. Darüber hinaus
sind diese aus dem Stand der Technik bekannten Analyseprogramme auch
nicht in der Lage, schnell Trendinformationen und statistische Informationen
auf Ad-hoc-Basis
zu erstellen.
-
Die
Veröffentlichung „From user
access Patterns to dynamic hypertext linking" von TAK W.Y. ET AL., COMPUTER NETWORKS
AND ISDN SYSTEMS, NORTH HOLLAND PUBLISHING. AMSTERDAM, NL, Vol. 28,
No. 11, 1 Mai 1996, Seiten 1007-1014, offenbart ein System zum Analysieren
von Datenverkehr in einer dezentralisierten Rechnerumgebung, wobei
die dezentralisierte Rechnerumgebung eine Vielzahl von verbundenen
Systemen umfasst, die an einen Server gekoppelt sind und mit diesem
zusammenwirken und welcher darauf ausgerichtet ist, Datenpakete
mit jedem der verbundenen Systeme auszutauschen.
-
Die
Veröffentlichung „Grouping
Web Page references into transactions for mining World Wide Web browsing
Patterns" von COOLEY
R. ET AL., KNOWLEDGE AND DATA ENGINEERING EXCHANGE WORKSHOP, 1997,
Seiten 2-9, offenbart ein allgemeines Modell zur Transaktions-Identifikation
für das
Web Usage Mining, die Anwendung von Datamining und Wissensermittlungstechniken
auf WWW-Server-Zugangs-Logdateien.
-
Daher
besteht ein Bedarf hinsichtlich eines Systems und eines Verfahrens
zur effizienten Verarbeitung der umfangreichen, von Webservern generierten
Zugangsinformationen in einer zeitlich angemessenen, sinnvollen
Weise, ohne die zusätzlichen
Kosten, die mit in großem
Umfang erforderlicher Hardware verbunden sind. Vorzugsweise könnten ein
solches System und Verfahren Ad-hoc-Abfragen von Analysezusammenfassungen
in einer zeitlich angemessenen und präzisen Weise durchführen.
-
Es
besteht ein weiterer Bedarf hinsichtlich eines Systems und eines
Verfahrens zur effizienten Analyse von Datenverkehr, welches Zugangsinformationen über einen
Webserver widerspiegelt, der in einer dezentralisierten Rechnerumgebung
läuft.
Vorzugsweise würde
ein solches System und Verfahren Datenverkehr aus einer Vielzahl
von Quellen verarbeiten.
-
Es
besteht darüber
hinaus ein Bedarf hinsichtlich eines Systems und eines Verfahrens
zur Analyse von Datenverkehr, welcher aus Zugangsinformationen für vordefinierte
Zeitintervalle besteht.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Die
vorliegende Erfindung umfasst ein System und ein Verfahren zum Analysieren
von Remote-Datenverkehr in einer dezentralisierten Rechnerumgebung
in einer zeitlich angemessenen und präzisen Weise.
-
Ein
Ausführungsbeispiel
der vorliegenden Erfindung ist ein System, ein Verfahren und ein
Speichermedium, welches einen computerlesbaren Code zum Analysieren
von Datenverkehr in einer dezentralisierten Rechnerumgebung enthält. Die
dezentralisierte Rechnerumgebung umfasst eine Vielzahl von verbundenen Systemen,
die an einen Server gekoppelt sind und mit diesem zusammenwirken,
eine Quelle von Datenverkehrs-Treffern und eine oder mehrere durch
einen zugehörigen
Datentyp kategorisierte Ergebnistabellen. Jede Ergebnistabelle umfasst
eine Vielzahl von Einträgen.
Der Server ist darauf ausgerichtet, Datenpakete mit jedem der verbundenen
Systeme auszutauschen. Jeder Datenverkehrs-Treffer entspricht einem
zwischen dem Server und einem solchen verbundenen System ausgetauschten
Datenpaket. Jeder Datenverkehrs-Treffer wird aus der Datenverkehrs-Treffer-Quelle
als Zugangsinformation in einem solchen Eintrag in wenigstens einer
Ergebnistabelle entsprechend dem mit der einen solchen Ergebnistabelle
verbundenen Datentyp erfasst. Jeder der Einträge in der Ergebnistabelle entspricht
einer anderen Art von Zugangsinformation für den mit der Ergebnistabelle
verbundenen Datentyp. Die während
eines Zeitintervalls in den Ergebnistabellen erfassten Zugangsinformationen
werden periodisch zu Analyseergebnissen zusammengefasst. Das Zeitintervall
entspricht einem diskreten Auswertungszeitraum. Die Zugangsinformationen
aus den Ergebnistabellen in den Analyseergebnissen werden analysiert,
um Analysezusammenfassungen entsprechend den mit den Ergebnistabellen verbundenen
Datentypen zu bilden.
-
Das
Vorangehende sowie weitere Merkmale und Vorteile der Erfindung werden
leichter ersichtlich anhand der folgenden detaillierten Beschreibung
eines bevorzugten Ausführungsbeispiels
der Erfindung, welche auf die beigefügten Zeichnungen Bezug nimmt.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist
ein Funktions-Blockdiagramm eines erfindungsgemäßen Systems zum Analysieren
von Datenverkehr in einer dezentralisierten Rechnerumgebung.
-
2 ist
ein Flussdiagramm eines erfindungsgemäßen Verfahrens zum Analysieren
von Datenverkehr in einer dezentralisierten Rechnerumgebung, welches
das System aus 1 verwendet.
-
3A zeigt
ein Format, welches bei der Speicherung eines von dem Server aus 1 empfangenen Datenverkehrs-„Treffers” verwendet
wird.
-
3B zeigt
beispielhaft einen von dem Server aus 1 empfangenen
formatierten Datenverkehrs-„Treffer”.
-
4 ist
ein Blockdiagramm der Datenstrukturen, die bei der Speicherung von
Zugangsinformationen, welche aus den Datenverkehrs-Treffern aus 3A bestimmt
werden, verwendet werden.
-
5 ist
ein Blockdiagramm einer Containerdatei, welche die Zugangsinformationen
in den Analyseergebnissen aus 1 speichert.
-
6 ist
ein Flussdiagramm einer Routine zum Erfassen und Zusammenfassen
von Zugangsinformationen, die bei dem Verfahren aus 2 verwendet
wird.
-
7 ist
ein Flussdiagramm einer Routine zum Speichern von Zugangsinformationen,
welche bei der Routine aus 6 verwendet
wird.
-
8 ist ein Flussdiagramm einer Routine
zum Zusammenfassen von Zugangsinformationen, welche bei der Routine
aus 6 verwendet wird.
-
9A und 9B sind
ein Flussdiagramm einer One-Pass-Routine zum Analysieren von Zugangsinformationen,
welche bei dem Verfahren aus 2 verwendet
wird.
-
10 ist
ein Flussdiagramm einer Two-Pass-Routine zum Analysieren von Zugangsinformationen, welche
bei dem Verfahren aus 2 verwendet wird.
-
11 ist
eine graphische Darstellung der Anzahl an geöffneten Sitzungen, die von
dem Server aus 1 empfangen werden, als Funktion
der Zeit.
-
12 ist
ein Flussdiagramm von Schritten zum Anpassen der Erfassung von Zugangsinformationen hinsichtlich
Inflation, die in der Routine aus 6 verwendet
werden.
-
13 ist
ein Flussdiagramm von Schritten zum Anpassen der Analyse von Zugangsinformationen hinsichtlich
Inflation, die in der Routine aus den 9A und 9B sowie 10 verwendet
werden.
-
DETAILLIERTE BESCHREIBUNG
-
1 ist
ein Funktions-Blockdiagramm eines erfindungsgemäßen Systems zum Analysieren
von Datenverkehr in einer dezentralisierten Rechnerumgebung 9.
Ein Server 10 stellt Webseiten-Dienste und damit verbundene
Dienste für
Remote-Nutzer bereit. Beispielsweise können die Remote-Nutzer auf
den Server 10 von einem Remote-Computersystem 12 aus
zugreifen, welches mit dem Server 10 über eine Netzwerkverbindung 13,
wie z. B. das Internet oder ein internes Netzwerk, über eine
Einwahl-(oder Stand-)verbindung 14 oder über eine
direkte (festgeschaltete) Verbindung 17 verbunden ist.
Andere Typen von Remote-Zugriffsverbindungen sind ebenso möglich.
-
Jeder
Zugriff auf den Server 10 durch einen Remote-Nutzer führt zu einem „Treffer" bei den Roh-Verkehrsdaten 11.
Das zur Speicherung jedes Datenverkehrs-Treffers 11 verwendete
Format sowie ein Beispiel eines Datenverkehrs-Treffers 11 werden
unten mit Bezug auf die 3A bzw. 3B beschrieben.
Der Server 10 speichert jeden Datenverkehrs-Treffer 11 vorzugsweise
in einer Protokolldatei 15, wenngleich auch eine Datenbank 16 oder
eine andere Speicherstruktur verwendet werden kann.
-
Zum
Analysieren des Datenverkehrs untersucht der Server 10 jeden
Datenverkehrs-Treffer 11 und speichert
die aus dem Datenverkehr gewonnenen Zugangsinformationen als Analyseergebnisse 18A–C. Es werden
fünf Quellen
von Datenverkehr 11 gezeigt (Remote-System 12,
Einwahlverbindung 14, Protokolldatei 15, Datenbank 16 und
direkte Verbindung 17). Andere Quellen sind ebenfalls möglich. Die
Datenverkehrs-Treffer 11 können aus
einer beliebigen einzelnen Quelle oder aus einer Kombination dieser
Quellen stammen. Während
der Server 10 fortlaufend Datenverkehrs-Treffer 11 empfängt, werden
einzelne Sätze
von Analyseergebnissen 18A-C für jeden diskreten, als Zeitintervall
bezeichneten Auswertungszeitraum, gespeichert. Die Analyseergebnisse 18A–C werden
für die
Erstellung von Zusammenfassungen 19A–C der Zugangsinformationen
verwendet.
-
Bei
dem beschriebenen Ausführungsbeispiel
handelt es sich bei dem Server 10 typischerweise um ein auf
Intel Pentium basierendes Computersystem, welches mit einem Prozessor,
einem Speicher, Eingabe-/Ausgabeschnittstellen, einer Netzwerkschnittstelle,
einer Sekundärspeichereinheit
und einer Benutzerschnittstelle, vorzugsweise in Form einer Tastatur
und eines Bildschirms, ausgestattet ist. Der Server 10 läuft üblicherweise
unter einem der Betriebssysteme Microsoft Windows NT oder Unix und
verwendet entweder Microsoft Internet Information Server oder NetScape
Communications Server Software. Pentium, Microsoft, Windows, Windows
NT, Unix, Netscape und Netscape Communications Server sind Marken
ihrer jeweiligen Inhaber. Jedoch sind auch andere Konfigurationen
des Servers 10 möglich,
die sich hardwaremäßig, wie
z. B. DOS-kompatible Plattformen, Apple Macintosh, Sun-Workstation und andere
Plattformen, in den Betriebssystemen, wie z. B. MS-DOS, Unix und
andere und in der Web-Software unterscheiden. Apple, Macintosh,
Sun und MS-DOS sind
Marken ihrer jeweiligen Inhaber.
-
2 zeigt
ein Flussdiagramm eines erfindungsgemäßen Verfahrens 20 zum
Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung,
welches das System aus 1 verwendet. Es dient dazu,
fortlaufend Zugangsinformationen aus Datenverkehrs-Treffernil zu
erfassen und zusammenzufassen, während
es On-Demand-, Ad-Hoc-Analysen
ermöglicht.
Das Verfahren 20 besteht aus zwei Routinen. Zugangsinformationen
werden aus Datenverkehrs-Treffern 11 erfasst und vom Server 10 zu
Analyseergebnissen 18A–C zusammengefasst
(Block 21), wie unten mit Bezug auf 6 genauer
beschrieben wird. Die Zugangsinformationen werden gesondert analysiert,
um die Zusammenfassungen 19A–C zu erstellen, welche Trends,
Statistiken und andere Informationen aufzeigen (Block 22),
wie unten mit Bezug auf die 9A und 9B genauer beschrieben
wird. Das Erfassen und Zusammenfassen der Zugangsinformationen (Block 21)
erfolgt fortlaufend durch den Server 10, während die
Analyse der Zugangsinformationen (Block 22) entweder von
dem Server 10 oder von einer separaten (nicht dargestellten)
Workstation auf Ad-Hoc-Basis durchgeführt wird.
-
Das
Verfahren
20 wird vorzugsweise als ein Computerprogramm
implementiert, welches von dem Server
10 ausgeführt wird
und welches auf einem einen computerlesbaren Code umfassenden Speichermedium enthalten
ist. Bei dem beschriebenen Ausführungsbeispiel
ist das Verfahren
20 in der Programmiersprache C geschrieben,
wobei andere Programmiersprachen gleichermaßen geeignet sind. Es läuft in einer
Microsoft Windows-Umgebung und kann Common Logfile-, Combined Logfile-
und proprietäre
Logfile-Formate von Standard-Webservern analysieren, wie z. B. die
von NetScape, NCSA, O'Reilly
WebSite, Quarterdeck, C-Builder, Microsoft, Oracle, EMWAC und anderen
Windows 3.x, Windows NT 95, Unix und Macintosh Webservern lizenzierten.
Die Analyseergebnisse
18A–C können in einer proprietären Datenbank
oder in einer Standarddatenbank
16 (dargestellt in
1)
gespeichert werden, wie z. B. SQL, BTRIEVE, ORACLE, INFORMIX und
anderen. Das Verfahren
20 verwendet die Analyseergebnisse
18A–C aus Datenverkehrs-Treffern
11,
wie sie in der Protokolldatei
15 oder der Datenbank
16 erfasst
sind, zum Erstellen von Aktivitätszusammenfassungen, geographischen,
demographischen und anderen Zusammenfassungen
19A–C, wie
sie in der untenstehenden Tabelle 1 aufgelistet sind. Andere Zusammenfassungen
19A–C sind
ebenso möglich. Tabelle
1
Benutzerprofil
nach Regionen | Allgemeine
Statistiktabelle |
Meist
aufgerufene Seiten | Am
wenigsten aufgerufene Seiten |
Haupt-Eingangsseiten | Haupt-Ausgangsseiten |
Einzelzugriffsseiten | Haupt-Pfade
durch eine Webseite |
Werbedarstellungen | Werbeklicks |
Werbedarstellungen
und -klicks | Meist
heruntergeladene Dateien |
Aktivste
Organisationen | Aktivste
Länder |
Summe
der Aktivitäten
nach Wochentag | Summe
der Aktivitäten
nach Tag |
Summe
der Aktivitäten
nach Tagesstunde | Level
der Summe der Aktivitäten
nach |
| Tagesstunden |
Webserver
Statistik und Analyse | Client-Fehler |
Meist
heruntergeladene Dateitypen und | Server-Fehler |
-größen | |
Aktivität nach Organisationstyp | Meist
aufgerufene Verzeichnisse |
Meist
verweisende Seiten | Meist
verweisende URL's |
Haupt-Browser | Netscape-Browser |
Microsoft
Explorer-Browser | Besuchende
Spider |
Haupt-Plattformen | |
-
Zusätzlich können die
Analyseergebnisse 18A–C
zum automatischen Erstellen von Berichten und Zusammenfassungen
verwendet werden, welche statistische Informationen und Graphen
umfassen, die beispielsweise Nutzeraktivität in Abhängigkeit vom Markt, Niveau
des Interesses an bestimmten Webseiten oder Diensten, die populärsten Produkte,
ob ein Nutzer lokaler, nationaler oder internationaler Herkunft
ist und ähnliche
Informationen darstellen. Bei dem beschriebenen Ausführungsbeispiel
können
die Zusammenfassungen 19A–C als Berichte in vielen verschiedenen
Formaten erstellt werden. Diese Formate umfassen Hypertext-Markup-Language-Dateien
(HTML), die mit der Mehrheit der gängigen Webbrowser kompatibel
sind, proprietäre
Dateiformate zur Verwendung mit Textverarbeitung, Tabellenkalkulation,
Datenbanken und anderen Programmen, wie Microsoft Word, Microsoft
Excel, ASCII Dateien sowie verschiedene andere Formate. Word und
Excel sind Marken der Microsoft Corporation, Redmont, Washington.
-
3A zeigt
ein Format, welches zur Speicherung eines von dem Server in 1 empfangenen „Treffers" von Roh-Verkehrsdaten 11 verwendet
wird. Ein Roh-Datenverkehrs-Treffer 11 hat
nicht das in 3A dargestellte Format. Vielmehr
werden die Inhalte von jedem Feld des Formats von den Datenpaketen
bestimmt, die zwischen dem Server 10 und der Quelle der
Datenverkehrs-Treffer 11 ausgetauscht werden und die aus
den Datenpaketen gewonnenen Informationen werden unter Verwendung
des Formats aus 3A in einem Datensatz gespeichert,
bevor sie in der (in 1 dargestellten) Protokolldatei 15 gespeichert
oder verarbeitet werden.
-
Jeder
Datenverkehrs-Treffer
11 ist ein formatierter String von
ASCII-Daten. Das Format basiert auf dem von der National Computer
Security Association (NCSA) entwickelten Standard-Logfile-Format,
dem Standard-Protokollformat, welches von den meisten Webservern
verwendet wird. Das Format besteht aus folgenden sieben Feldern:
Name
des Feldes | Beschreibung |
Benutzeradresse
(30): | Internetprotokoll-(IP-)adresse
oder Domgin-Name |
| des
die Seite aufrufenden Nutzers. |
RFC931
(31): | Obsoletes
Feld, welches üblicherweise
leer bleibt, |
| jedoch
von vielen Webservern immer häufiger |
| verwendet
wird, um den Host-Domain-Namen für multihomed |
| Protokolldateien
zu speichern. |
Nutzer-Authentisierung
(32): | Tauscht
den Benutzernamen, wenn erforderlich, |
| zwecks
Zugriffs auf die Webseite aus. |
Datum/Uhrzeit
(33): | Datum
und Uhrzeit des Zugriffs sowie die |
| Zeitverschiebung
zur mittleren Greenwich-Zeit (GMT). |
Anfrage
(34): | Entweder
GET-Befehl (eine Seiten-Anfrage) oder |
| POST-Befehl
(eine Form-Eingabe). |
Antwort-Code
(35): | Antwort-Status
der Anfrage, welcher angibt, ob der |
| Transfer
erfolgreich war. |
Transfer-Größe (36): | Anzahl
der für
die Dateianfrage übermittelten
Bytes, |
| d.
h. die Dateigröße. |
-
Zusätzlich können drei
optionale Felder wie folgt verwendet werden:
Name
des Feldes | Beschreibung |
Verweisende
Seite (37): | Internetadresse,
die verwendet wurde, um Webseiten-Informationen |
| zur
Erzielung des „Treffers" zu erhalten. |
Agent
(38): | Browser-Version,
einschließlich
Marke, Modell oder |
| Versionsnummer
und Betriebssystem. |
Cookie
(39): | Eindeutige
Identifizierung, die permissiv verwendet |
| wird,
um einen einzelnen Nutzer zu identifizieren. |
-
Andere
Formate von Datenverkehrs-Treffern 11 sind ebenso möglich, einschließlich proprietärer Formate,
die zusätzliche
Felder enthalten, wie z. B. Übertragungszeit,
Art der Dienstleistungserbringung und andere. Darüber hinaus
treten ständig
Veränderungen
und Zusätze
zu den Formaten der Roh-Datenverkehrs-Treffer 11 auf, und
einem Fachmann auf diesem Gebiet wären die Erweiterungen bekannt,
die die vorliegende Erfindung zum Umgang mit derart veränderlichen
Formaten erfordert.
-
3B zeigt
beispielhaft einen von dem Server aus 1 empfangenen „Treffer" der Roh-Verkehrsdaten.
Das Feld der Benutzeradresse 30 ist „tarpon.gulf.net", welches anzeigt,
dass der Nutzer aus einer Domain namens „gulf.net" stammt, die sich auf einem „tarpon" genannten Rechner
befindet. Die Felder RFC931 31 und Nutzer-Authentisierung 32 sind „-„, was
leere Einträge
bedeutet. Das Feld Datum/Uhrzeit 33 ist „12/Jan/1996:20:38:17
+0000", was einen
Zugriff am 12. Januar 1996 um 20:38:17 GMT anzeigt. Das Feld Anfrage 34 ist „GET/general.htm
HTTP/1.0", was anzeigt,
dass der Nutzer die „general.htm"-Seite angefragt
hat. Die Felder Antwort-Code 35 und Transfer-Größe 36 sind
200 bzw. 3599, was eine erfolgreiche Übertragung von 3599 Bytes anzeigt.
-
4 ist
ein Blockdiagramm der Datenstrukturen, die bei der Speicherung von
Zugangsinformationen, welche aus den Datenverkehrs-Treffern 11 aus 3A bestimmt
werden, verwendet werden. Nutzer greifen fortlaufend auf den Server 10 zu,
und in dieser Zeit empfängt
der Server 10 eine Serie von „Treffern" von Remote-Nutzern zum Austausch von
Informationen, wie z. B. das Zugreifen auf eine Webseite oder das Einstellen einer
Datei. Nutzer werden mittels der Nutzer-Internetprotokolladresse
(IP) oder des Domain-Namens identifiziert. Die Zeit, während der
der Nutzer aktiv auf den Server 10 zugreift, ist bekannt
als eine Sitzung. Eine offene Sitzung ist definiert als eine Periode
aktiver Aktivität
für einen
Nutzer des Servers 10. Standardmäßig wird eine Nutzer-Sitzung
beendet, wenn ein Nutzer länger
als 30 Minuten nicht aktiv ist, wenngleich andere zeitliche Begrenzungen
ebenso möglich
sind. Eine geöffnete
Nutzersitzung kann sich über
zwei oder mehr Zeitintervalle erstrecken, was die Zahl offener Sitzungen
bei der Analyse der Zugangsinformationen (Block 22) künstlich
in die Höhe
treiben kann, wie unten mit Bezug auf 11 weiter
beschrieben werden wird.
-
Jeder
Datenverkehrs-Treffer 11 wird analysiert, um entsprechende
Zugangsinformationen zu erhalten. Während ein Datenverkehrs-Treffer 11 vornehmlich
formatierte Daten enthält,
wie mit Bezug auf 3A beschrieben, sind Zugangsinformationen
umfassender und schließen
aus dem Kontext des „Treffers" abgeleitete Daten
ein, wie z. B. die Stadt oder der Staat der verweisenden Seite.
Bei dem beschriebenen Ausführungsbeispiel
wird eine (nicht gezeigte) Datenbank sowohl von US-Internetadressen
als auch von internationalen Internetadressen geführt, welche
den vollständigen
Firmennamen, die Stadt, den Staat und das Land umfasst, um solche
indirekten Zugangsinformationen über
jeden Nutzer abzuleiten. Die Zugangsinformationen werden dann verwendet,
um damit einen Satz von Ergebnistabellen 40A–D zu bestücken. Jede
Tabelle speichert einen eigenen Typ von Zugangsinformation, wie
z. B. den Staat, die Stadt oder das Land des Nutzers, die Seite
innerhalb der Website, auf die zugegriffen wurde, die Ausgangs-Webseite,
einen Universal Resource Locator (URL) und andere, entweder direkt
oder indirekt aus den Datenverkehrs-Treffern 11 ableitbare
Informationen. Am Ende des Zeitintervalls werden die Ergebnistabellen 40A–D zu einer
Containerdatei 41 zusammengefasst, die unten mit Bezug
auf 5 genauer beschrieben wird und die in den Analyseergebnissen 18A–C gespeichert
wird.
-
Die
Ergebnistabellen 40A–C
sind entsprechend dem Typ der gezählten Zugangsinformation kategorisiert
und jede Ergebnistabelle 40A enthält einen Satz von Einträgen 42 zur
Speicherung der Zugangsinformationen. Bei dem beschriebenen Ausführungsbeispiel
gibt es zwei Typen von Tabellen. Statische Tabellen enthalten einen
festgelegten und vordefinierten Satz von Einträgen 42, wie z. B.
den Satz an Seiten in der erfassten Website. Dynamische Tabellen
haben eine unbestimmte Länge
und können
keine oder mehr Einträge
umfassen. Jedes Mal, wenn eine neue Zugangsinformation auftritt,
muss in den Ergebnistabellen 40A ein neuer Eintrag 42 erzeugt
werden.
-
In
einer dynamischen Ergebnistabelle 40A zur Speicherung des
Staates, aus dem der Nutzer stammt, könnte ein Eintrag z. B. enthalten „TX:5,
500", was anzeigt,
dass der Staat des Nutzers Texas ist, mit fünf Nutzersitzungen und 500
bislang aufgezeichneten Einträgen.
Wenn der nächste
Datenverkehrs-Treffer 11 von einem neuen Nutzer aus Texas
stammt, wird dieser Eintrag 42 auf „TX:6, 501" aktualisiert, was sechs Nutzersitzungen
mit 501 Treffern anzeigt. Wenn der nächste Datenverkehrs-Treffer 11 von
noch einem weiteren neuen Nutzer aus Kalifornien stammt, wird ein
neuer Eintrag 42 der Form „CA:1, 1" erzeugt, was anzeigt, dass der Staat
des Nutzers Kalifornien ist mit einer Nutzersitzung und einem Treffer.
Um während
jedes Zeitintervalls die offenen Nutzersitzungen ausfindig zu machen,
führt der
Server 10 zusätzlich
zu dem Satz von Ergebnistabellen 40A–D eine Nutzersitzungstabelle 43,
welche bei einem weiteren, unten mit Bezug auf die 12–13 beschriebenen
Ausführungsbeispiel
verwendet wird.
-
5 ist
ein Blockdiagramm einer Containerdatei 41, welche die Zugangsinformationen
in den Analyseergebnissen 18A–C aus 1 speichert.
Jede Containerdatei 41 umfasst ein Inhaltsverzeichnis 44,
welches die relativen Positionen jeder Ergebnistabelle 40A–D innerhalb
der Containerdatei 41 abbildet. Die Nutzersitzungstabelle 43 wird
ebenfalls in der Containerdatei 41 gespeichert und umfasst
eine Reihe von Adressenverweisen auf einen Satz von Mikrotabellen 45A–C. Jede
Mikrotabelle 45A–C
entspricht einer der Ergebnistabellen 40A–D, welche
möglicherweise
eine überhöhte Anzahl
von offenen Sitzungen enthält.
Jeder Eintrag in einer Mikrotabelle 45A enthält einen
Index 46, der auf einen Eintrag innerhalb der ihm zugeordneten
Ergebnistabelle 40B verweist, welche eine Anpassung hinsichtlich
Inflation erfordert. Allerdings ist nicht jeder Ergebnistabelle 40A–D eine
Mikrotabelle 45A–C
zugeordnet. Vielmehr ist die Gesamtzahl der Mikrotabellen 45A–C kleiner
oder gleich der Anzahl der Ergebnistabellen 40A–D, da nicht
jede Ergebnistabelle 40A–D aufgeblähte Informationen enthält.
-
Z.
B. wird der Staat, aus dem ein Nutzer stammt, während jeder Sitzung einmal
gezählt.
Da er nur einmal gezählt
wird, ist die Anzahl an offenen Nutzersitzungen für einen
beliebigen gegebenen Staat nicht überhöht. Folglich wird für die Ergebnistabelle 40A für Staaten
keine Mikrotabelle 45 benötigt. Umgekehrt kann auf eine
Seite einer Website während
einer offenen Sitzung viele Male zugegriffen werden. Dementsprechend
wird eine Mikrotabelle 45A benötigt. In der Nutzersitzungstabelle 43 wird
die Anzahl an offenen Sitzungen, die sich über jede Zeitintervallgrenze
erstrecken, ermittelt, wie unten mit Bezug auf 12 beschrieben
wird, und in der Nutzersitzungstabelle 43 wird ein Eintrag
vorgenommen, der auf eine entsprechende Mikrotabelle 45A verweist.
Jeder Eintrag innerhalb der Mikrotabelle 45A wiederum umfasst
einen Index auf einen speziellen Eintrag innerhalb der Ergebnistabelle 40B für Webseiten.
Während
der Analyse werden die Zugangsinformationen angepasst, um die Inflation,
wie unten mit Bezug auf 13 beschrieben,
zu beheben.
-
6 ist
ein Flussdiagramm einer Routine zum Erfassen und Zusammenfassen
von Zugangsinformationen (Block 21), die bei dem Verfahren
aus 2 verwendet wird. Sie dient dazu, während des
aktuellen Zeitintervalls iterativ Datenverkehrs-Treffer 11 zu
verarbeiten und danach die Ergebnisse zusammenzufassen. Die Zugangsinformationen
werden nicht hinsichtlich Inflation aufgrund des doppelten, dreifachen
oder mehrfachen Zählens
von offenen Sitzungen, die sich über
mehrere Zeitintervalle erstrecken, angepasst. Eine Inflationsanpassung
ist nicht notwendig, wenn die Zugangsinformationen, die zusammengefasst
werden, lediglich einmal gezählt
werden. Allerdings wird ein weiteres Ausführungsbeispiel des vorliegenden
Verfahrens zum Anpassen der Analyseergebnisse hinsichtlich Inflation,
wo eine solche Anpassung notwendig ist, unten mit Bezug auf die 11 und 12 beschrieben.
-
Die
Routine wird vom Server 10 einmal während jedes Zeitintervalls
ausgeführt.
Zunächst
werden die statischen Ergebnistabellen 40A–D, sofern
solche existieren, initialisiert (Block 50). Die Routine
tritt dann in eine Verarbeitungsschleife ein (Blöcke 51–54),
um fortlaufend einen Strom von Datenverkehrs-Treffern 11 zu bearbeiten.
Ein „Treffer" von Roh-Verkehrsdaten 11 wird
in dem mit Bezug auf 3A beschriebenen Log-File-Format
empfangen (Block 51). Bei dem beschriebenen Ausführungsbeispiel
werden 99% der Datenverkehrs-Treffer 11 aus der (in 1 gezeigten)
Protokolldatei 15 empfangen, wenngleich die Datenverkehrs-Treffer 11 auch
aus anderen Quellen empfangen werden könnten. Als nächstes werden
die Roh-Verkehrsdaten 11 hinsichtlich Zugangsinformationen
analysiert (Block 52). Zugangsinformationen schließen die Inhalte
der Felder des mit Bezug auf 3A beschriebenen
Log-File-Formats
ein, sind aber nicht auf diese beschränkt. Zusätzlich umfassen die Zugangsinformationen
kontextabhängige,
aus dem Treffer abgeleitete Informationen, wie z. B. die jeweilige
Webseite, auf die zugegriffen wurde, den Wochentag, die Tagesstunde
und so weiter. Die Zugangsinformationen werden in den entsprechenden
Ergebnistabellen 40A–D
(Block 53) gespeichert, wie unten mit Bezug auf 7 genauer
beschrieben werden wird. Wenn das aktuelle Zeitintervall noch nicht
beendet ist (Block 54), wird die Verarbeitung mit dem nächsten Datenverkehrs-Treffer 11 am
Beginn der Verarbeitungsschleife fortgesetzt (Blocks 51–54).
Andernfalls, wenn das Zeitintervall beendet ist (Block 54),
werden die Zugangsinformationen in einer Containerdatei 41 zusammengefasst
(Block 55), wie unten mit Bezug auf 8 genauer
beschrieben werden wird, und die Routine springt zurück.
-
7 ist
ein Flussdiagramm einer Routine zur Speicherung der Zugangsinformationen
(Block 53), die in der Routine aus 6 verwendet
wird. Sie dient der iterativen Bestückung jeder der Ergebnistabellen 40A–D mit den
aus jedem Datenverkehrs-Treffer 11 analysierten
und abgeleiteten Zugangsinformationen. Die Zugangsinformationen
sind entsprechend den Ergebnistabellen 40A–D kategorisiert.
Die Routine tritt in eine Verarbeitungsschleife zur fortlaufenden
Bestückung
einer Ergebnistabelle 40A mit Zugangsinformationen ein (Blöcke 60–65),
sofern diese passend sind. Daher wird eine entsprechende Ergebnistabelle 40A lokalisiert (Block 60).
Wenn die Ergebnistabelle 40A nicht statisch ist (Block 61)
und in dieser Ergebnistabelle 40A kein Eintrag zur Speicherung
dieses Typs von Zugangsinformation existiert (Block 62),
so wird ein Eintrag erzeugt (Block 63). Andernfalls, wenn
die Ergebnistabelle 40A dynamisch ist (Block 61)
oder wenn die Ergebnistabelle 40A statisch ist und sogar
schon ein Eintrag zur Speicherung dieses Typs von Zugangsinformation
existiert (Block 62), werden die Zugangsinformationen in
den Eintrag zur Speicherung dieses Typs von Zugangsinformation in
der Ergebnistabelle 40A gespeichert (Block 64).
Solange nicht alle Zugangsinformationen für den aktuellen Datenverkehrs-Treffer 11 in
einer Ergebnistabelle 40A gespeichert wurden (Block 65),
wird die Verarbeitung am Beginn der Verarbeitungsschleife fortgesetzt
(Blöcke 60–65).
-
Andernfalls,
wenn alle Zugangsinformationen gespeichert wurden (Block 65),
springt die Routine zurück.
-
8 ist ein Flussdiagramm einer Routine
zum Zusammenfassen von Zugangsinformationen (Block 55),
welche bei der Routine aus 6 verwendet
wird. Sie dient der iterativen Zusammenfassung jeder der Ergebnistabellen 40A–D in eine
Containerdatei 41, die mit den (in 1 gezeigten)
Analyseergebnissen 18A–C
gespeichert wird. Die Routine tritt in eine Verarbeitungsschleife
zum fortlaufenden Zusammenfassen jeder Ergebnistabelle 40A ein
(Blöcke 70–72).
Demnach wird eine Ergebnistabelle 40A erhalten (Block 70). Die
Ergebnistabelle 40A wird in einer Containerdatei 41 gespeichert,
indem die Ergebnistabelle 40A in die Containerdatei 41 kopiert
wird und das Inhaltsverzeichnis 44 der Containerdatei 41 aktualisiert
wird, um die relative Position der Ergebnistabelle 40A innerhalb
der Containerdatei 41 wiederzugeben. Solange nicht alle Ergebnistabellen 40A–D zusammengefasst
wurden (Block 72), wird die Verarbeitung am Beginn der
Verarbeitungsschleife fortgesetzt (Blöcke 70–72).
Andernfalls, wenn alle Ergebnistabellen 40A–D zusammengefasst wurden
(Block 72), springt die Routine zurück.
-
Bei
den beiden vorangehenden, mit Bezug auf die 7 bzw. 8 beschriebenen Routinen zum Speichern
bzw. Zusammenfassen von Zugangsinformationen, wurde eine iterative
Schleife (Blöcke 60–65 in 7 und
Blöcke 70–72 in 8) zur sequentiellen Verarbeitung jeder
der Ergebnistabellen 40A–D verwendet. Ein weiteres
Ausführungsbeispiel
der vorliegenden Erfindung nutzt hingegen eine Selektionsanweisung
anstelle einer Schleifenkonstruktion, um direkt auf die Ergebnistabelle 40A zuzugreifen.
-
Die 9A und 9B sowie 10 sind
Flussdiagramme von One-Pass- bzw. Two-Pass-Routinen zum Analysieren von Zugangsinformationen,
die bei dem Verfahren aus 2 verwendet
werden. Die One-Pass-Routine (9A und 9B)
minimiert die Anzahl der bei der Analyse der Zugangsinformationen ausgeführten Datenzugriffe.
Die Two-Pass-Routine
(10) minimiert die Anzahl der erforderlichen Programmvariablen.
Abhängig
von der speziellen Konfiguration des Servers 10 oder der
(nicht dargestellten) Workstation, die zur Durchführung der
Analyse verwendet werden, sind beide Routinen gleichermaßen geeignet
zum Analysieren der Zugangsinformationen.
-
Die 9A und 9B sind
das Flussdiagramm einer One-Pass-Routine zum Analysieren von Zugangsinformationen
(Block 22), welche bei dem Verfahren aus 2 verwendet
wird. Sie dient der Analyse und Zusammenfassung der Zugangsinformationen,
die für
ein von einem Nutzer angefragtes Zeitfenster aufgezeichnet wurden,
auf Ad-Hoc-Basis in einem einzelnen Schritt durch die Analyseergebnisse 18A–C. Das Zeitfenster
kann kleiner als, genauso groß wie
oder größer als
das bei der Routine zur Erfassung und Zusammenfassung der Zugangsinformationen
(Block 21 in 2) verwendete Zeitintervall
sein. Die Routine unterteilt das angefragte Zeitfenster automatisch
in kleinere Zeitintervalle und speichert die Analysezusammenfassungen
für jedes
der Zeitintervalle, um so eine größere Flexibilität und Geschwindigkeit
in nachfolgenden Darstellungen des gleichen oder eines entsprechenden
Zeitfensters zu ermöglichen.
-
Kurz
zusammengefasst erzeugt die Routine eine Containerdatei 41 zur
Speicherung zusammengefasster Zugangsinformationen für das angefragte
Zeitfenster, sofern eine solche Containerdatei 41 in den
(in 1 gezeigten) Analyseergebnissen 18A–C nicht
bereits existiert. Die neue Containerdatei 41 wird in den Analyseergebnissen 18A–C geführt, um
bei nachfolgenden Anfragen einen direkten Zugriff zu ermöglichen und
eine wiederholte Analyse der Zeitintervalle zu vermeiden.
-
Die
Routine ist entsprechend dem anwachsenden Verarbeitungsbedarf, welcher
auf der Verfügbarkeit von
zusammengefassten Zugangsinformationen in den Analyseergebnissen 18A–C basiert,
hierarchisch strukturiert. Am unteren Ende der Hierarchie (Blöcke 81–82)
verwendet die Routine jegliche verfügbaren, in einer Containerdatei 41 gespeicherten
Analyseergebnisse 18A–C.
Auf dem nächsten
Niveau der Hierarchie (Blöcke 83–85)
fasst die Routine erfasste aber nicht zusammengefasste Zugangsinformationen
zusammen. Am oberen Ende der Hierarchie (Blöcke 86–87)
erfasst die Routine Roh-Datenverkehrs-Treffer 11 und fasst diese
zusammen. Diese hierarchische Struktur ermöglicht dem Server 10 ein
effizientes Analysieren des Datenverkehrs, indem, wann immer möglich, existierende
Zusammenfassungen 19A–C
verwendet werden, wodurch die Notwendigkeit vermieden werden kann,
Roh-Verkehrsdaten 11 für jedes
Zeitintervall in dem Zeitfenster jedes Mal zu verarbeiten, wenn
eine neue Analyseanfrage gemacht wird.
-
In
der Routine wird das interessierende Zeitfenster definiert (Block 80).
Wenn in einer in den Analyseergebnissen 18A–C gespeicherten
Containerdatei 41 bereits Analysezusammenfassungen für das angefragte Zeitfenster
existieren (Block 81), werden die verfügbaren Analysezusammenfassungen
zusammengefasst (Block 82). Dieser Schritt wird übersprungen,
wenn noch keine Analysezusammenfassungen existieren (Block 81).
Danach wird die nächste
Stufe der Hierarchie ausgeführt,
wenn irgendwelche Analysezusammenfassungen fehlen (Block 83).
Insbesondere, wenn bereits nicht zusammengefasste Analyseergebnisse
für das
Zeitfenster existieren (Block 84), werden die Zugangsinformationen
für jedes
Zeitintervall in dem angefragten Zeitfenster für die nicht zusammengefassten
Analyseergebnisse zusammengefasst (Block 55), wie oben
mit Bezug auf 8 beschrieben wurde.
Diese Analyseergebnisse werden dann zu der Zusammenfassung hinzugefügt (Block 85).
Diese letzten beiden Schritte werden jedoch übersprungen, wenn noch keine
nicht zusammengefassten Analyseergebnisse für das Zeitfenster existieren
(Block 84). Wenn immer noch Analysezusammenfassungen fehlen
(Block 86), wird die letzte Stufe der Hierarchie ausgeführt. Insbesondere
werden Zugangsinformationen für
jedes Zeitintervall in dem angefragten Zeitfenster für die übrigen fehlenden
Analyseergebnisse erfasst und zusammengefasst (Block 21),
wie oben mit Bezug auf 6 beschrieben wurde. Diese Analyseergebnisse
werden dann zu der Zusammenfassung hinzugefügt (Block 87). Sobald
keine weiteren Analyseergebnisse mehr fehlen (Blöcke 83 und 86),
ist die Analyse des angefragten Zeitfensters beendet (Block 88) und
die Routine springt zurück.
-
10 ist
das Flussdiagramm einer Two-Pass-Routine zum Analysieren von Zugangsinformationen, die
bei dem Verfahren aus 2 verwendet wird. Es dient der
Analyse und Zusammenfassung der für ein von einem Nutzer angefragtes
Zeitfenster aufgezeichneten Zugangsinformationen auf Ad-Hoc-Basis
in zwei Schritten durch die Analyseergebnisse 18A–C. Der
erste Schritt (Blöcke 121-21) „inventarisiert" verfügbare Analyseergebnisse 18A–C und erzeugt,
sofern benötigt,
fehlende Analysezusammenfassungen. Der zweite Schritt (Block 125)
erfasst und beendet die Analyse.
-
In
der Routine wird das interessierende Zeitfenster definiert (Block 120).
Die bereits in einer in den Analyseergebnissen 18A–C gespeicherten
Containerdatei 41 existierenden Analysezusammenfassungen
für das
angefragte Zeitfenster werden inventarisiert, um Lücken in
den Daten ausfindig zu machen (Block 121). Wenn Analysezusammenfassungen
fehlen (Block 122), wird die nächste Stufe der Hierarchie
ausgeführt.
Insbesondere, wenn bereits nicht zusammengefasste Analyseergebnisse
für das
Zeitfenster existieren (Block 123), werden die Zugangsinformationen
für jedes
Zeitintervall in dem angefragten Zeitfenster für die nicht zusammengefassten
Analyseergebnisse zusammengefasst (Block 55), wie oben
mit Bezug auf 8 beschrieben wurde.
Dieser Schritt wird jedoch übersprungen,
wenn noch keine nicht zusammengefassten Analyseergebnisse für das Zeitfenster
existieren (Block 123). Wenn immer noch Analysezusammenfassungen
fehlen (Block 124), wird die letzte Stufe der Hierarchie
ausgeführt.
Insbesondere werden Zugangsinformationen für jedes Zeitintervall in dem
angefragten Zeitfenster für
die übrigen
fehlenden Analyseergebnisse erfasst und zusammengefasst (Block 21),
wie oben mit Bezug auf 6 beschrieben wurde. Die Analyse
des angefragten Zeitfensters wird dann beendet (Block 125)
und die Routine springt zurück.
-
11 ist
eine graphische Darstellung der Anzahl der geöffneten Sitzungen, die von
dem Server aus 1 empfangen werden, als Funktion
der Zeit. Wie oben erläutert,
geht das mit Bezug auf die 6–9 beschriebene Verfahren davon aus, dass
die Zugangsinformationen nicht durch doppeltes, dreifaches oder
mehrfaches Zählen
von offenen, sich über
mehrere Zeitintervalle erstreckenden Sitzungen aufgebläht sind.
Diese Form der Anpassung ist nicht notwendig, wo die Zugangsinformationen
nur einmal während
der ganzen Nutzersitzung gezählt
werden. Viele Typen von Datenverkehrs-Treffern 11, wie
z. B. Zugriffe auf Webseiten, können
jedoch zu einer mehrfachen Zählung
führen.
In der graphischen Darstellung in 11 ist
die Anzahl an offenen Sitzungen 90 als Funktion der Zeit
gezählt.
Jeder neue Datenverkehrs-Treffer 11 führt zur Zählung einer zusätzlichen
offenen Sitzung. Die Grenze zwischen zwei Zeitintervallen 91 liegt
inmitten eines „Buckels" 92 von
mehrfach gezählten
offenen Sitzungen, was die Anzahl an gezählten offenen Sitzungen 90 aufbläht. Der „Buckel" 92 tritt
auf, da jede offene Sitzung in den Ergebnistabellen 40A–D für jedes
einzelne Zeitintervall eigentlich zweimal, dreimal oder mehrmals
gezählt
wird. Das Ergebnis ist eine überhöhte Figur
für die
Anzahl an offenen Sitzungen, in denen auf die interessierenden Daten
zugegriffen wurde.
-
Es
werde beispielsweise angenommen, dass der Server 10 Analyseergebnisse 18A einmal
pro 24-Stunden-Zeitintervall, beginnend um 00:00:00 und endend um
23:59:59, speichert. Nutzer, die z. B. von 23:50:00 bis 00:30:00
auf den Server 10 zugreifen, werden zweimal registriert
werden: einmal in den Analyseergebnissen 18A für das erste
Zeitintervall und einmal in den Analyseergebnissen für das zweite
Zeitintervall. Es werde angenommen, das Interesse gelte der Anzahl
an offenen Sitzungen, in denen auf eine spezielle Webseite zugegriffen
wurde und das interessierende Zeitfenster sei genau das erste und
zweite Zeitintervall. Jeder neue Datenverkehrs-Treffer 11 für diese
Webseite, die von einem Nutzer mit einer in das Zeitintervall zwischen
23:50:00 und 00:30:00 fallenden offenen Sitzung angefragt wurde,
führt zu
einer doppelten Zählung für das zweite
Zeitintervall, wenn dieser Nutzer bereits während des ersten Zeitintervalls
auf diese Webseite zugegriffen hat. Die Zusammenfassung des Zeitfensters
des ersten und zweiten Zeitintervalls wird überhöht sein, solange die Doppelzählungen
nicht von der Anzahl der offenen Sitzungen für diese Webseite für das zweite
Zeitintervall subtrahiert werden.
-
Zur
Lösung
dieses Problems bringt ein weiteres Ausführungsbeispiel der vorliegenden
Erfindung zusätzliche
Schritte in das mit Bezug auf die 6–9 beschriebene Verfahren ein, um sich mit
jeder Analysezusammenfassung an die Anzahl der am Ende des Zeitintervalls
verbleibenden offenen Sitzungs-Zugriffe zu „erinnern" und diese zu speichern. Dadurch ist
es dem Verfahren möglich,
diese offenen, sich über
zwei oder mehrere Zeitintervalle erstreckenden Sitzungen zu zählen und
die Analysezusammenfassungen entsprechend zu korrigieren.
-
Wenn
ein Nutzer z. B. auf den Server 10 vom Tag X um 23:50:00
bis zum Tag X + 1 um 00:30:00 zugreift, speichert der Server 10 die
Nutzerkennung, wie z. B. den Nutzernamen, die Internetprotokolladresse, den
Cookie oder eine andere Angabe, mit der Analysezusammenfassung des
Tages X. Wenn später
die Analysezusammenfassungen für
die Tage X und X + 1 kombiniert werden, kann die Anzahl der offenen
Sitzungen angepasst werden, um jegliche Mehrfachzählung auszugleichen.
-
Die
zusätzlichen
Schritte werden sowohl in die Routine zum Erfassen und Zusammenfassen
von Zugangsinformationen (Block 21 in 2)
eingebracht, um sich an Mehrfachzählungen zu „erinnern", als auch in die Routine zum Analysieren
der Zugangsinformationen (Block 22 in 2),
um die Zählungen
der offenen Sitzungen während
der Analyse anzupassen. 12 ist
ein Flussdiagramm von Schritten zum Anpassen der Erfassung von Zugangsinformationen
hinsichtlich Inflation, die in der Routine aus 6 verwendet
werden und nach dem Schritt des Zusammenfassens der Zugangsinformationen
(Block 55) eingefügt
werden. Sofern Sitzungen am Ende des Zeitintervalls offen bleiben
(Block 101), wird somit die Anzahl an offenen Sitzungen mit
den Analyseergebnissen gespeichert und die Nutzersitzungstabelle 43 wird
mit der relativen Position jeder der zugeordneten Mikrotabellen 45A–D in der
Containerdatei 41 aktualisiert (Block 102). Andernfalls,
wenn keine offenen Sitzungen vorhanden sind, sind keine weiteren
Schritte erforderlich.
-
13 ist
ein Flussdiagramm von Schritten zum Anpassen der Analyse von Zugangsinformationen hinsichtlich
Inflation, die in den Routinen aus den 9A und 9B sowie 10 verwendet
werden und die nach jedem Schritt, bei dem die Zusammenfassung von
Analyseergebnissen aktualisiert wird (Blöcke 82, 85 und 87 in
den 9A und 9B und
Block 127 in 10), eingefügt werden. Demnach wird das
Zeitintervall in dem angefragten Zeitfenster ausgewählt (Block 111).
Wenn dies nicht das letzte Zeitintervall in dem angefragten Zeitfenster
ist (Block 112), wird die Anzahl an offenen Sitzungen für das vorangehende
Zeitintervall von den Analyseergebnissen für das aktuelle Zeitintervall
abgezogen (Block 112), wodurch die Zählung korrigiert wird und die
Verarbeitung wird mit dem nächsten
Zeitintervall in dem angefragten Zeitfenster fortgesetzt (Block 111).
Andernfalls, wenn dies das letzte Zeitintervall in dem angefragten
Zeitfenster ist (Block 112), ist die Verarbeitung abgeschlossen.
-
Bei
dem beschriebenen Ausführungsbeispiel
wird die Anzahl der offenen Sitzungen, die bestimmten Typen von
Datenwerten entsprechen, die zur Verwendung in den (in Tabelle 1
aufgelisteten) Zusammenfassungen 19A–C erfasst werden, lediglich
einmal gezählt.
Dies sind die Datentypen, die sich im Allgemeinen wahrscheinlich
nicht ändern,
und sie umfassen z. B. die verweisende Webseite, die Stadt, den
Staat, das Land, den Wochentag, die Region, den Organisationstyp,
den Browser- und den Betriebssystem- Typ. Es werden keine Mikrotabellen 45A–C zur Anpassung
der Zählungen
der diesen Datentypen entsprechenden offenen Sitzungen benötigt. Die
Anzahl der offenen Sitzungen, die allen anderen Datenwerttypen entsprechen,
wird hingegen fortlaufend während
der ganzen Nutzersitzung gezählt.
Für diese
Datentypen sind Mikrotabellen 45A–C erforderlich.
-
Sitzungszählungen
werden unabhängig
vom Datentyp für
jede der Zusammenfassungen 19A–C aufrechterhalten, obwohl
die Sitzungszählungen
bei der Analyse der Zugangsinformationen (Block 22) nicht
notwendigerweise verwendet werden, um die entsprechenden Ergebnistabellen 40A–D zu korrigieren.
Auch werden für
diese nicht angepassten Ergebnistabellen 40A–D keine
Mikrotabellen 45A–C
geführt.
Allerdings erfordert die Umwandlung von nicht angepassten Ergebnistabellen 40A–D in angepasste
Ergebnistabellen 40A–D lediglich
das Bilden einer zugehörigen
Mikrotabelle 45A. Diese Umwandlung wäre z. B. dort notwendig, wo
ein ehemals einmal pro Sitzung gezählter Datentyp derart abgeändert wird,
dass er fortlaufend gezählt
werden kann.
-
Nachdem
die Grundsätze
der Erfindung anhand eines bevorzugten Ausführungsbeispiels beschrieben und
dargestellt wurden, sollte offensichtlich sein, dass die Erfindung
in ihrer Ausgestaltung und im Detail modifiziert werden kann, ohne
von diesen Grundsätzen
abzuweichen. Der Schutzbereich der Erfindung wird durch die folgenden
Ansprüche
begrenzt.