DE69838751T2

DE69838751T2 - System und verfahren zur analyse von entfernten verkehrsdaten in einer verteilten rechnerumgebung

Info

Publication number: DE69838751T2
Application number: DE69838751T
Authority: DE
Inventors: William Glen Portland BOYD; Elijahu Portland SHAPIRA
Original assignee: Webtrends Inc
Current assignee: Webtrends Inc
Priority date: 1997-02-14
Filing date: 1998-02-13
Publication date: 2008-10-30
Anticipated expiration: 2018-02-14
Also published as: US7206838B2; EP0983581A4; US6662227B2; EP0983581A2; US8195794B2; WO1998038614A2; ES2297879T3; US20040088407A1; WO1998038614A3; US20100217767A1; US7734772B2; US6112238A; AU746658B2; US20070198707A1; AU6324898A; CA2280961C; DE69838751D1; EP0983581B1; US6360261B1; CA2280961A1

Description

HINTERGRUND DER ERFINDUNG
Diese Erfindung bezieht sich im Allgemeinen auf die Analyse von Remote-Datenverkehr und im Besonderen auf ein System und ein Verfahren zum Analysieren von Remote-Datenverkehr in einer dezentralisierten Rechnerumgebung.
Das World Wide Web (im Folgenden „Web") ist dabei, sich rasant zu einem der wichtigsten Publikationsmedien heutzutage zu entwickeln. Der Grund dafür ist einfach: über das Internet miteinander verbundene Webserver bieten einen Zugang zu einer potentiell weltweiten Zielgruppe, bei einer minimalen Investition in Zeit und in Hilfsmittel zum Erstellen einer Webseite. Der Webserver macht eine große Auswahl von Medien in einer Vielzahl von Formaten, einschließlich Audio- und Videoformat, herkömmlichen Texten und Grafiken, zum Auffinden und Einstellen verfügbar. Und die Leichtigkeit, mit der eine Webseite erstellt werden kann, lässt das Erreichen dieser weltweiten Zielgruppe für alle Typen von Nutzern Wirklichkeit werden, von Unternehmen über neu gegründete Firmen bis hin zu Organisationen und Privatpersonen.
Anders als andere Medienformen ist eine Webseite interaktiv und der Webserver kann passiv Zugangsinformationen über jeden Nutzer sammeln, indem die zwischen dem Webserver und dem Nutzer ausgetauschten Datenverkehrspakete beobachtet und aufgezeichnet werden. Wichtige Daten über die Nutzer können direkt oder schlussfolgernd bestimmt werden, indem der Datenverkehr und der Kontext des „Treffers" analysiert werden. Darüber hinaus kann über einen längeren Zeitraum gesammelter Datenverkehr statistische Informationen liefern, wie z. B. die Anzahl von Nutzern, die die Seite jeden Tag aufrufen, aus welchen Ländern, Staaten oder Städten die Nutzer sich einloggen, sowie den nutzungsintensivsten Tag oder die nutzungsintensivste Stunde der Woche. Solche statistischen Informationen sind hilfreich beim Maßschneidern von Marketingstrategien oder unternehmerischen Strategien, um sich an die offenkundigen Bedürfnisse der Zielgruppe besser anpassen zu können.
Um die Verwendung dieser statistischen Informationen zu optimieren, muss die Webserver-Verkehrsanalyse in angemessener Zeit erfolgen. Allerdings ist es für einen Webserver nicht unüblich, täglich tausende von Nutzern zu verarbeiten. Die resultierenden, vom Webserver aufgezeichneten Zugangsinformationen laufen auf einen Datenverkehr in Megabyte-Größenordnung hinaus. Einige Webserver generieren einen täglichen Datenverkehr in Gigabyte-Größenordnung. Das Analysieren des Datenverkehrs, um Trends zu ermitteln oder Statistiken zu erstellen, ist selbst für einen einzigen Tag rechenintensiv und zeitaufwändig. Darüber hinaus wächst die Verarbeitungszeit, die zur Analyse des Datenverkehrs für mehrere Tage, Wochen oder Monate benötigt wird, linear mit der Zunahme des interessierenden Zeitfensters an.
Das Problem, eine Verkehrsanalyse effizient und in angemessener Zeit durchzuführen, tritt nicht nur bei Webservern auf. Vielmehr ist die Analyse von Datenverkehr immer dann möglich, wenn Datenverkehr beobachtbar ist und auf eine einheitliche Weise aufgezeichnet werden kann, wie z. B. in einer dezentralisierten Datenbank, in einem Client-Server-System oder in einer anderen Remote-Zugriffsumgebung.
Ein aus dem Stand der Technik bekanntes Analyseprogramm für Webserververkehr ist in „WebTrends Installation and User Guide", Version 2.2, Oktober 1996, beschrieben. WebTrends ist eine Marke, z. B. für Software, Portland, Oregon. Allerdings kann dieses aus dem Stand der Technik bekannte Analyseprogramm keine Ad-hoc-Abfragen unter Verwendung eines Protokoll-basierenden Archivs von Analysezusammenfassungen für eine effiziente Durchführung ausführen.
Andere aus dem Stand der Technik bekannte Analyseprogramme für Webserververkehr sind im Allgemeinen effizient in der Verarbeitung von Server-Datenverkehr mit mäßigem Umfang, wenn sie auf einem Kleinserver oder einem Nicht-Mainframe-System laufen. Beispiele für diese Analyseprogramme sind Market Focus, lizenziert durch Intersé Corporation, Hit List, lizenziert durch MarketWave und Net.Analysis, lizenziert durch Net.Genisys. Allerdings erfordern diese Analyseprogramme zunehmend teure und komplexe Hardware-Systeme zur Verarbeitung größerer Datenverkehrsmengen. Letzteres ist für die Mehrheit der Webserverbetreiber nicht zu realisieren. Darüber hinaus sind diese aus dem Stand der Technik bekannten Analyseprogramme auch nicht in der Lage, schnell Trendinformationen und statistische Informationen auf Ad-hoc-Basis zu erstellen.
Die Veröffentlichung „From user access Patterns to dynamic hypertext linking" von TAK W.Y. ET AL., COMPUTER NETWORKS AND ISDN SYSTEMS, NORTH HOLLAND PUBLISHING. AMSTERDAM, NL, Vol. 28, No. 11, 1 Mai 1996, Seiten 1007-1014, offenbart ein System zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung, wobei die dezentralisierte Rechnerumgebung eine Vielzahl von verbundenen Systemen umfasst, die an einen Server gekoppelt sind und mit diesem zusammenwirken und welcher darauf ausgerichtet ist, Datenpakete mit jedem der verbundenen Systeme auszutauschen.
Die Veröffentlichung „Grouping Web Page references into transactions for mining World Wide Web browsing Patterns" von COOLEY R. ET AL., KNOWLEDGE AND DATA ENGINEERING EXCHANGE WORKSHOP, 1997, Seiten 2-9, offenbart ein allgemeines Modell zur Transaktions-Identifikation für das Web Usage Mining, die Anwendung von Datamining und Wissensermittlungstechniken auf WWW-Server-Zugangs-Logdateien.
Daher besteht ein Bedarf hinsichtlich eines Systems und eines Verfahrens zur effizienten Verarbeitung der umfangreichen, von Webservern generierten Zugangsinformationen in einer zeitlich angemessenen, sinnvollen Weise, ohne die zusätzlichen Kosten, die mit in großem Umfang erforderlicher Hardware verbunden sind. Vorzugsweise könnten ein solches System und Verfahren Ad-hoc-Abfragen von Analysezusammenfassungen in einer zeitlich angemessenen und präzisen Weise durchführen.
Es besteht ein weiterer Bedarf hinsichtlich eines Systems und eines Verfahrens zur effizienten Analyse von Datenverkehr, welches Zugangsinformationen über einen Webserver widerspiegelt, der in einer dezentralisierten Rechnerumgebung läuft. Vorzugsweise würde ein solches System und Verfahren Datenverkehr aus einer Vielzahl von Quellen verarbeiten.
Es besteht darüber hinaus ein Bedarf hinsichtlich eines Systems und eines Verfahrens zur Analyse von Datenverkehr, welcher aus Zugangsinformationen für vordefinierte Zeitintervalle besteht.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung umfasst ein System und ein Verfahren zum Analysieren von Remote-Datenverkehr in einer dezentralisierten Rechnerumgebung in einer zeitlich angemessenen und präzisen Weise.
Ein Ausführungsbeispiel der vorliegenden Erfindung ist ein System, ein Verfahren und ein Speichermedium, welches einen computerlesbaren Code zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung enthält. Die dezentralisierte Rechnerumgebung umfasst eine Vielzahl von verbundenen Systemen, die an einen Server gekoppelt sind und mit diesem zusammenwirken, eine Quelle von Datenverkehrs-Treffern und eine oder mehrere durch einen zugehörigen Datentyp kategorisierte Ergebnistabellen. Jede Ergebnistabelle umfasst eine Vielzahl von Einträgen. Der Server ist darauf ausgerichtet, Datenpakete mit jedem der verbundenen Systeme auszutauschen. Jeder Datenverkehrs-Treffer entspricht einem zwischen dem Server und einem solchen verbundenen System ausgetauschten Datenpaket. Jeder Datenverkehrs-Treffer wird aus der Datenverkehrs-Treffer-Quelle als Zugangsinformation in einem solchen Eintrag in wenigstens einer Ergebnistabelle entsprechend dem mit der einen solchen Ergebnistabelle verbundenen Datentyp erfasst. Jeder der Einträge in der Ergebnistabelle entspricht einer anderen Art von Zugangsinformation für den mit der Ergebnistabelle verbundenen Datentyp. Die während eines Zeitintervalls in den Ergebnistabellen erfassten Zugangsinformationen werden periodisch zu Analyseergebnissen zusammengefasst. Das Zeitintervall entspricht einem diskreten Auswertungszeitraum. Die Zugangsinformationen aus den Ergebnistabellen in den Analyseergebnissen werden analysiert, um Analysezusammenfassungen entsprechend den mit den Ergebnistabellen verbundenen Datentypen zu bilden.
Das Vorangehende sowie weitere Merkmale und Vorteile der Erfindung werden leichter ersichtlich anhand der folgenden detaillierten Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung, welche auf die beigefügten Zeichnungen Bezug nimmt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Funktions-Blockdiagramm eines erfindungsgemäßen Systems zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung.
2 ist ein Flussdiagramm eines erfindungsgemäßen Verfahrens zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung, welches das System aus 1 verwendet.
3A zeigt ein Format, welches bei der Speicherung eines von dem Server aus 1 empfangenen Datenverkehrs-„Treffers” verwendet wird.
3B zeigt beispielhaft einen von dem Server aus 1 empfangenen formatierten Datenverkehrs-„Treffer”.
4 ist ein Blockdiagramm der Datenstrukturen, die bei der Speicherung von Zugangsinformationen, welche aus den Datenverkehrs-Treffern aus 3A bestimmt werden, verwendet werden.
5 ist ein Blockdiagramm einer Containerdatei, welche die Zugangsinformationen in den Analyseergebnissen aus 1 speichert.
6 ist ein Flussdiagramm einer Routine zum Erfassen und Zusammenfassen von Zugangsinformationen, die bei dem Verfahren aus 2 verwendet wird.
7 ist ein Flussdiagramm einer Routine zum Speichern von Zugangsinformationen, welche bei der Routine aus 6 verwendet wird.
8 ist ein Flussdiagramm einer Routine zum Zusammenfassen von Zugangsinformationen, welche bei der Routine aus 6 verwendet wird.
9A und 9B sind ein Flussdiagramm einer One-Pass-Routine zum Analysieren von Zugangsinformationen, welche bei dem Verfahren aus 2 verwendet wird.
10 ist ein Flussdiagramm einer Two-Pass-Routine zum Analysieren von Zugangsinformationen, welche bei dem Verfahren aus 2 verwendet wird.
11 ist eine graphische Darstellung der Anzahl an geöffneten Sitzungen, die von dem Server aus 1 empfangen werden, als Funktion der Zeit.
12 ist ein Flussdiagramm von Schritten zum Anpassen der Erfassung von Zugangsinformationen hinsichtlich Inflation, die in der Routine aus 6 verwendet werden.
13 ist ein Flussdiagramm von Schritten zum Anpassen der Analyse von Zugangsinformationen hinsichtlich Inflation, die in der Routine aus den 9A und 9B sowie 10 verwendet werden.
DETAILLIERTE BESCHREIBUNG
1 ist ein Funktions-Blockdiagramm eines erfindungsgemäßen Systems zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung 9. Ein Server 10 stellt Webseiten-Dienste und damit verbundene Dienste für Remote-Nutzer bereit. Beispielsweise können die Remote-Nutzer auf den Server 10 von einem Remote-Computersystem 12 aus zugreifen, welches mit dem Server 10 über eine Netzwerkverbindung 13, wie z. B. das Internet oder ein internes Netzwerk, über eine Einwahl-(oder Stand-)verbindung 14 oder über eine direkte (festgeschaltete) Verbindung 17 verbunden ist. Andere Typen von Remote-Zugriffsverbindungen sind ebenso möglich.
Jeder Zugriff auf den Server 10 durch einen Remote-Nutzer führt zu einem „Treffer" bei den Roh-Verkehrsdaten 11. Das zur Speicherung jedes Datenverkehrs-Treffers 11 verwendete Format sowie ein Beispiel eines Datenverkehrs-Treffers 11 werden unten mit Bezug auf die 3A bzw. 3B beschrieben. Der Server 10 speichert jeden Datenverkehrs-Treffer 11 vorzugsweise in einer Protokolldatei 15, wenngleich auch eine Datenbank 16 oder eine andere Speicherstruktur verwendet werden kann.
Zum Analysieren des Datenverkehrs untersucht der Server 10 jeden Datenverkehrs-Treffer 11 und speichert die aus dem Datenverkehr gewonnenen Zugangsinformationen als Analyseergebnisse 18A–C. Es werden fünf Quellen von Datenverkehr 11 gezeigt (Remote-System 12, Einwahlverbindung 14, Protokolldatei 15, Datenbank 16 und direkte Verbindung 17). Andere Quellen sind ebenfalls möglich. Die Datenverkehrs-Treffer 11 können aus einer beliebigen einzelnen Quelle oder aus einer Kombination dieser Quellen stammen. Während der Server 10 fortlaufend Datenverkehrs-Treffer 11 empfängt, werden einzelne Sätze von Analyseergebnissen 18A-C für jeden diskreten, als Zeitintervall bezeichneten Auswertungszeitraum, gespeichert. Die Analyseergebnisse 18A–C werden für die Erstellung von Zusammenfassungen 19A–C der Zugangsinformationen verwendet.
Bei dem beschriebenen Ausführungsbeispiel handelt es sich bei dem Server 10 typischerweise um ein auf Intel Pentium basierendes Computersystem, welches mit einem Prozessor, einem Speicher, Eingabe-/Ausgabeschnittstellen, einer Netzwerkschnittstelle, einer Sekundärspeichereinheit und einer Benutzerschnittstelle, vorzugsweise in Form einer Tastatur und eines Bildschirms, ausgestattet ist. Der Server 10 läuft üblicherweise unter einem der Betriebssysteme Microsoft Windows NT oder Unix und verwendet entweder Microsoft Internet Information Server oder NetScape Communications Server Software. Pentium, Microsoft, Windows, Windows NT, Unix, Netscape und Netscape Communications Server sind Marken ihrer jeweiligen Inhaber. Jedoch sind auch andere Konfigurationen des Servers 10 möglich, die sich hardwaremäßig, wie z. B. DOS-kompatible Plattformen, Apple Macintosh, Sun-Workstation und andere Plattformen, in den Betriebssystemen, wie z. B. MS-DOS, Unix und andere und in der Web-Software unterscheiden. Apple, Macintosh, Sun und MS-DOS sind Marken ihrer jeweiligen Inhaber.
2 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens 20 zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung, welches das System aus 1 verwendet. Es dient dazu, fortlaufend Zugangsinformationen aus Datenverkehrs-Treffernil zu erfassen und zusammenzufassen, während es On-Demand-, Ad-Hoc-Analysen ermöglicht. Das Verfahren 20 besteht aus zwei Routinen. Zugangsinformationen werden aus Datenverkehrs-Treffern 11 erfasst und vom Server 10 zu Analyseergebnissen 18A–C zusammengefasst (Block 21), wie unten mit Bezug auf 6 genauer beschrieben wird. Die Zugangsinformationen werden gesondert analysiert, um die Zusammenfassungen 19A–C zu erstellen, welche Trends, Statistiken und andere Informationen aufzeigen (Block 22), wie unten mit Bezug auf die 9A und 9B genauer beschrieben wird. Das Erfassen und Zusammenfassen der Zugangsinformationen (Block 21) erfolgt fortlaufend durch den Server 10, während die Analyse der Zugangsinformationen (Block 22) entweder von dem Server 10 oder von einer separaten (nicht dargestellten) Workstation auf Ad-Hoc-Basis durchgeführt wird.

Das Verfahren 20 wird vorzugsweise als ein Computerprogramm implementiert, welches von dem Server 10 ausgeführt wird und welches auf einem einen computerlesbaren Code umfassenden Speichermedium enthalten ist. Bei dem beschriebenen Ausführungsbeispiel ist das Verfahren 20 in der Programmiersprache C geschrieben, wobei andere Programmiersprachen gleichermaßen geeignet sind. Es läuft in einer Microsoft Windows-Umgebung und kann Common Logfile-, Combined Logfile- und proprietäre Logfile-Formate von Standard-Webservern analysieren, wie z. B. die von NetScape, NCSA, O'Reilly WebSite, Quarterdeck, C-Builder, Microsoft, Oracle, EMWAC und anderen Windows 3.x, Windows NT 95, Unix und Macintosh Webservern lizenzierten. Die Analyseergebnisse 18A–C können in einer proprietären Datenbank oder in einer Standarddatenbank 16 (dargestellt in 1) gespeichert werden, wie z. B. SQL, BTRIEVE, ORACLE, INFORMIX und anderen. Das Verfahren 20 verwendet die Analyseergebnisse 18A–C aus Datenverkehrs-Treffern 11, wie sie in der Protokolldatei 15 oder der Datenbank 16 erfasst sind, zum Erstellen von Aktivitätszusammenfassungen, geographischen, demographischen und anderen Zusammenfassungen 19A–C, wie sie in der untenstehenden Tabelle 1 aufgelistet sind. Andere Zusammenfassungen 19A–C sind ebenso möglich. Tabelle 1

Benutzerprofil nach Regionen	Allgemeine Statistiktabelle
Meist aufgerufene Seiten	Am wenigsten aufgerufene Seiten
Haupt-Eingangsseiten	Haupt-Ausgangsseiten
Einzelzugriffsseiten	Haupt-Pfade durch eine Webseite
Werbedarstellungen	Werbeklicks
Werbedarstellungen und -klicks	Meist heruntergeladene Dateien
Aktivste Organisationen	Aktivste Länder
Summe der Aktivitäten nach Wochentag	Summe der Aktivitäten nach Tag
Summe der Aktivitäten nach Tagesstunde	Level der Summe der Aktivitäten nach
	Tagesstunden
Webserver Statistik und Analyse	Client-Fehler
Meist heruntergeladene Dateitypen und	Server-Fehler
-größen
Aktivität nach Organisationstyp	Meist aufgerufene Verzeichnisse
Meist verweisende Seiten	Meist verweisende URL's
Haupt-Browser	Netscape-Browser
Microsoft Explorer-Browser	Besuchende Spider
Haupt-Plattformen

Zusätzlich können die Analyseergebnisse 18A–C zum automatischen Erstellen von Berichten und Zusammenfassungen verwendet werden, welche statistische Informationen und Graphen umfassen, die beispielsweise Nutzeraktivität in Abhängigkeit vom Markt, Niveau des Interesses an bestimmten Webseiten oder Diensten, die populärsten Produkte, ob ein Nutzer lokaler, nationaler oder internationaler Herkunft ist und ähnliche Informationen darstellen. Bei dem beschriebenen Ausführungsbeispiel können die Zusammenfassungen 19A–C als Berichte in vielen verschiedenen Formaten erstellt werden. Diese Formate umfassen Hypertext-Markup-Language-Dateien (HTML), die mit der Mehrheit der gängigen Webbrowser kompatibel sind, proprietäre Dateiformate zur Verwendung mit Textverarbeitung, Tabellenkalkulation, Datenbanken und anderen Programmen, wie Microsoft Word, Microsoft Excel, ASCII Dateien sowie verschiedene andere Formate. Word und Excel sind Marken der Microsoft Corporation, Redmont, Washington.
3A zeigt ein Format, welches zur Speicherung eines von dem Server in 1 empfangenen „Treffers" von Roh-Verkehrsdaten 11 verwendet wird. Ein Roh-Datenverkehrs-Treffer 11 hat nicht das in 3A dargestellte Format. Vielmehr werden die Inhalte von jedem Feld des Formats von den Datenpaketen bestimmt, die zwischen dem Server 10 und der Quelle der Datenverkehrs-Treffer 11 ausgetauscht werden und die aus den Datenpaketen gewonnenen Informationen werden unter Verwendung des Formats aus 3A in einem Datensatz gespeichert, bevor sie in der (in 1 dargestellten) Protokolldatei 15 gespeichert oder verarbeitet werden.

Jeder Datenverkehrs-Treffer 11 ist ein formatierter String von ASCII-Daten. Das Format basiert auf dem von der National Computer Security Association (NCSA) entwickelten Standard-Logfile-Format, dem Standard-Protokollformat, welches von den meisten Webservern verwendet wird. Das Format besteht aus folgenden sieben Feldern:

Name des Feldes	Beschreibung
Benutzeradresse (30):	Internetprotokoll-(IP-)adresse oder Domgin-Name
	des die Seite aufrufenden Nutzers.
RFC931 (31):	Obsoletes Feld, welches üblicherweise leer bleibt,
	jedoch von vielen Webservern immer häufiger
	verwendet wird, um den Host-Domain-Namen für multihomed
	Protokolldateien zu speichern.
Nutzer-Authentisierung (32):	Tauscht den Benutzernamen, wenn erforderlich,
	zwecks Zugriffs auf die Webseite aus.
Datum/Uhrzeit (33):	Datum und Uhrzeit des Zugriffs sowie die
	Zeitverschiebung zur mittleren Greenwich-Zeit (GMT).
Anfrage (34):	Entweder GET-Befehl (eine Seiten-Anfrage) oder
	POST-Befehl (eine Form-Eingabe).
Antwort-Code (35):	Antwort-Status der Anfrage, welcher angibt, ob der
	Transfer erfolgreich war.
Transfer-Größe (36):	Anzahl der für die Dateianfrage übermittelten Bytes,
	d. h. die Dateigröße.

Zusätzlich können drei optionale Felder wie folgt verwendet werden:

Name des Feldes	Beschreibung
Verweisende Seite (37):	Internetadresse, die verwendet wurde, um Webseiten-Informationen
	zur Erzielung des „Treffers" zu erhalten.
Agent (38):	Browser-Version, einschließlich Marke, Modell oder
	Versionsnummer und Betriebssystem.
Cookie (39):	Eindeutige Identifizierung, die permissiv verwendet
	wird, um einen einzelnen Nutzer zu identifizieren.

Andere Formate von Datenverkehrs-Treffern 11 sind ebenso möglich, einschließlich proprietärer Formate, die zusätzliche Felder enthalten, wie z. B. Übertragungszeit, Art der Dienstleistungserbringung und andere. Darüber hinaus treten ständig Veränderungen und Zusätze zu den Formaten der Roh-Datenverkehrs-Treffer 11 auf, und einem Fachmann auf diesem Gebiet wären die Erweiterungen bekannt, die die vorliegende Erfindung zum Umgang mit derart veränderlichen Formaten erfordert.
3B zeigt beispielhaft einen von dem Server aus 1 empfangenen „Treffer" der Roh-Verkehrsdaten. Das Feld der Benutzeradresse 30 ist „tarpon.gulf.net", welches anzeigt, dass der Nutzer aus einer Domain namens „gulf.net" stammt, die sich auf einem „tarpon" genannten Rechner befindet. Die Felder RFC931 31 und Nutzer-Authentisierung 32 sind „-„, was leere Einträge bedeutet. Das Feld Datum/Uhrzeit 33 ist „12/Jan/1996:20:38:17 +0000", was einen Zugriff am 12. Januar 1996 um 20:38:17 GMT anzeigt. Das Feld Anfrage 34 ist „GET/general.htm HTTP/1.0", was anzeigt, dass der Nutzer die „general.htm"-Seite angefragt hat. Die Felder Antwort-Code 35 und Transfer-Größe 36 sind 200 bzw. 3599, was eine erfolgreiche Übertragung von 3599 Bytes anzeigt.
4 ist ein Blockdiagramm der Datenstrukturen, die bei der Speicherung von Zugangsinformationen, welche aus den Datenverkehrs-Treffern 11 aus 3A bestimmt werden, verwendet werden. Nutzer greifen fortlaufend auf den Server 10 zu, und in dieser Zeit empfängt der Server 10 eine Serie von „Treffern" von Remote-Nutzern zum Austausch von Informationen, wie z. B. das Zugreifen auf eine Webseite oder das Einstellen einer Datei. Nutzer werden mittels der Nutzer-Internetprotokolladresse (IP) oder des Domain-Namens identifiziert. Die Zeit, während der der Nutzer aktiv auf den Server 10 zugreift, ist bekannt als eine Sitzung. Eine offene Sitzung ist definiert als eine Periode aktiver Aktivität für einen Nutzer des Servers 10. Standardmäßig wird eine Nutzer-Sitzung beendet, wenn ein Nutzer länger als 30 Minuten nicht aktiv ist, wenngleich andere zeitliche Begrenzungen ebenso möglich sind. Eine geöffnete Nutzersitzung kann sich über zwei oder mehr Zeitintervalle erstrecken, was die Zahl offener Sitzungen bei der Analyse der Zugangsinformationen (Block 22) künstlich in die Höhe treiben kann, wie unten mit Bezug auf 11 weiter beschrieben werden wird.
Jeder Datenverkehrs-Treffer 11 wird analysiert, um entsprechende Zugangsinformationen zu erhalten. Während ein Datenverkehrs-Treffer 11 vornehmlich formatierte Daten enthält, wie mit Bezug auf 3A beschrieben, sind Zugangsinformationen umfassender und schließen aus dem Kontext des „Treffers" abgeleitete Daten ein, wie z. B. die Stadt oder der Staat der verweisenden Seite. Bei dem beschriebenen Ausführungsbeispiel wird eine (nicht gezeigte) Datenbank sowohl von US-Internetadressen als auch von internationalen Internetadressen geführt, welche den vollständigen Firmennamen, die Stadt, den Staat und das Land umfasst, um solche indirekten Zugangsinformationen über jeden Nutzer abzuleiten. Die Zugangsinformationen werden dann verwendet, um damit einen Satz von Ergebnistabellen 40A–D zu bestücken. Jede Tabelle speichert einen eigenen Typ von Zugangsinformation, wie z. B. den Staat, die Stadt oder das Land des Nutzers, die Seite innerhalb der Website, auf die zugegriffen wurde, die Ausgangs-Webseite, einen Universal Resource Locator (URL) und andere, entweder direkt oder indirekt aus den Datenverkehrs-Treffern 11 ableitbare Informationen. Am Ende des Zeitintervalls werden die Ergebnistabellen 40A–D zu einer Containerdatei 41 zusammengefasst, die unten mit Bezug auf 5 genauer beschrieben wird und die in den Analyseergebnissen 18A–C gespeichert wird.
Die Ergebnistabellen 40A–C sind entsprechend dem Typ der gezählten Zugangsinformation kategorisiert und jede Ergebnistabelle 40A enthält einen Satz von Einträgen 42 zur Speicherung der Zugangsinformationen. Bei dem beschriebenen Ausführungsbeispiel gibt es zwei Typen von Tabellen. Statische Tabellen enthalten einen festgelegten und vordefinierten Satz von Einträgen 42, wie z. B. den Satz an Seiten in der erfassten Website. Dynamische Tabellen haben eine unbestimmte Länge und können keine oder mehr Einträge umfassen. Jedes Mal, wenn eine neue Zugangsinformation auftritt, muss in den Ergebnistabellen 40A ein neuer Eintrag 42 erzeugt werden.
In einer dynamischen Ergebnistabelle 40A zur Speicherung des Staates, aus dem der Nutzer stammt, könnte ein Eintrag z. B. enthalten „TX:5, 500", was anzeigt, dass der Staat des Nutzers Texas ist, mit fünf Nutzersitzungen und 500 bislang aufgezeichneten Einträgen. Wenn der nächste Datenverkehrs-Treffer 11 von einem neuen Nutzer aus Texas stammt, wird dieser Eintrag 42 auf „TX:6, 501" aktualisiert, was sechs Nutzersitzungen mit 501 Treffern anzeigt. Wenn der nächste Datenverkehrs-Treffer 11 von noch einem weiteren neuen Nutzer aus Kalifornien stammt, wird ein neuer Eintrag 42 der Form „CA:1, 1" erzeugt, was anzeigt, dass der Staat des Nutzers Kalifornien ist mit einer Nutzersitzung und einem Treffer. Um während jedes Zeitintervalls die offenen Nutzersitzungen ausfindig zu machen, führt der Server 10 zusätzlich zu dem Satz von Ergebnistabellen 40A–D eine Nutzersitzungstabelle 43, welche bei einem weiteren, unten mit Bezug auf die 12–13 beschriebenen Ausführungsbeispiel verwendet wird.
5 ist ein Blockdiagramm einer Containerdatei 41, welche die Zugangsinformationen in den Analyseergebnissen 18A–C aus 1 speichert. Jede Containerdatei 41 umfasst ein Inhaltsverzeichnis 44, welches die relativen Positionen jeder Ergebnistabelle 40A–D innerhalb der Containerdatei 41 abbildet. Die Nutzersitzungstabelle 43 wird ebenfalls in der Containerdatei 41 gespeichert und umfasst eine Reihe von Adressenverweisen auf einen Satz von Mikrotabellen 45A–C. Jede Mikrotabelle 45A–C entspricht einer der Ergebnistabellen 40A–D, welche möglicherweise eine überhöhte Anzahl von offenen Sitzungen enthält. Jeder Eintrag in einer Mikrotabelle 45A enthält einen Index 46, der auf einen Eintrag innerhalb der ihm zugeordneten Ergebnistabelle 40B verweist, welche eine Anpassung hinsichtlich Inflation erfordert. Allerdings ist nicht jeder Ergebnistabelle 40A–D eine Mikrotabelle 45A–C zugeordnet. Vielmehr ist die Gesamtzahl der Mikrotabellen 45A–C kleiner oder gleich der Anzahl der Ergebnistabellen 40A–D, da nicht jede Ergebnistabelle 40A–D aufgeblähte Informationen enthält.
Z. B. wird der Staat, aus dem ein Nutzer stammt, während jeder Sitzung einmal gezählt. Da er nur einmal gezählt wird, ist die Anzahl an offenen Nutzersitzungen für einen beliebigen gegebenen Staat nicht überhöht. Folglich wird für die Ergebnistabelle 40A für Staaten keine Mikrotabelle 45 benötigt. Umgekehrt kann auf eine Seite einer Website während einer offenen Sitzung viele Male zugegriffen werden. Dementsprechend wird eine Mikrotabelle 45A benötigt. In der Nutzersitzungstabelle 43 wird die Anzahl an offenen Sitzungen, die sich über jede Zeitintervallgrenze erstrecken, ermittelt, wie unten mit Bezug auf 12 beschrieben wird, und in der Nutzersitzungstabelle 43 wird ein Eintrag vorgenommen, der auf eine entsprechende Mikrotabelle 45A verweist. Jeder Eintrag innerhalb der Mikrotabelle 45A wiederum umfasst einen Index auf einen speziellen Eintrag innerhalb der Ergebnistabelle 40B für Webseiten. Während der Analyse werden die Zugangsinformationen angepasst, um die Inflation, wie unten mit Bezug auf 13 beschrieben, zu beheben.
6 ist ein Flussdiagramm einer Routine zum Erfassen und Zusammenfassen von Zugangsinformationen (Block 21), die bei dem Verfahren aus 2 verwendet wird. Sie dient dazu, während des aktuellen Zeitintervalls iterativ Datenverkehrs-Treffer 11 zu verarbeiten und danach die Ergebnisse zusammenzufassen. Die Zugangsinformationen werden nicht hinsichtlich Inflation aufgrund des doppelten, dreifachen oder mehrfachen Zählens von offenen Sitzungen, die sich über mehrere Zeitintervalle erstrecken, angepasst. Eine Inflationsanpassung ist nicht notwendig, wenn die Zugangsinformationen, die zusammengefasst werden, lediglich einmal gezählt werden. Allerdings wird ein weiteres Ausführungsbeispiel des vorliegenden Verfahrens zum Anpassen der Analyseergebnisse hinsichtlich Inflation, wo eine solche Anpassung notwendig ist, unten mit Bezug auf die 11 und 12 beschrieben.
Die Routine wird vom Server 10 einmal während jedes Zeitintervalls ausgeführt. Zunächst werden die statischen Ergebnistabellen 40A–D, sofern solche existieren, initialisiert (Block 50). Die Routine tritt dann in eine Verarbeitungsschleife ein (Blöcke 51–54), um fortlaufend einen Strom von Datenverkehrs-Treffern 11 zu bearbeiten. Ein „Treffer" von Roh-Verkehrsdaten 11 wird in dem mit Bezug auf 3A beschriebenen Log-File-Format empfangen (Block 51). Bei dem beschriebenen Ausführungsbeispiel werden 99% der Datenverkehrs-Treffer 11 aus der (in 1 gezeigten) Protokolldatei 15 empfangen, wenngleich die Datenverkehrs-Treffer 11 auch aus anderen Quellen empfangen werden könnten. Als nächstes werden die Roh-Verkehrsdaten 11 hinsichtlich Zugangsinformationen analysiert (Block 52). Zugangsinformationen schließen die Inhalte der Felder des mit Bezug auf 3A beschriebenen Log-File-Formats ein, sind aber nicht auf diese beschränkt. Zusätzlich umfassen die Zugangsinformationen kontextabhängige, aus dem Treffer abgeleitete Informationen, wie z. B. die jeweilige Webseite, auf die zugegriffen wurde, den Wochentag, die Tagesstunde und so weiter. Die Zugangsinformationen werden in den entsprechenden Ergebnistabellen 40A–D (Block 53) gespeichert, wie unten mit Bezug auf 7 genauer beschrieben werden wird. Wenn das aktuelle Zeitintervall noch nicht beendet ist (Block 54), wird die Verarbeitung mit dem nächsten Datenverkehrs-Treffer 11 am Beginn der Verarbeitungsschleife fortgesetzt (Blocks 51–54). Andernfalls, wenn das Zeitintervall beendet ist (Block 54), werden die Zugangsinformationen in einer Containerdatei 41 zusammengefasst (Block 55), wie unten mit Bezug auf 8 genauer beschrieben werden wird, und die Routine springt zurück.
7 ist ein Flussdiagramm einer Routine zur Speicherung der Zugangsinformationen (Block 53), die in der Routine aus 6 verwendet wird. Sie dient der iterativen Bestückung jeder der Ergebnistabellen 40A–D mit den aus jedem Datenverkehrs-Treffer 11 analysierten und abgeleiteten Zugangsinformationen. Die Zugangsinformationen sind entsprechend den Ergebnistabellen 40A–D kategorisiert. Die Routine tritt in eine Verarbeitungsschleife zur fortlaufenden Bestückung einer Ergebnistabelle 40A mit Zugangsinformationen ein (Blöcke 60–65), sofern diese passend sind. Daher wird eine entsprechende Ergebnistabelle 40A lokalisiert (Block 60). Wenn die Ergebnistabelle 40A nicht statisch ist (Block 61) und in dieser Ergebnistabelle 40A kein Eintrag zur Speicherung dieses Typs von Zugangsinformation existiert (Block 62), so wird ein Eintrag erzeugt (Block 63). Andernfalls, wenn die Ergebnistabelle 40A dynamisch ist (Block 61) oder wenn die Ergebnistabelle 40A statisch ist und sogar schon ein Eintrag zur Speicherung dieses Typs von Zugangsinformation existiert (Block 62), werden die Zugangsinformationen in den Eintrag zur Speicherung dieses Typs von Zugangsinformation in der Ergebnistabelle 40A gespeichert (Block 64). Solange nicht alle Zugangsinformationen für den aktuellen Datenverkehrs-Treffer 11 in einer Ergebnistabelle 40A gespeichert wurden (Block 65), wird die Verarbeitung am Beginn der Verarbeitungsschleife fortgesetzt (Blöcke 60–65).
Andernfalls, wenn alle Zugangsinformationen gespeichert wurden (Block 65), springt die Routine zurück.
8 ist ein Flussdiagramm einer Routine zum Zusammenfassen von Zugangsinformationen (Block 55), welche bei der Routine aus 6 verwendet wird. Sie dient der iterativen Zusammenfassung jeder der Ergebnistabellen 40A–D in eine Containerdatei 41, die mit den (in 1 gezeigten) Analyseergebnissen 18A–C gespeichert wird. Die Routine tritt in eine Verarbeitungsschleife zum fortlaufenden Zusammenfassen jeder Ergebnistabelle 40A ein (Blöcke 70–72). Demnach wird eine Ergebnistabelle 40A erhalten (Block 70). Die Ergebnistabelle 40A wird in einer Containerdatei 41 gespeichert, indem die Ergebnistabelle 40A in die Containerdatei 41 kopiert wird und das Inhaltsverzeichnis 44 der Containerdatei 41 aktualisiert wird, um die relative Position der Ergebnistabelle 40A innerhalb der Containerdatei 41 wiederzugeben. Solange nicht alle Ergebnistabellen 40A–D zusammengefasst wurden (Block 72), wird die Verarbeitung am Beginn der Verarbeitungsschleife fortgesetzt (Blöcke 70–72). Andernfalls, wenn alle Ergebnistabellen 40A–D zusammengefasst wurden (Block 72), springt die Routine zurück.
Bei den beiden vorangehenden, mit Bezug auf die 7 bzw. 8 beschriebenen Routinen zum Speichern bzw. Zusammenfassen von Zugangsinformationen, wurde eine iterative Schleife (Blöcke 60–65 in 7 und Blöcke 70–72 in 8) zur sequentiellen Verarbeitung jeder der Ergebnistabellen 40A–D verwendet. Ein weiteres Ausführungsbeispiel der vorliegenden Erfindung nutzt hingegen eine Selektionsanweisung anstelle einer Schleifenkonstruktion, um direkt auf die Ergebnistabelle 40A zuzugreifen.
Die 9A und 9B sowie 10 sind Flussdiagramme von One-Pass- bzw. Two-Pass-Routinen zum Analysieren von Zugangsinformationen, die bei dem Verfahren aus 2 verwendet werden. Die One-Pass-Routine (9A und 9B) minimiert die Anzahl der bei der Analyse der Zugangsinformationen ausgeführten Datenzugriffe. Die Two-Pass-Routine (10) minimiert die Anzahl der erforderlichen Programmvariablen. Abhängig von der speziellen Konfiguration des Servers 10 oder der (nicht dargestellten) Workstation, die zur Durchführung der Analyse verwendet werden, sind beide Routinen gleichermaßen geeignet zum Analysieren der Zugangsinformationen.
Die 9A und 9B sind das Flussdiagramm einer One-Pass-Routine zum Analysieren von Zugangsinformationen (Block 22), welche bei dem Verfahren aus 2 verwendet wird. Sie dient der Analyse und Zusammenfassung der Zugangsinformationen, die für ein von einem Nutzer angefragtes Zeitfenster aufgezeichnet wurden, auf Ad-Hoc-Basis in einem einzelnen Schritt durch die Analyseergebnisse 18A–C. Das Zeitfenster kann kleiner als, genauso groß wie oder größer als das bei der Routine zur Erfassung und Zusammenfassung der Zugangsinformationen (Block 21 in 2) verwendete Zeitintervall sein. Die Routine unterteilt das angefragte Zeitfenster automatisch in kleinere Zeitintervalle und speichert die Analysezusammenfassungen für jedes der Zeitintervalle, um so eine größere Flexibilität und Geschwindigkeit in nachfolgenden Darstellungen des gleichen oder eines entsprechenden Zeitfensters zu ermöglichen.
Kurz zusammengefasst erzeugt die Routine eine Containerdatei 41 zur Speicherung zusammengefasster Zugangsinformationen für das angefragte Zeitfenster, sofern eine solche Containerdatei 41 in den (in 1 gezeigten) Analyseergebnissen 18A–C nicht bereits existiert. Die neue Containerdatei 41 wird in den Analyseergebnissen 18A–C geführt, um bei nachfolgenden Anfragen einen direkten Zugriff zu ermöglichen und eine wiederholte Analyse der Zeitintervalle zu vermeiden.
Die Routine ist entsprechend dem anwachsenden Verarbeitungsbedarf, welcher auf der Verfügbarkeit von zusammengefassten Zugangsinformationen in den Analyseergebnissen 18A–C basiert, hierarchisch strukturiert. Am unteren Ende der Hierarchie (Blöcke 81–82) verwendet die Routine jegliche verfügbaren, in einer Containerdatei 41 gespeicherten Analyseergebnisse 18A–C. Auf dem nächsten Niveau der Hierarchie (Blöcke 83–85) fasst die Routine erfasste aber nicht zusammengefasste Zugangsinformationen zusammen. Am oberen Ende der Hierarchie (Blöcke 86–87) erfasst die Routine Roh-Datenverkehrs-Treffer 11 und fasst diese zusammen. Diese hierarchische Struktur ermöglicht dem Server 10 ein effizientes Analysieren des Datenverkehrs, indem, wann immer möglich, existierende Zusammenfassungen 19A–C verwendet werden, wodurch die Notwendigkeit vermieden werden kann, Roh-Verkehrsdaten 11 für jedes Zeitintervall in dem Zeitfenster jedes Mal zu verarbeiten, wenn eine neue Analyseanfrage gemacht wird.
In der Routine wird das interessierende Zeitfenster definiert (Block 80). Wenn in einer in den Analyseergebnissen 18A–C gespeicherten Containerdatei 41 bereits Analysezusammenfassungen für das angefragte Zeitfenster existieren (Block 81), werden die verfügbaren Analysezusammenfassungen zusammengefasst (Block 82). Dieser Schritt wird übersprungen, wenn noch keine Analysezusammenfassungen existieren (Block 81). Danach wird die nächste Stufe der Hierarchie ausgeführt, wenn irgendwelche Analysezusammenfassungen fehlen (Block 83). Insbesondere, wenn bereits nicht zusammengefasste Analyseergebnisse für das Zeitfenster existieren (Block 84), werden die Zugangsinformationen für jedes Zeitintervall in dem angefragten Zeitfenster für die nicht zusammengefassten Analyseergebnisse zusammengefasst (Block 55), wie oben mit Bezug auf 8 beschrieben wurde. Diese Analyseergebnisse werden dann zu der Zusammenfassung hinzugefügt (Block 85). Diese letzten beiden Schritte werden jedoch übersprungen, wenn noch keine nicht zusammengefassten Analyseergebnisse für das Zeitfenster existieren (Block 84). Wenn immer noch Analysezusammenfassungen fehlen (Block 86), wird die letzte Stufe der Hierarchie ausgeführt. Insbesondere werden Zugangsinformationen für jedes Zeitintervall in dem angefragten Zeitfenster für die übrigen fehlenden Analyseergebnisse erfasst und zusammengefasst (Block 21), wie oben mit Bezug auf 6 beschrieben wurde. Diese Analyseergebnisse werden dann zu der Zusammenfassung hinzugefügt (Block 87). Sobald keine weiteren Analyseergebnisse mehr fehlen (Blöcke 83 und 86), ist die Analyse des angefragten Zeitfensters beendet (Block 88) und die Routine springt zurück.
10 ist das Flussdiagramm einer Two-Pass-Routine zum Analysieren von Zugangsinformationen, die bei dem Verfahren aus 2 verwendet wird. Es dient der Analyse und Zusammenfassung der für ein von einem Nutzer angefragtes Zeitfenster aufgezeichneten Zugangsinformationen auf Ad-Hoc-Basis in zwei Schritten durch die Analyseergebnisse 18A–C. Der erste Schritt (Blöcke 121-21) „inventarisiert" verfügbare Analyseergebnisse 18A–C und erzeugt, sofern benötigt, fehlende Analysezusammenfassungen. Der zweite Schritt (Block 125) erfasst und beendet die Analyse.
In der Routine wird das interessierende Zeitfenster definiert (Block 120). Die bereits in einer in den Analyseergebnissen 18A–C gespeicherten Containerdatei 41 existierenden Analysezusammenfassungen für das angefragte Zeitfenster werden inventarisiert, um Lücken in den Daten ausfindig zu machen (Block 121). Wenn Analysezusammenfassungen fehlen (Block 122), wird die nächste Stufe der Hierarchie ausgeführt. Insbesondere, wenn bereits nicht zusammengefasste Analyseergebnisse für das Zeitfenster existieren (Block 123), werden die Zugangsinformationen für jedes Zeitintervall in dem angefragten Zeitfenster für die nicht zusammengefassten Analyseergebnisse zusammengefasst (Block 55), wie oben mit Bezug auf 8 beschrieben wurde. Dieser Schritt wird jedoch übersprungen, wenn noch keine nicht zusammengefassten Analyseergebnisse für das Zeitfenster existieren (Block 123). Wenn immer noch Analysezusammenfassungen fehlen (Block 124), wird die letzte Stufe der Hierarchie ausgeführt. Insbesondere werden Zugangsinformationen für jedes Zeitintervall in dem angefragten Zeitfenster für die übrigen fehlenden Analyseergebnisse erfasst und zusammengefasst (Block 21), wie oben mit Bezug auf 6 beschrieben wurde. Die Analyse des angefragten Zeitfensters wird dann beendet (Block 125) und die Routine springt zurück.
11 ist eine graphische Darstellung der Anzahl der geöffneten Sitzungen, die von dem Server aus 1 empfangen werden, als Funktion der Zeit. Wie oben erläutert, geht das mit Bezug auf die 6–9 beschriebene Verfahren davon aus, dass die Zugangsinformationen nicht durch doppeltes, dreifaches oder mehrfaches Zählen von offenen, sich über mehrere Zeitintervalle erstreckenden Sitzungen aufgebläht sind. Diese Form der Anpassung ist nicht notwendig, wo die Zugangsinformationen nur einmal während der ganzen Nutzersitzung gezählt werden. Viele Typen von Datenverkehrs-Treffern 11, wie z. B. Zugriffe auf Webseiten, können jedoch zu einer mehrfachen Zählung führen. In der graphischen Darstellung in 11 ist die Anzahl an offenen Sitzungen 90 als Funktion der Zeit gezählt. Jeder neue Datenverkehrs-Treffer 11 führt zur Zählung einer zusätzlichen offenen Sitzung. Die Grenze zwischen zwei Zeitintervallen 91 liegt inmitten eines „Buckels" 92 von mehrfach gezählten offenen Sitzungen, was die Anzahl an gezählten offenen Sitzungen 90 aufbläht. Der „Buckel" 92 tritt auf, da jede offene Sitzung in den Ergebnistabellen 40A–D für jedes einzelne Zeitintervall eigentlich zweimal, dreimal oder mehrmals gezählt wird. Das Ergebnis ist eine überhöhte Figur für die Anzahl an offenen Sitzungen, in denen auf die interessierenden Daten zugegriffen wurde.
Es werde beispielsweise angenommen, dass der Server 10 Analyseergebnisse 18A einmal pro 24-Stunden-Zeitintervall, beginnend um 00:00:00 und endend um 23:59:59, speichert. Nutzer, die z. B. von 23:50:00 bis 00:30:00 auf den Server 10 zugreifen, werden zweimal registriert werden: einmal in den Analyseergebnissen 18A für das erste Zeitintervall und einmal in den Analyseergebnissen für das zweite Zeitintervall. Es werde angenommen, das Interesse gelte der Anzahl an offenen Sitzungen, in denen auf eine spezielle Webseite zugegriffen wurde und das interessierende Zeitfenster sei genau das erste und zweite Zeitintervall. Jeder neue Datenverkehrs-Treffer 11 für diese Webseite, die von einem Nutzer mit einer in das Zeitintervall zwischen 23:50:00 und 00:30:00 fallenden offenen Sitzung angefragt wurde, führt zu einer doppelten Zählung für das zweite Zeitintervall, wenn dieser Nutzer bereits während des ersten Zeitintervalls auf diese Webseite zugegriffen hat. Die Zusammenfassung des Zeitfensters des ersten und zweiten Zeitintervalls wird überhöht sein, solange die Doppelzählungen nicht von der Anzahl der offenen Sitzungen für diese Webseite für das zweite Zeitintervall subtrahiert werden.
Zur Lösung dieses Problems bringt ein weiteres Ausführungsbeispiel der vorliegenden Erfindung zusätzliche Schritte in das mit Bezug auf die 6–9 beschriebene Verfahren ein, um sich mit jeder Analysezusammenfassung an die Anzahl der am Ende des Zeitintervalls verbleibenden offenen Sitzungs-Zugriffe zu „erinnern" und diese zu speichern. Dadurch ist es dem Verfahren möglich, diese offenen, sich über zwei oder mehrere Zeitintervalle erstreckenden Sitzungen zu zählen und die Analysezusammenfassungen entsprechend zu korrigieren.
Wenn ein Nutzer z. B. auf den Server 10 vom Tag X um 23:50:00 bis zum Tag X + 1 um 00:30:00 zugreift, speichert der Server 10 die Nutzerkennung, wie z. B. den Nutzernamen, die Internetprotokolladresse, den Cookie oder eine andere Angabe, mit der Analysezusammenfassung des Tages X. Wenn später die Analysezusammenfassungen für die Tage X und X + 1 kombiniert werden, kann die Anzahl der offenen Sitzungen angepasst werden, um jegliche Mehrfachzählung auszugleichen.
Die zusätzlichen Schritte werden sowohl in die Routine zum Erfassen und Zusammenfassen von Zugangsinformationen (Block 21 in 2) eingebracht, um sich an Mehrfachzählungen zu „erinnern", als auch in die Routine zum Analysieren der Zugangsinformationen (Block 22 in 2), um die Zählungen der offenen Sitzungen während der Analyse anzupassen. 12 ist ein Flussdiagramm von Schritten zum Anpassen der Erfassung von Zugangsinformationen hinsichtlich Inflation, die in der Routine aus 6 verwendet werden und nach dem Schritt des Zusammenfassens der Zugangsinformationen (Block 55) eingefügt werden. Sofern Sitzungen am Ende des Zeitintervalls offen bleiben (Block 101), wird somit die Anzahl an offenen Sitzungen mit den Analyseergebnissen gespeichert und die Nutzersitzungstabelle 43 wird mit der relativen Position jeder der zugeordneten Mikrotabellen 45A–D in der Containerdatei 41 aktualisiert (Block 102). Andernfalls, wenn keine offenen Sitzungen vorhanden sind, sind keine weiteren Schritte erforderlich.
13 ist ein Flussdiagramm von Schritten zum Anpassen der Analyse von Zugangsinformationen hinsichtlich Inflation, die in den Routinen aus den 9A und 9B sowie 10 verwendet werden und die nach jedem Schritt, bei dem die Zusammenfassung von Analyseergebnissen aktualisiert wird (Blöcke 82, 85 und 87 in den 9A und 9B und Block 127 in 10), eingefügt werden. Demnach wird das Zeitintervall in dem angefragten Zeitfenster ausgewählt (Block 111). Wenn dies nicht das letzte Zeitintervall in dem angefragten Zeitfenster ist (Block 112), wird die Anzahl an offenen Sitzungen für das vorangehende Zeitintervall von den Analyseergebnissen für das aktuelle Zeitintervall abgezogen (Block 112), wodurch die Zählung korrigiert wird und die Verarbeitung wird mit dem nächsten Zeitintervall in dem angefragten Zeitfenster fortgesetzt (Block 111). Andernfalls, wenn dies das letzte Zeitintervall in dem angefragten Zeitfenster ist (Block 112), ist die Verarbeitung abgeschlossen.
Bei dem beschriebenen Ausführungsbeispiel wird die Anzahl der offenen Sitzungen, die bestimmten Typen von Datenwerten entsprechen, die zur Verwendung in den (in Tabelle 1 aufgelisteten) Zusammenfassungen 19A–C erfasst werden, lediglich einmal gezählt. Dies sind die Datentypen, die sich im Allgemeinen wahrscheinlich nicht ändern, und sie umfassen z. B. die verweisende Webseite, die Stadt, den Staat, das Land, den Wochentag, die Region, den Organisationstyp, den Browser- und den Betriebssystem- Typ. Es werden keine Mikrotabellen 45A–C zur Anpassung der Zählungen der diesen Datentypen entsprechenden offenen Sitzungen benötigt. Die Anzahl der offenen Sitzungen, die allen anderen Datenwerttypen entsprechen, wird hingegen fortlaufend während der ganzen Nutzersitzung gezählt. Für diese Datentypen sind Mikrotabellen 45A–C erforderlich.
Sitzungszählungen werden unabhängig vom Datentyp für jede der Zusammenfassungen 19A–C aufrechterhalten, obwohl die Sitzungszählungen bei der Analyse der Zugangsinformationen (Block 22) nicht notwendigerweise verwendet werden, um die entsprechenden Ergebnistabellen 40A–D zu korrigieren. Auch werden für diese nicht angepassten Ergebnistabellen 40A–D keine Mikrotabellen 45A–C geführt. Allerdings erfordert die Umwandlung von nicht angepassten Ergebnistabellen 40A–D in angepasste Ergebnistabellen 40A–D lediglich das Bilden einer zugehörigen Mikrotabelle 45A. Diese Umwandlung wäre z. B. dort notwendig, wo ein ehemals einmal pro Sitzung gezählter Datentyp derart abgeändert wird, dass er fortlaufend gezählt werden kann.
Nachdem die Grundsätze der Erfindung anhand eines bevorzugten Ausführungsbeispiels beschrieben und dargestellt wurden, sollte offensichtlich sein, dass die Erfindung in ihrer Ausgestaltung und im Detail modifiziert werden kann, ohne von diesen Grundsätzen abzuweichen. Der Schutzbereich der Erfindung wird durch die folgenden Ansprüche begrenzt.

Claims

Ein System zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung, wobei die dezentralisierte Rechnerumgebung (9) eine Vielzahl von verbundenen Systemen (12) umfasst, die an einen Server (10) gekoppelt sind und mit diesem zusammenwirken und welcher darauf ausgerichtet ist, Datenpakete mit jedem der verbundenen Systeme (12) auszutauschen, wobei der Server umfasst: eine Quelle (12, 14, 15, 16, 17) von Datenverkehrs-Treffern (11), wobei jeder Datenverkehrs-Treffer (11) einem zwischen dem Server (10) und einem solchen verbundenen System (12) ausgetauschten Datenpaket entspricht; eine oder mehrere durch einen zugehörigen Datentyp kategorisierte Ergebnistabellen (40A–D), wobei jede Ergebnistabelle eine Vielzahl von Einträgen (42) umfasst; Mittel zum Erfassen eines jeden Datenverkehrs-Treffers (11) aus der Datenverkehrs-Treffer-Quelle (12, 14, 15, 16, 17) als Zugangsinformation in einem solchen Eintrag (42) in wenigstens einer Ergebnistabelle (40A–D) entsprechend dem mit einer solchen Ergebnistabelle (40A–D) verbundenen Datentyp, wobei jeder der Einträge (42) in besagter wenigstens einer Ergebnistabelle (40A–C) einer anderen Art von Zugangsinformation für den mit besagter wenigstens einer Ergebnistabelle (40A–C) verbundenen Datentyp entspricht; Mittel zum periodischen Zusammenfassen der in den Ergebnistabellen (40A–D) erfassten Zugangsinformationen zu Analyseergebnissen (18A–C) für jedes wiederkehrende Zeitintervall, wobei das Zeitintervall ein diskreter Auswertungszeitraum ist; und Mittel zum Analysieren der Zugangsinformationen aus den Ergebnistabellen (40A–D) in den Analyseergebnissen (18A–C), um Analysezusammenfassungen (19A–C) entsprechend dem mit der Ergebnistabelle (40A–C) verbundenen Datentyp zu bilden, wobei das System dadurch gekennzeichnet ist, dass es weiterhin umfasst: eine Nutzersitzungstabelle (43), welche einen oder mehrere Einträge umfasst, in denen jeweils ein Adressenverweis gespeichert ist, wobei jeder Adressenverweis einer der Ergebnistabellen (40A–D) entspricht, wobei die Erfassungsmittel einen Nutzersitzungszähler umfassen, welcher die Anzahl an sich über eine Zeitintervallgrenze erstreckenden geöffneten Sitzungen für jeden solchen mit einer jeden solchen Ergebnistabelle (40A–D) verbundenen Datentyp darstellt, wobei der Nutzersitzungszähler in jedem Eintrag der Nutzersitzungstabelle (43) gespeichert wird; und eine oder mehrere Mikrotabellen (45A–C), wobei jede der Mikrotabellen (45A–C) einen oder mehrere Indizes umfasst und einer der Ergebnistabellen (40A–D) zugeordnet ist, wobei jeder solche Index innerhalb der Mikrotabelle (45A–C) logisch auf jede solche unterschiedliche Art von aus einer zugehörigen Ergebnistabelle (40A–D) erfasster Zugangsinformation verweist, wobei jeder solche Adressenverweis in der Nutzersitzungstabelle (43) darüber hinaus logisch auf eine der Mikrotabellen (45A–C) verweist, wobei die Analysemittel darüber hinaus Mittel zum Anpassen der Analyse der Zugangsinformationen hinsichtlich Inflation umfassen, welche besagten Nutzersitzungszähler verwenden.
System nach Anspruch 1, wobei der Server (10) darüber hinaus eine Protokolldatei (15) umfasst, welche an den Server (10) gekoppelt ist und mit diesem zusammenwirkt und die Datenverkehrs-Treffer (11) speichert, wobei die Protokolldatei (15) als Quelle (12, 14, 15, 16, 17) der Datenverkehrs-Treffer (11) wirkt.
System nach Anspruch 1, wobei der Server (10) darüber hinaus eine Datenbank (16) umfasst, welche an den Server (10) gekoppelt ist und mit diesem zusammenwirkt und wenigstens einen der Datenverkehrs-Treffer (11) sowie die Analyseergebnisse (18A–C) speichert, wobei die Datenbank (16) als Quelle (12, 14, 15, 16, 17) der Datenverkehrs-Treffer (11) wirkt.
System nach Anspruch 1, welches weiterhin umfasst: eine Containerdatei (41), welche ein Inhaltsverzeichnis (44) umfasst und welche darauf ausgelegt ist, die eine oder mehreren Ergebnistabellen (40A–D), die Nutzersitzungstabelle (43) und die eine oder mehreren Mikrotabellen (45A–C) zu speichern, wobei die Zusammenfassungsmittel darüber hinaus Mittel zum Abbilden der relativen Positionen einer jeden solchen Ergebnistabelle (40A–D) innerhalb der Containerdatei (41) in das Inhaltsverzeichnis (44) umfassen und jeden solchen Adressenverweis mit den relativen Positionen jeder Mikrotabelle (45A–C) innerhalb der Containerdatei (41) in der Nutzersitzungstabelle (43) speichern.
Verfahren zum Analysieren von Datenverkehr in einer dezentralisierten Rechnerumgebung (9), welche eine Vielzahl von verbundenen Systemen (12) umfasst, die an einen Server (10) gekoppelt sind und mit diesem zusammenwirken, wobei besagtes Verfahren umfasst: das Generieren einer Vielzahl von Datenverkehrs-Treffern (11), wobei jeder der besagten Datenverkehrs-Treffer (11) einem zwischen einem der Server (10) und einem der verbundenen Systeme (12) ausgetauschten Datenpaket entspricht; das Erfassen der Datenverkehrs-Treffer (11) als Zugangsinformation in einer oder mehreren Ergebnistabellen (40A–D) entsprechend dem Datentyp, welcher mit der durch besagten Datentyp kategorisierten Ergebnistabelle (40A–D) verbunden ist; das Festlegen eines Zeitintervalls als einen diskreten Auswertungszeitraum; das Speichern der Ergebnistabellen (40A–D) als Analyseergebnisse (18A–C) für jedes wiederkehrende Zeitintervall; das Festlegen eines interessierenden Zeitfensters, welches weiter ist als das Zeitintervall; das Generieren einer Analysezusammenfassung (19A–C) aus einer Vielzahl von Analyseergebnissen (18A–C); wobei das Verfahren dadurch gekennzeichnet ist, dass es weiterhin umfasst: das Bereitstellen einer Nutzersitzungstabelle (43), welche einen oder mehrere, jeweils einen Adressenverweis speichernde Einträge umfasst sowie einer oder mehrerer Mikrotabellen (45A–C), wobei jeder Adressenverweis einer der Ergebnistabellen (40A–D) entspricht, wobei jede der Mikrotabellen (45A–C) einen oder mehrere Indizes umfasst und einer der Ergebnistabellen (40A–D) zugeordnet ist, wobei jeder solche Index innerhalb der Mikrotabelle (45A–C) logisch auf in einer zugehörigen Ergebnistabelle (40A–D) erfasste Zugangsinformationen verweist, wobei jeder solche Adressenverweis in der Nutzersitzungstabelle (43) darüber hinaus logisch auf eine der Mikrotabellen (45A–C) verweist, wobei das Verfahren darüber hinaus umfasst: das Zählen einer Nutzersitzung für jeden mit jeder Ergebnistabelle (40A–D) verbundenen Datentyp; und das Anpassen der Analyse der Zugangsinformationen hinsichtlich Inflation, wobei besagter Nutzersitzungszähler verwendet wird.
Verfahren nach Anspruch 5, wobei die dezentralisierte Rechnerumgebung (9) darüber hinaus eine Containerdatei (41) umfasst, welche ein Inhaltsverzeichnis (44) umfasst und welche darauf ausgelegt ist, die eine oder mehreren Ergebnistabellen (40A–D), die Nutzersitzungstabelle (43) und die eine oder mehreren Mikrotabellen (45A–C) zu speichern, wobei das Verfahren weiterhin umfasst: das Abbilden der relativen Positionen einer jeden solchen Ergebnistabelle (40A–D) innerhalb der Containerdatei (41) in das Inhaltsverzeichnis (44); und das Speichern jedes Adressenverweises in der Nutzersitzungstabelle (43) mit den relativen Positionen jeder Mikrotabelle (45A–C) innerhalb der Containerdatei (41).
Verfahren nach Anspruch 5, wobei die Datenverkehrs-Treffer (11) Zugangsinformationen umfassen und wobei das besagte Verfahren weiterhin umfasst: das Zusammenfassen der Zugangsinformationen für jedes innerhalb eines Zeitfensters auftretende Zeitintervall, für welches Analysezusammenfassungen nicht zugänglich sind, für welches aber Zugangsinformationen von den Analyseergebnissen (18A–C) zugänglich sind; das Speichern der zusammengefassten, im vorangehenden Schritt gebildeten Zugangsinformationen als Analysezusammenfassungen (19A–C); das Zusammenfassen der Zugangsinformationen für jedes innerhalb eines Zeitfensters auftretende Zeitintervall, für welches Analysezusammenfassungen (19A–C) nicht zugänglich sind, für welches aber Zugangsinformationen von einer Ergebnistabelle (40A–D) zugänglich sind; das Speichern der zusammengefassten, im vorangehenden Schritt gebildeten Zugangsinformationen als Analyseergebnisse (18A–C); das Erzeugen von Analysezusammenfassungen (19A–C) aus den im vorangehenden Schritt gebildeten Analyseergebnissen (18A–C).