WO2004017595A2

WO2004017595A2 - Procede de reconnaissance et d'analyse de protocols dans des reseaux de donnees

Info

Publication number: WO2004017595A2
Application number: PCT/FR2003/002075
Authority: WO
Inventors: Serge Fdida; Gautier Harmel; Eric Horlait; Guy Pujolle; Jérôme TOLLET
Original assignee: Qosmos
Priority date: 2002-07-29
Filing date: 2003-07-04
Publication date: 2004-02-26
Also published as: EP1574000A2; US20060106583A1; CN1703890A; WO2004017595A3; AU2003267510A1; US7522530B2; EP1574000B1; JP4203012B2; FR2842970B1; ES2408158T3; KR20050033637A; CN1703890B; JP2005537705A; KR100957827B1; FR2842970A1; AU2003267510A8

Abstract

Le procédé utilise un système informatique dans lequel un mécanisme auto-identificateur de protocole agencé pour reconnaître des informations déterminantes de protocole nommé par un nom, parmi des informations véhiculées dans une connexion détectée, est associé au nom de protocole et une liste vide ou non vide de noms de protocoles utilisables dits protocoles fils, est associée à chaque nom de protocole utilisable, dit protocole père. Un noyau du système informatique associe à chaque connexion détectée, une structure de données agencée pour contenir une suite ordonnée de noms de protocoles utilisés. Le noyau construit (2000) la structure de données en cherchant (2001, 2006) dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme auto-identificateur associé reconnaît (2002, 2007) des informations déterminantes parmi les informations véhiculées puis en ajoutant (2003) à la fin de la suite ordonnée, le nom de protocole fils trouvé et en recommençant (2000) à chercher tant qu'il est possible de trouver un nom de protocole fils pour lequel le mécanisme auto-identificateur associé reconnaît des informations déterminantes parmi les informations véhiculées.

Description

Procédé de reconnaissance et d'analyse de protocoles dans des réseaux de données.

Le domaine de 1 ' invention est celui du contrôle de réseaux de données.

Une classification de trafics circulant sur un réseau de données, permet de décider de comportements à adopter pour chaque trafic en fonction de sa classification.

Par exemple dans un pare-feu (firewall en anglais), une mise en place de système de sécurisation repose généralement sur une reconnaissance de propriétés protocolaires pour empêcher certains transferts.

Par exemple encore, des équipements de gestion de la qualité de service, attribuent des priorités à des données en fonction de règles complexes qui décrivent des scénarios. Une correspondance entre ces scénarios et des paquets de données véhiculés au sein de . connexions, utilise des techniques de classification de ces connexions . Par exemple encore, des équipements de surveillance de réseau (monitoring) réalisent des statistiques pour mesurer et contrôler l'état du réseau en un point particulier. Ceci nécessite une classification et une reconnaissance des différents flux qui transitent par ce point.

Par exemple encore, une classification de différents flux, est utile pour facturer des services car les coûts varient selon que ces services sont de type audio, vidéo, messagerie électronique ou interrogation de base de données. D'autre part, il est souvent indispensable d'identifier correctement les utilisateurs de ces services pour en garantir la facturation.

Les opérations de contrôle et de gestion des réseaux, nécessitent ainsi une classification de connexions entre différents émetteurs et récepteurs qui génèrent des flux de données numériques sur ces réseaux. Il convient alors de disposer de procédés performants et fiables de classification.

Selon l'état connu de la technique, une tâche d'observation de paquets de données, est affectée à un nœud du réseau tel que par exemple un serveur délégué (proxy server en anglais) par lequel passent des connexions qui génèrent ces paquets de données.

La demande de brevet WO 0101272, divulgue une méthode et un appareil pour surveillance de trafic dans un réseau. Des techniques de reconnaissance de motifs (pattern matching en anglais) appliquées sur des champs prédéterminés de paquets de données analysés permet d'identifier un protocole qui succède à un protocole précédemment identifié dans une pile protocolaire de connexion, à condition que le protocole précédemment identifié permette de déterminer les champs et les motifs ou valeurs à y reconnaître pour identifier le ou les protocoles suivants. Parmi de tels protocoles explicites, on trouve le protocole éthernet pour lequel l'entête des paquets spécifie si le protocole suivant dans la pile protocolaire est par exemple le protocole LLC ou le protocole IP avec éventuellement sa version. De même l'entête des paquets sous protocole IP, spécifie si le protocole suivant dans la pile protocolaire est par exemple le protocole TCP, UDP ou ICMP.

Un problème qui se pose, est celui de la reconnaissance des protocoles implicites. Un protocole est dit implicite lorsqu'il n'est pas explicitement identifiable de façon certaine par une entête de protocole qui le précède dans la pile protocolaire. C'est le cas de nombreux protocoles de niveau applicatif tels que Pointcast ou Kazaa dont une utilisation dans la pile protocolaire d'une connexion dépend du contexte de la connexion généralement établi par des négociations préalables, difficilement compilables avec une scrutation en temps réel au fil de l'eau, des paquets circulants au sein de la connexion. Certains protocoles connus tels que les protocoles HTTP, Telnet, FTP, sont aujourd'hui à la limite des protocoles explicites et implicites. Ces protocoles peuvent être considérés comme explicites lorsqu'un numéro de port réservé figurant dans une entête de protocole TCP, donne un indicateur de destination qui permet d'identifier de façon certaine le protocole qui est transporté, par exemple un numéro 80 correspondant au protocole HTTP, un numéro 23 correspondant au protocole Telnet, un numéro 21 correspondant au protocole FTP. Un poste client utilise par exemple sous TCP, le numéro de port 80 pour établir une connexion de requête HTTP avec un poste serveur en allouant un numéro de port dynamique à une connexion paire qui permet au poste serveur de répondre au poste client. On remarque déjà ici que le caractère explicite du protocole HTTP sur la- connexion paire pour véhiculer les réponses du poste serveur au poste client, est amoindri par l'allocation dynamique de numéro de port, lié au contexte de la connexion de requête. De plus, rien n'empêche aujourd'hui un poste client de négocier préalablement avec le poste serveur, un numéro de port distinct du numéro 80 pour la connexion de requête HTTP. Dans ce cas, le protocole HTTP est plus implicite qu'explicite. Ceci reste vrai pour d'autres protocoles. D'autre part, une connexion de requête sous le protocole FTP, engendre de façon connue d'autres connexions dynamiques pour le transfert effectif des fichiers, la connexion de requête et sa connexion paire étant utilisée pour les transferts de commande. Au sein de la ou des connexions dynamiques engendrées, les numéros de port ne permettent pas de reconnaître explicitement le protocole FTP. Une application de filtres au champ du numéro de port sous TCP, ne permet pas d'identifier le protocole transporté de façon certaine.

Un autre problème qui se pose, est celui de la reconnaissance de protocoles dont la mise en œuvre varie tant par l'architecture de leur utilisation que par la création incessante de nouveaux protocoles.

On connaît par exemple une architecture classique d'utilisation du protocole Telnet par mise en pile de la suite ordonnée de protocoles éthernet, IP, TCP, Telnet. D'autres architectures sont possibles par mise en pile de la suite ordonnée de protocoles éthernet, IP, TCP, HTTP, Telnet ou encore éthernet, IP, IP, TCP, HTTP, Telnet pour gérer 1 ' itinérance .

Les systèmes de l'état connu de la technique, s'adaptent difficilement à des modifications d'architecture protocolaires par modification de liens de dépendance entre protocoles existants ou nouveaux lorsque ces systèmes se basent sur des reconnaissances de motifs dans des champs déterminés par ces liens de dépendance pour identifier des protocoles utilisés. Cet inconvénient est particulièrement notable dans les systèmes matériels pour lesquels toute confrontation à des connexions établies selon une architecture protocolaire non prévue, nécessite une reconstruction sous peine d'inefficacité.

L'invention a pour objet un procédé pour classifier au moyen d'un système informatique, des connexions détectées entre émetteurs et récepteurs dans des réseaux de communication qui utilisent des protocoles nommés chacun par un nom de protocole utilisable. Le procédé est remarquable en ce que dans le système informatique: - à chaque nom de protocole utilisable, est associé un mécanisme auto-identificateur de protocole agencé pour reconnaître des informations déterminantes du protocole nommé par ce nom, parmi des informations véhiculées dans une connexion détectée, - à chaque nom de protocole utilisable dit protocole père, est associé une liste vide ou non vide de noms de protocoles utilisables dits protocoles fils, à chaque connexion détectée, un noyau informatique associe une première structure de données agencée pour contenir une suite ordonnée de noms de protocoles utilisés qui est initialisée avec un nom de protocole dit de base, pour chaque connexion détectée, le noyau informatique construit la première structure de données en cherchant dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme auto-identificateur associé reconnaît des informations déterminantes parmi les • informations véhiculées puis en ajoutant à la fin de la suite ordonnée, le nom de protocole fils lorsqu'il est trouvé et en recommençant à chercher tant qu'il est possible de trouver dans la .liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme autoidentificateur associé reconnaît des informations déterminantes parmi les informations véhiculées, - le noyau informatique déclare classifiée la connexion détectée lorsqu'il n'est plus possible de trouver dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme auto-identificateur associé reconnaît des informations déterminantes parmi les informations véhiculées .

Les mécanismes auto-identificateurs associés aux noms de protocoles utilisables et les listes de protocoles utilisables associées chacune à un protocole utilisable offre une modularité qui permet d'adapter le procédé à toute modification d'architecture. Lorsqu'il existe une architecture créant un nouveau lien de dépendance possible entre protocole père et protocole fils, il suffit d'ajouter le nom de protocole fils dans la liste associée au nom de protocole père. Lorsqu'il existe un nouveau protocole utilisable, il suffit d'ajouter dans le système, un nouveau mécanisme auto-identificateur associé au nom du nouveau protocole utilisable. Une classification de connexion peut alors se faire par construction progressive d'une suite ordonnée de protocoles utilisés dont à chaque étape, le dernier protocole constitue un protocole père. La classification est terminée lorsqu'il n'est plus possible de trouver de protocole fils utilisé pour un protocole père qui est le dernier des protocoles de la suite ordonnée. Avantageusement pour chercher un nom de protocole fils dont la nature est implicite, le noyau informatique soumet l'information véhiculée à chaque mécanisme autoidentificateur associé à un nom de la liste de noms de protocoles fils jusqu'à ce que l'un des mécanismes auto- identificateur déclare reconnaître des informations déterminantes ou jusqu'à ce qu'aucun mécanisme autoidentificateur ne puisse déclarer reconnaître des informations déterminantes.

Disposant des règles de langage du protocole fils auquel il est associé, le mécanisme auto-identificateur peut facilement vérifier si les informations soumises appartiennent à ce langage.

Avantageusement aussi pour chercher un nom de protocole fils dont la nature est explicite, le noyau informatique soumet l'information véhiculée au mécanisme auto-identificateur associé au dernier nom de ladite suite ordonnée, de façon à ce que ce mécanisme autoidentificateur trouve le nom du protocole fils parmi les informations déterminantes du protocole père. Disposant des règles de langage du protocole père auquel il est associé, le mécanisme auto-identificateur peut facilement trouver parmi les informations soumises, celles qui spécifient le protocole fils.

Lorsque la suite ordonnée est complétée jusqu'au niveau applicatif, la connexion à laquelle elle est associée, est classifiée par type de niveau applicatif. Ceci permet par exemple à un pare-feu de bloquer toute connexion de type transfert de fichier ou à un gestionnaire de réseau de mesurer un volume de connexions de type navigation sur la toile (WWW pour World Wide Web en anglais) .

De façon particulière, le noyau informatique élabore une signature courante pour chaque connexion détectée, en soumettant tout ou partie de l'information véhiculée à au moins un mécanisme auto-identificateur associé à l'un des noms de rang faible dans ladite suite ordonnée, de façon à ce que ce mécanisme auto-identificateur trouve parmi les informations déterminantes, des indicateurs de source et de destination, incorporés dans ladite signature courante par le noyau informatique. Dans la suite ordonnée qui constitue une image de pile protocolaire, les rangs faibles correspondent généralement aux couches de niveaux physique, réseau et transport. La signature permet de distinguer chaque connexion. Une telle distinction parmi des connexions de même type applicatif, permet par exemple à un pare-feu de bloquer toute connexion de type transfert de fichier depuis ou à destination d'un équipement informatique particulier. Ceci permet par exemple encore à un gestionnaire de réseau de mesurer un volume de connexions de type navigation sur la toile initié par un équipement client ou à destination d'un équipement serveur particulier.

De façon plus particulière, le noyau informatique répertorie chaque première structure de données dans une première table en établissant une première correspondance associative entre chaque première structure de données et la signature courante élaborée pour la connexion associée. L'effet technique supplémentaire procuré par la signature, est alors celui de permettre au noyau informatique de se référer à une même connexion pendant la construction de la structure de donnée lorsque les informations véhiculées sont disparates sans être regroupées par un mécanisme accessoire.

Des connexions distinctes peuvent en fait appartenir à un même flot sémantique. C'est par exemple le cas des connexions paires et ou des connexions dynamiques.

De façon particulièrement avantageuse, le noyau informatique établit dans ladite première table une deuxième correspondance associative entre chaque signature courante et une signature paire dont les indicateurs de source sont les indicateurs de destination de la signature courante et dont les indicateurs de destination sont les indicateurs de source de la signature courante.

De façon particulièrement avantageuse aussi: - le noyau informatique parcourt les noms de protocoles utilisés de la suite ordonnée dans la structure de donnée qu'il construit pour détecter chaque nom de protocole à connexion dynamique, pour chaque nom de protocole à connexion dynamique détecté, le noyau informatique soumet les informations véhiculées au mécanisme auto-identificateur associé au nom détecté de façon à déterminer s'il existe une connexion dynamique ultérieure et si une connexion ultérieure existe, à lui associer une deuxième structure de données agencée pour contenir une suite ordonnée de noms de protocoles potentiels qui débute avec le nom de protocole dit de base.

La deuxième correspondance associative et ou la deuxième structure de données permettent de renseigner des connexions d'un même flot sémantique avant même de les détecter puis de compléter la classification de plusieurs connexions d'un même flot sémantique à partir des informations véhiculées dans l'une des connexions détectées de ce même flot sémantique. De façon plus particulièrement avantageuse, le noyau informatique répertorie chaque deuxième structure de données dans une deuxième table en établissant une correspondance associative entre chaque deuxième structure de données et une signature potentielle élaborée par le mécanisme auto-identificateur associé au nom détecté.

De façon plus particulièrement avantageuse encore, le noyau informatique construit en outre la première structure de données : en cherchant les suites ordonnées de noms de protocoles potentiels dans lesquelles est incluse la suite ordonnée de noms de protocoles utilisés et, lorsqu'il existe une suite ordonnée de noms de protocoles potentiels dont la signature potentielle correspond à la signature courante, en complétant la première structure de données au moyen de la deuxième structure de donnée.

De façon à être exécuté en temps réel pour permettre une meilleure réactivité d'autres systèmes qui utilisent les classifications produites et ou à réduire un volume nécessaire de ressources mémoires du système informatique qui exécute le procédé, le procédé pour classifier des connexions est amélioré en ce que: le noyau informatique récolte dans des paquets de données passant par le système informatique au sein de connexions à détecter, les informations véhiculées utiles pour élaborer une signature de façon à élaborer la signature courante chaque fois que les informations véhiculées utiles sont suffisantes, le noyau informatique utilise la signature courante ainsi élaborée en temps réel pour détecter une connexion, de façon à chercher dans ladite première table, la première structure de données qui correspond à la signature courante, à associer une nouvelle première structure de données à la connexion détectée lorsqu'il n'existe aucune première structure de données qui correspond à la signature courante et à commencer ou continuer à construire la première structure de données lorsqu'il existe une première structure de données qui correspond à la signature courante, en récoltant dans les paquets de données, les informations véhiculées utiles pour construire de première structure de données.

En cas de fragmentation de paquets de grande taille en paquets de plus petite taille, il peut arriver que les informations utiles récoltées dans un paquet de données, ne sont pas suffisantes pour élaborer une signature.

Selon une amélioration supplémentaire du procédé, le noyau informatique répertorie les informations utiles dans une deuxième table en établissant une correspondance associative entre les informations utiles qui comprennent alors des liens d'appartenance à une même connexion, jusqu'à ce que les informations utiles soient suffisantes pour élaborer la signature courante.

L'invention sera mieux comprise à la lecture de la description d'un exemple de mise en œuvre préférée qui suit en référence aux dessins annexés dans lesquels:

- la figure 1 montre une représentation possible en mémoire d'un graphe protocolaire,

- les figures 2 et 3 sont des organigrammes du procédé conforme à l'invention. En référence à la figure 1, un tableau 101 contient dans une colonne 102 un nom de protocole utilisable sur chaque ligne repérée 001 à 021 sans que le nombre de lignes soit limitatif. Sur la ligne correspondante, une liste est associée à chaque nom de protocole utilisable de la colonne 102, dit alors protocole père. Dans les colonnes 105 à 110 sans que le nombre de colonnes soit limitatif, chaque liste est ici établie par des pointeurs vers des lignes du tableau dont le nom de protocole figurant en colonne 102 est alors dit protocole fils. Par exemple la ligne repérée 001 contient le nom Base qui identifie un protocole dit de base qui par exception, n'est pas réellement un protocole utilisable par les connexions mais plutôt un protocole racine utilisable pour démarrer un parcours de graphe protocolaire constitué d'une concaténation de proche en proche de toutes les listes de protocoles fils. La liste de noms de protocoles fils, associée au nom Base, contient ici les noms de protocoles éthernet, ATM, PPP qui sont des protocoles de couche physique, les premiers à être effectivement utilisables pour des connexions. Ainsi, le pointeur en colonne 105 pointe sur la ligne 002, le pointeur en colonne 106 pointe sur la ligne 003, le pointeur en colonne 107 pointe sur la ligne 004.

En ligne repérée 002, la liste de noms de protocoles fils, associée au nom éthernet, contient les noms de protocoles LLC, Ipvβ, Ipv4 pointés chacun respectivement en ligne 005, 007, 008 par les pointeurs situés respectivement en colonne 105, 106, 107.

En ligne repérée 005, la liste de noms de protocoles fils, associée au nom LLC, contient les noms de protocoles STP, Ipv4 pointés chacun respectivement en ligne 006, 008, par les pointeurs situés respectivement en colonne 105,

106. .

En ligne repérée 006, la liste de noms de protocoles fils, associée au nom STP, est vide. Le nom de protocole STP est sur une feuille du graphe protocolaire, c'est à dire qu'il n'existe pas de protocole fils pour ce protocole père.

En ligne repérée 007, la liste de noms de protocoles fils, associée au nom Ipv6, contient les noms de protocoles Ipv6, Ipv4 , TCP, UDP et ICMP pointés chacun respectivement en ligne 007, 008, 009, 010, 011 par les pointeurs situés respectivement en colonne 105, 106, 107,

108, 109. On remarque que le nom Ipvδ est à la fois nom de protocole père et nom de protocole fils. Ceci matérialise une possibilité de mettre une couche réseau au dessus d'une couche réseau de protocole identique pour gérer l'itinérance de façon connue en créant un tunnel de réseau. Une couche réseau de protocole différent peut aussi être mise au dessus d'une couche réseau pour gérer des différences de compatibilité entre réseaux, par exemple un réseau compatible Ipv4 sur lequel faire passer des connexions Ipv6.

La colonne 103 contient pour chaque nom de protocole, un indicateur qui indique si le protocole est explicite ou implicite, c'est à dire si le protocole en temps que protocole fils, est spécifié par le protocole père ou non. Par exception, l'indicateur en ligne 103 indique que le protocole nommé Base est de type racine car il n'a pas de protocole père. La colonne 104 contient pour chaque nom de protocole, un autre indicateur qui indique si le protocole est susceptible de générer des connexions dynamiques. C'est par exemple le cas du protocole FTP en ligne 012 ou du protocole http en ligne 013. A chaque nom de protocole utilisable figurant en colonne 102, est associé un mécanisme auto-identificateur. Chaque mécanisme auto-identificateur est agencé pour être activé par un noyau informatique au moyen du nom de protocole auquel il est associé. Chaque mécanisme auto- identificateur comprend des filtres qui de façon préférée, sont agencés sous forme de règles conformes au langage du protocole au nom duquel le mécanisme auto-identificateur est associé. Au moyen d'un moteur d'inférence, le mécanisme auto-identificateur est agencé pour rechercher dans un paquet de données qui lui sont soumises par le noyau informatique, celles qui satisfont des règles pour répondre à une demande du noyau informatique. De façon connue, une règle comprend une partie prémisse et une partie action qui génère une réponse lorsque la règle est activée et que la partie prémisse est validée. Le moteur d'inférence du mécanisme auto-identificateur, est agencé pour valider progressivement une prémisse de règle au fur et à mesure de soumissions successive de paquets de données par le noyau informatique, de façon à ce que la partie action puisse générer à chaque soumission, une réponse de type négative, probable ou positive selon respectivement l'invalidation ou la validation partielle ou totale de la partie prémisse.

En référence à la figure 2, le procédé est activé dans une étape 1000 pour chaque paquet de données que le système informatique dévie du réseau au niveau physique. Au niveau physique, toutes les connexions à détecter passent physiquement par un coupleur du système informatique par exemple de type éthernet (normes IEEE 802) , de type ATM (Asynchronous Transfer Mode) , de type PPP (Point to Point Protocol) ou de tout autre type de niveau physique. A ce niveau, le système informatique dispose d'une chaîne de bits qui constitue physiqument le paquet.

Dans une étape 1001, le noyau informatique extrait une signature du paquet en soumettant le contenu du paquet à un mécanisme auto-identificateur associé au protocole utilisé par le coupleur physique qui reçoit le paquet. Le noyau informatique demande au mécanisme autoidentificateur de lui retourner un indicateur de source, un indicateur de destination et un nom de protocole transporté. Le mécanisme auto-identificateur dispose de filtres agencés pour reconnaître dans le paquet les indicateurs de source et de destination, par exemple adresses MAC dans le cas de coupleur physique de type Ethernet, identificateurs de circuit virtuel (VCI pour Virtual Circuit Identifier en anglais) et de chemin virtuel (VPI pour Virtual Path Identifier en anglais) dans le cas de coupleur physique de type ATM, numéros de téléphone appelant et appelé dans le cas de coupleur physique de type PPP. On notera qu'au niveau physique, l'indicateur de destination est celui qui correspond à l'adresse physique du coupleur du système informatique. Un protocole de couche physique étant généralement de nature explicite, le mécanisme auto-identificateur dispose^' aussi de filtres agencés pour reconnaître le protocole transporté.

Recevant du mécanisme auto-identificateur les indicateurs de source et de destination, le noyau informatique génère une signature de niveau physique qui contient les identificateurs de source et de destination. Au moyen du nom de protocole transporté qui est retourné par le mécanisme auto-identificateur de niveau physique, le noyau informatique soumet les données du paquet au mécanisme auto-identificateur associé et lui demande de lui retourner un indicateur de source, un indicateur de destination et si possible un nom de protocole transporté. Le mécanisme auto-identificateur dispose de filtres agencés pour reconnaître dans le paquet les indicateurs de source et de destination, par exemple adresses IP dans le cas de protocole IP. Un protocole de couche réseau étant généralement de nature explicite, le mécanisme auto-identificateur dispose aussi de filtres agencés pour reconnaître le protocole transporté.

Recevant du mécanisme auto-identificateur les indicateurs de source et de destination, le noyau informatique génère une signature de niveau réseau qui contient les identificateurs de source et de destination. Au moyen du nom de protocole transporté qui est retourné par le mécanisme auto-identificateur de niveau réseau, le noyau informatique soumet les données du paquet au mécanisme auto-identificateur associé pour générer comme précédemment, une signature de niveau correspondant et répéter les opérations précédemment décrites jusqu'à ce qu'un mécanisme auto-identificateur signale qu'il ne peut pas donner de nom de protocole transporté.

Le noyau informatique concatène les signatures générées pour chaque niveau de façon à obtenir une signature globale qui est spécifique d'une connexion au sein de laquelle le paquet est véhiculé.

Certains protocoles mettent en œuvre de la fragmentation, c'est à dire divisent un paquet en plusieurs paquets de taille compatible avec les protocoles de couche inférieure. C'est par exemple le cas un protocole de plus haut niveau manipule des paquets de taille supérieure à la taille maximale des données pouvant être contenues dans une trame physique (MTU pour Maximum Transfer Unit en anglais) . On rappelle que dans les fragments d'un même paquet, l'entête originale n'est pas intégralement reproduite sur tous les fragments. Ainsi, lorsqu'un paquet qui se présente, ne constitue en fait qu'un fragment de paquet, il ne contient pas nécessairement toutes les informations permettant de générer la signature spécifique à une connexion. Par exemple dans le cas du protocole UDP au dessus d'IP, un fragment UDP peut se présenter sans qu'il ne contienne l'entête UDP, notamment les ports source et destination qui permettent un calcul de signature. Chaque mécanisme auto-identificateur associé à un nom de protocole susceptible de mettre en œuvre de la fragmentation, dispose d'au moins un filtre agencé pour reconnaître une indication de taille de paquet complet supérieure à une taille de paquet courant et ou pour reconnaître un identifiant de restitution de paquet complet. L'identifiant de restitution est généralement un numéro d'ordre attribué par la source à chaque fragment de paquet. Le mécanisme auto-identificateur signale alors la fragmentation au noyau informatique et l'identifiant de restitution. Le noyau informatique utilise une table associative qui fait correspondre à chaque signature calculable jusqu'au niveau de fragmentation, la signature globale pour le paquet complet. Ainsi, lorsque se présente un paquet ou fragment de paquet qui satisfait les conditions de la table associative, le noyau informatique associe directement à ce paquet ou fragment de paquet, la signature globale correspondante.

Le noyau informatique utilise ensuite dans cette mise en œuvre du procédé, la signature extraite en étape 1001 pour construire une première . structure de données pour la connexion détectée par la présentation de paquet en étape 1000.

Dans une étape 1002, le noyau informatique cherche dans une table associative 1 des connexions courantes s'il existe une correspondance avec la signature globale extraite en étape 1001. De façon à faciliter la recherche, le noyau informatique applique à la signature globale, une fonction de hachage" pour calculer une clé de hachage qui référence de façon univoque une ligne de la table associative 1 de manière connue au moyen d'une table de hachage .

Si le noyau informatique trouve une correspondance dans la table associative 1, il active une étape 1005, sinon il active une étape 1003. Ainsi, le noyau informatique vérifie en étape 1002 si le paquet dont la signature est extraite, appartient à une connexion existante déjà répertoriée dans la table associative des connexions courantes. Dans l'étape 1003, le noyau informatique crée une ligne dans la table associative 1 en établissant une correspondance de la connexion détectée avec la signature globale extraite en étape 1001. Pour la connexion détectée, le noyau informatique initialise dans la ligne créée, la première structure de donnée avec une suite ordonnée de noms de protocoles utilisés qui commence^' par le protocole nommé Base. La première structure de données comprend aussi une chaîne de variables binaires attribuées chacune à une colonne de tableau 101 à partir de la colonne 105. Pour initialiser cette chaîne de variables binaires, le noyau informatique lit chaque cellule du tableau 101 qui se trouve à l'intersection d'une colonne à partir de la colonne 105 et de la ligne du tableau 101 qui contient en colonne 102, le dernier nom de protocole de la suite ordonnée. Pour une cellule non vide, le noyau informatique positionne à 1 la variable binaire de rang correspondant pour indiquer une probabilité non nulle d'utilisation de nom de protocole référencé par cette cellule. Pour une cellule vide, le noyau informatique positionne à 0 la variable binaire de rang correspondant pour indiquer une probabilité nulle d'utilisation de nom de protocole référencé par cette cellule. Simultanément, le noyau informatique calcule une signature de connexion paire de façon à ce que chaque indicateur de source de la signature de connexion paire soit l'indicateur de destination de niveau correspondant qui figure dans la signature globale et de façon à ce que chaque indicateur de destination de la signature de connexion paire soit l'indicateur de source de niveau correspondant qui figure dans la signature globale. Le noyau informatique cherche ensuite dans la table associative 1 s'il existe une correspondance avec la signature de connexion paire.

Si le noyau informatique trouve dans la table associative 1, une correspondance avec la signature de connexion paire, il établit une référence croisée entre la ligne qui contient une correspondance avec la signature globale courante et la ligne qui contient une correspondance avec la signature de connexion paire. Si le noyau informatique ne trouve pas dans la table associative 1, une correspondance avec la signature de connexion paire, il crée une ligne dans la table associative 1 en établissant une correspondance de connexion paire avec la signature de connexion paire puis le noyau informatique établit une référence croisée entre la ligne qui contient la correspondance avec la signature globale courante et la ligne qui contient la correspondance avec la signature de connexion paire.

A la suite de l'étape 1003, le noyau informatique active une étape 1004.

Dans l'étape 1005, le noyau informatique regarde dans la ligne de la table associative 1 qui contient une correspondance de connexion détectée avec la signature globale, si la connexion est marquée avec un état classifié.

Si la connexion détectée est marquée avec un état classifié, le noyau informatique active une étape 1006, sinon, le noyau informatique active l'étape 1004.

Dans l'étape 1004, le noyau informatique continue à construire la première structure de données en exécutant les étapes maintenant décrites en référence à la figure 3.

Dans une étape 2000, le noyau informatique pointe d'une part sur la ligne de la table associative 1 qui a été trouvée en étape 1002 ou créée en étape 1003 et d'autre part sur le paquet reçu en étape 1000. Le noyau informatique lit en tant que nom de protocole père, le nom de protocole utilisé qui se trouve à la fin de la suite ordonnée de protocoles utilisés de la ligne pointée.

Le noyau informatique cherche dans la première structure de données si la chaîne de variables binaires contient une variable binaire de valeur non nulle. Si toutes les variables binaires sont nulles, le noyau informatique active une étape 2010. S'il existe au moins une variable binaire non nulle, le noyau informatique active une étape 2001.

Dans l'étape 2001, le noyau informatique regarde dans la colonne 103 du tableau 101 si le protocole père est de type implicite. Si le protocole _. père est de type implicite, le noyau informatique active une étape 2004. Sinon, c'est à dire si le protocole père est de type explicite, le noyau informatique active une étape 2002.

Dans l'étape 2002, le noyau informatique transmet le contenu du paquet au mécanisme auto-identificateur associé au nom de protocole père et demande au mécanisme auto- - identificateur de lui retourner le nom de protocole fils. Le mécanisme auto-identificateur du protocole père applique aux données contenues dans le paquet soumis, les règles de reconnaissance du protocole fils et retourne au 5 noyau informatique, une réponse contenant le nom de protocole fils si les données sont suffisantes pour valider l'intégralité des prémisses ou retourne une réponse d'attente de données complémentaires si les données sont insuffisantes pour valider l'intégralité des

10 prémisses.

A réception de la réponse du mécanisme autoidentificateur, le noyau informatique termine l'étape 1004 si la réponse est de type attente de données complémentaires. Si la réponse contient le nom de

15 protocole fils, le noyau informatique active une étape 2003.

Dans l'étape 2003, le noyau informatique ajoute le nom de protocole fils dans la suite ordonnée de noms de protocoles utilisés et réactive l'étape 2000 pour laquelle

20 le dernier nom de protocole fils ajouté en étape .2003 constitue alors un nom de protocole père. Comme décrit précédemment, la première structure de données comprend une chaîne de variables binaires attribuées chacune à une colonne de tableau 101 à partir de la colonne 105. Avant

25 de réactiver l'étape 2000, le noyau informatique lit chaque cellule du tableau 101 qui se trouve à l'intersection d'une colonne à partir de la colonne 105 et de la ligne du tableau 101 qui contient en colonne 102, le dernier nom de protocole de la suite ordonnée. Pour une

30. cellule non vide, le noyau informatique positionne à l la variable binaire de rang correspondant pour indiquer une probabilité non nulle d'utilisation de nom de protocole référencé par cette cellule. Pour une cellule vide, le noyau informatique positionne à 0 la variable binaire de rang correspondant pour indiquer une probabilité nulle d'utilisation de nom de protocole référencé par cette cellule .

Comme décrit précédemment, l'étape 2004 est activée si le protocole père est de type implicite, c'est à dire qu'il n'identifie pas de façon certaine le protocole transporté. Dans l'étape 2004, le noyau informatique cherche dans une deuxième table associative 2, s'il existe une correspondance entre la signature courante et une deuxième suite ordonnée de noms de protocoles qui contient la première suite ordonnée de noms de protocoles qui est celle répertoriée dans la première table associative 1. Si le noyau informatique trouve une telle deuxième suite ordonnée dans la table 2, il active une étape 2005. Sinon, le noyau informatique active une étape 2006.

Dans l'étape 2005, le noyau informatique récupère dans la deuxième suite ordonnée, le ou les noms de protocole qui succèdent au nom de protocole père en en conservant l'ordre. Le noyau informatique supprime ensuite la deuxième suite ordonnée dans la table associative 2 puis active l'étape 2003. Dans l'étape 2003, le noyau informatique ajoute le nom de protocole fils ou les noms de protocole fils dans la première suite ordonnée de noms de protocoles utilisés en conservant leur ordre. Avant de réactiver l'étape 2000, le noyau informatique positionne les variables de la chaîne de variables binaires pour le dernier nom de protocole ajouté dans la suite ordonnée de noms de protocoles utilisés.

Dans l'étape 2006, le noyau informatique lit successivement une variable non nulle de la chaîne de variables binaires dans la première structure de données, en commençant par la première variable binaire non nulle. De la cellule du tableau 101 avec un rang correspondant à la variable binaire non nulle, le noyau informatique déduit un nom de protocole fils dit probable. Le noyau informatique soumet le paquet de données au mécanisme auto-identificateur associé au nom de protocole fils probable en demandant au mécanisme auto-identificateur si le paquet qui lui est soumis, lui permet d'identifier de façon certaine que le protocole fils est un protocole utilisé. A réception de la réponse du mécanisme autoidentificateur, le noyau informatique active une étape 2007.

Dans l'étape 2007, le noyau informatique active l'étape 2003 si mécanisme auto-identificateur répond que le protocole fils est utilisé, le noyau informatique active une étape 2008 si mécanisme auto-identificateur répond que le protocole fils n'est pas utilisé, le noyau informatique active une étape 2012 si mécanisme autoidentificateur répond que le protocole fils est peut-être utilisé.

Dans l'étape 2008, le noyau informatique positionne la variable binaire courante à 0 pour indiquer que le nom de protocole fils n'est pas celui d'un protocole utilisé. Le noyau informatique active ensuite l'étape 2012. Dans l'étape 2012, le noyau informatique regarde dans la chaîne de variables binaires s'il existe une variable binaire non nulle après celle qui a conduit à l'activation précédente de l'étape 2006. S'il existe une variable binaire non nulle, le noyau informatique active l'étape 2006 pour la nouvelle variable binaire non nulle détectée en étape 2012. S'il n'existe pas de variable binaire non nulle, le noyau informatique active une étape 2009.

Dans l'étape 2009, le noyau informatique regarde si la chaîne de variables binaires ne contient que des valeurs nulles. Si la chaîne de variables binaires ne contient que des valeurs nulles, le noyau informatique active l'étape 2010. Sinon, c'est à dire si la chaîne de variables binaires contient au moins une valeur non nulle, le noyau informatique active une étape 2011.

Dans l'étape 2010, le noyau informatique marque un état de connexion classifiee dans la première structure de donnée puis active l'étape 2011.

Dans l'étape 2011, le noyau informatique met à jour la connexion paire en complétant la première structure de donnée associée à la connexion paire avec la suite ordonnée de noms de protocoles utilisés et la chaîne de variables binaires contenues dans la première structure de données associée à la connexion courante. Le noyau informatique termine alors l'étape 1004.

Après l'étape 1004, le noyau informatique active l'étape 1006 maintenant décrite en référence à la figure 2.

Dans l'étape 1006, le noyau informatique considère successivement un nom de protocole de la suite ordonnée de noms de protocoles utilisés en commençant par le nom de protocole qui suit le nom Base. Le noyau informatique regarde dans la colonne 104 si le nom de protocole considéré correspond à un protocole générateur de connexion dynamique. Si le nom de protocole considéré ne correspond pas à un protocole générateur de connexion dynamique, le noyau informatique active une étape 1010. Si le nom de protocole considéré correspond à un protocole générateur de connexion dynamique, le noyau informatique active une étape 1008.

Dans l'étape 1008, le noyau informatique soumet le paquet de données au mécanisme auto-identificateur associé au nom de protocole considéré pour demander au mécanisme auto-identificateur s'il détecte qu'une connexion dynamique est générée dans le paquet de données soumis et si oui de retourner les noms de protocoles prévus et les identificateurs source et destination de la connexion dynamique qui est générée. Si le mécanisme autoidentificateur retourne des noms de protocoles prévus et des identificateurs source et destination pour une connexion dynamique, le noyau informatique active une étape 1009. Sinon, c'est à dire si le mécanisme auto- identificateur répond qu'il ne détecte aucune génération de connexion dynamique, le noyau informatique active l'étape 1010.

Dans l'étape 1009, le noyau informatique ajoute dans la deuxième table associative 2, une deuxième structure de données, associée à une connexion future en utilisant la première structure de donnée associée à la connexion courante et en utilisant la réponse retournée par le mécanisme auto-identificateur en étape 1008.

Dans l'étape 1010, le noyau informatique regarde s'il existe un nom de protocole suivant dans la suite ordonnée de noms de protocoles utilisés. S'il existe un nom de protocole suivant dans la suite ordonnée de noms de protocoles utilisés, le noyau informatique réactive l'étape 1006 pour ce nom de protocole suivant. Sinon, c'est à dire s'il n'existe pas de nom de protocole suivant dans la suite ordonnée de noms de protocoles utilisés, le noyau informatique éjecte le paquet reçu en étape 1000 pour que ce paquet poursuive son chemin jusqu'à sa destination suivante.

Le procédé qui vient d'être décrit, est réitéré pour chaque réception de paquet en étape 1000.

Claims

Revendications .

1. Procédé pour classifier au moyen d'un système informatique, des connexions détectées entre émetteurs et récepteurs dans des réseaux de communication qui utilisent des protocoles nommés chacun par un nom de protocole utilisable, caractérisé en ce que dans le système informatique : à chaque nom de protocole utilisable, est associé un mécanisme auto-identificateur de protocole agencé pour reconnaître des informations déterminantes du protocole nommé par ce nom, parmi des informations véhiculées dans une connexion détectée, • à chaque nom de protocole utilisable dit protocole père, est associé une liste vide ou non vide de noms de protocoles utilisables dits protocoles fils, à chaque connexion détectée, un noyau informatique associe (1002, 1003) une première structure de données agencée pour contenir une suite ordonnée de noms de protocoles utilisés qui est initialisee avec un nom de protocole dit de base, pour chaque connexion détectée, le noyau informatique construit (1004) la première structure de données en cherchant (2000) dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme autoidentificateur associé reconnaît (2002, 2007) des informations déterminantes parmi les informations véhiculées puis en ajoutant (2003) à la fin de la suite ordonnée, le nom de protocole fils lorsqu'il est trouvé et en recommençant à chercher tant qu'il est possible de trouver (2009) dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme autoidentificateur associé reconnaît des informations déterminantes parmi les informations véhiculées, le noyau informatique déclare (2010) classifiee la connexion détectée lorsqu'il n'est plus possible de trouver dans la liste de noms de protocole fils, associée au dernier nom de ladite suite ordonnée, un nom de protocole fils pour lequel le mécanisme autoidentificateur associé reconnaît des informations déterminantes parmi les informations véhiculées.

2. Procédé pour classifier des connexions selon la revendication 1, caractérisé en ce que pour chercher un nom de protocole fils, le noyau informatique soumet (2006) l'information véhiculée, à chaque mécanisme autoidentificateur associé à un nom de la liste de noms de protocoles fils jusqu'à ce que l'un des mécanismes -auto- identificateur déclare (2007) reconnaître des informations déterminantes ou jusqu'à ce qu'aucun mécanisme autoidentificateur ne puisse déclarer reconnaître (2012) des informations déterminantes.

3. Procédé pour classifier des connexions selon la revendication 1, caractérisé en ce que pour chercher un nom de protocole fils, le noyau informatique soumet (2002) l'information véhiculée au mécanisme auto-identificateur associé au dernier nom de ladite suite ordonnée, de façon à ce que ce mécanisme auto-identificateur trouve le nom du protocole fils parmi les informations déterminantes du protocole père.

4. Procédé pour classifier des connexions selon l'une des revendications précédentes, caractérisé en ce que le noyau informatique élabore (1001) une signature courante pour chaque connexion détectée, ^' en soumettant tout ou partie de l'information véhiculée à au moins un mécanisme auto-identificateur associé à l'un des noms de rang faible dans ladite suite ordonnée, de façon à ce que ce mécanisme auto-identificateur trouve parmi les informations déterminantes, des indicateurs de source et de destination, incorporés dans ladite signature courante par le noyau informatique.

5. Procédé pour classifier des connexions selon la revendication 4, caractérisé en ce que le noyau informatique répertorie chaque première structure de données dans une première table (1) en établissant une première correspondance associative entre chaque première structure de données et la signature courante élaborée (1001) pour. la connexion associée.

6. Procédé pour classifier des connexions selon la revendication 5, caractérisé en ce que le noyau informatique établit (1003, 2011) dans ladite première table (1) une deuxième correspondance associative entre chaque signature courante et une signature paire dont les indicateurs de source sont les indicateurs de destination de la signature courante et dont les indicateurs de destination sont les indicateurs de source de la signature courante .

7. Procédé pour classifier des connexions selon l'une des revendications 5 ou 6, caractérisé en ce que: le noyau informatique récolte (1000) dans des paquets de données passant par le système informatique au sein de connexions à détecter, les informations véhiculées utiles pour élaborer une signature de façon à élaborer (1001) la signature courante chaque fois que les informations véhiculées utiles sont suffisantes, le noyau informatique utilise la signature courante ainsi élaborée en temps réel pour détecter une connexion, de façon à chercher (1002) dans ladite première table (1), la première structure de données qui correspond à la signature courante, à associer (1003) une nouvelle première structure de données à la connexion détectée lorsqu'il n'existe aucune première structure de données qui correspond à la signature courante et à commencer ou continuer (2000) à construire la première structure de données lorsqu'il existe une première structure de données qui correspond (1002) à la signature courante, en récoltant (1000) dans les paquets de données, les informations véhiculées utiles pour construire de première structure de données.

8. Procédé pour classifier des ' connexions selon la revendication 7, caractérisé en ce que, lorsque les informations utiles récoltées dans un paquet de données ne sont pas suffisantes pour élaborer une signature, le noyau informatique répertorie les informations utiles dans une deuxième table en établissant une correspondance associative entre les informations utiles qui comprennent alors des liens d'appartenance à une même connexion, jusqu'à ce que les informations utiles soient suffisantes pour élaborer la signature courante.

9. Procédé pour classifier des connexions selon lune des revendications précédentes, caractérisé en ce que: le noyau informatique parcourt (1006) les- noms de protocoles utilisés de la suite ordonnée dans la structure de donnée qu'il construit pour détecter (1007) chaque nom de protocole à connexion dynamique, pour chaque nom de protocole à connexion dynamique détecté, le noyau informatique soumet (1008) les informations véhiculées au mécanisme auto-identificateur associé au nom détecté de façon à déterminer s'il existe une connexion dynamique ultérieure et si une connexion ultérieure existe, à lui associer (1009) une deuxième structure de données agencée pour contenir une suite ordonnée de noms de protocoles potentiels qui débute avec le nom de protocole dit de base.

10. Procédé pour classifier des connexions selon les revendications 5 et 9, caractérisé en ce que le noyau informatique répertorie (1009) chaque deuxième structure de données dans une deuxième table (2) en établissant une correspondance associative entre chaque deuxième structure de données et une - signature potentielle élaborée par le mécanisme auto-identificateur associé au nom détecté.

11. Procédé pour classifier des connexions selon la revendication 10, caractérisé en ce que le noyau informatique construit en outre la première structure de données : - en cherchant (2004) les suites ordonnées de noms de protocoles potentiels dans lesquelles est incluse la suite ordonnée de noms de protocoles utilisés et, lorsqu'il existe (2005) une suite ordonnée de noms de protocoles potentiels dont la signature potentielle correspond à la signature courante, en complétant (2003) la première structure de données au moyen de la deuxième structure de donnée.