4
Εκτεταμένη περίληψη
Οι περισσότερες διαδικασίες και υπηρεσίες σήμερα γίνονται μέσω του Διαδικτύου. Η
δικτύωση έχει αναπτυχθεί πολύ τα τελευταία χρόνια, και θα συνεχίσει να εξελίσσεται, χάρη
στην ευρεία εφαρμογή του 5G δικτύου και την έρευνα που ήδη γίνεται στο 6G. Λόγω του
σημαντικού ρόλου που παίζουν τα δίκτυα και το διαδίκτυο στην κοινωνία μας, η
κυβερνοασφάλεια έχει γίνει ζωτικής σημασίας για την προστασία των δεδομένων και των
συσκευών μας. Τα Συστήματα Ανίχνευσης Εισβολών (ΣΑΕ) αποτελούν σημαντικό κομμάτι τόσο
της ασφάλειας, όσο και της ίδιας της δομής του δικτύου, καθώς μπορούν να ανιχνεύσουν και
να αποτρέψουν κακόβουλα προγράμματα και χρήστες από το να παραβιάσουν το δίκτυο, και
να σταματήσουν διάφορα είδη επιθέσεων προτού αποδειχθούν επικίνδυνες. Με τη ραγδαία
εξέλιξη της μηχανικής μάθησης και της τεχνητής νοημοσύνης, η δομή των ΣΑΕ αλλάζει από
τεχνικές βασισμένες σε «υπογραφές», δηλαδή που αναγνωρίζουν συγκεκριμένα μοτίβα
γνωστών επιθέσεων, σε πιο αφηρημένες/γενικευμένες μορφές λειτουργίας βασισμένης σε
αναγνώριση ανωμαλιών, οι οποίες ταξινομούν την κίνηση ως φυσιολογική ή επικίνδυνη.
Οι ανωμαλίες ενός δικτύου μπορεί να προέρχονται από κακόβουλες δραστηριότητες που
εκμεταλλεύονται υπηρεσίες δικτύου, υπερφόρτωση από δεδομένα, δυσλειτουργικές
συσκευές και υπονόμευση διαφόρων παραμέτρων του δικτύου [1], και μπορεί να σχετίζονται
είτε με τις επιδόσεις του (π.χ. υπερχείλιση δεδομένων λόγω κάποιας υπολειτουργικής
μονάδας του δικτύου) είτε με την ασφάλεια (π.χ. εκ προθέσεως υπερχείλιση του δικτύου ώστε
οι χρήστες να μην έχουν πρόσβαση στις υπηρεσίες). Τα ΣΑΕ μπορούν να ανιχνεύσουν
οποιαδήποτε απόκλιση από την φυσιολογική συμπεριφορά, για αυτό είναι καλύτερα από τα
κλασσικά συστήματα υπογραφών στο να ανιχνεύουν καινούριες ή άγνωστες επιθέσεις, αυτό
όμως έρχεται με το κόστος ότι δίνουν περισσότερες λανθάνουσες ειδοποιήσεις.
Το NSL-KDD πακέτο δεδομένων είναι ένα από τα πιο συχνά χρησιμοποιούμενα πακέτα
δεδομένων δικτύου, από όταν δημιουργήθηκε το 2009 [2][3][4]. Συνεχίζει μέχρι σήμερα να
χρησιμοποιείται στην έρευνα σαν benchmark για μοντέλα ανίχνευσης ανωμαλιών στα δίκτυα,
όπως στα παραπάνω άρθρα. Για αυτό, επρόκειτο για ένα εξαιρετικό πακέτο δεδομένων για τη
σύγκριση των διαφόρων μοντέλων που δοκιμάστηκαν σε αυτήν την εργασία, για μια αξιόπιστη
πηγή διαφόρων ειδών επιθέσεων και επιπέδων δυσκολίας ανίχνευσης, τόσο στο πακέτο της
εκπαίδευσης όσο και του ελέγχου των μοντέλων. Επιπρόσθετα, οι διαφορές μεταξύ των δύο
αυτών πακέτων παρείχαν μια πιο ρεαλιστική εικόνα της δυνατότητας των μοντέλων να
ταξινομήσουν σωστά την κίνηση του δικτύου.
Σε αυτή την εργασία, σκοπός είναι να χρησιμοποιηθεί το NSL-KDD για τη σύγκριση πέντε από
τις πιο διαδεδομένες μεθόδους μηχανικής μάθησης σε εφαρμογές ταξινόμησης, οι οποίες
είναι: logistic regression, k nearest neighbours, decision tree, Gaussian Naive Bayes και
multilayer perceptron. Έτσι, στην ενότητα 2 βρίσκεται μια συνοπτική εισαγωγή στη μηχανική
μάθηση για ανίχνευση ανωμαλιών, όπως και συναφής έρευνα που γίνεται τα τελευταία
χρόνια. Επίσης, αναφέρονται τα προτερήματα του NSL-KDD. Η ενότητα 3 παρέχει πληροφορίες
για τους πέντε αλγορίθμους που χρησιμοποιήθηκαν στην εργασία. Στην ενότητα 4, μετά τη
δημιουργία τριών εκφάνσεων του πακέτου δεδομένων, έτσι ώστε να συγκριθούν τα