background image

της περιοχής που δημιουργούνται από κάθε εικόνα, ως αποτέλεσμα χρήσης του αλ-

γορίθμου επιλεκτικής αναζήτησης, μετατρέπονται σε εισόδους σταθερού μεγέθους,

ανεξάρτητα από το πραγματικό μέγεθος ή την αναλογία διαστάσεων, προκειμέ-

νου να τελειοποιηθεί το CNN. Μια πρόσθετη παράμετρος p χρησιμοποιείται για να

υποδείξει την ποσότητα της πιθανής διαστολής του αρχικού πλαισίου οριοθέτησης

ώστε να συμπεριλάβει κάποιο πλαίσιο γύρω από την περιοχή αυτήν. Το κάθε πλαί-

σιο λαμβάνει μία ετικέτα ταξινόμησης, ανάλογα με το ποσοστό ταύτισης με κάποιο

αντικείμενο. Σε περίπτωση που το ποσοστό αυτό είναι χαμηλότερο από κάποιο κα-

τώφλι (threshold), τότε το πλαίσιο αντιμετωπίζεται ως φόντο.

Στο τέλος του πρώτου σταδίου, το δίκτυο εκπαιδεύεται με ρυθμό εκμάθησης

αρκετά μικρότερο από εκείνον στην αρχική εκπαίδευση. Σε κάθε επανάληψη δοκι-

μάζεται ένας αριθμός παραθύρων τα οποία είναι θετικά σε όλες τις κατηγορίες και

μερικά τα οποία ανήκουν στην τάξη του φόντου, για να διασφαλιστεί ότι υπάρχει

επαρκής αναπαράσταση από τις θετικές κατηγορίες κατά τη διάρκεια της εκπαί-

δευσης.

Τα κύριο πρόβλημα του αλγορίθμου έγκειται στον εκτεταμένο χρόνο εκπαίδευ-

σης, λόγω της ανάγκης για ταξινόμηση 2000 περιοχών ανά εικόνα. Αυτό οδηγεί στην

αδυναμία εκτέλεσης σε πραγματικό χρόνο μιας και κάθε εικόνα χρειάζεται αρκετά

δευτερόλεπτα για να ταξινομηθεί. Τέλος, λόγω της στατικής φύσης του αλγορίθμου,

μπορεί να οδηγήσει σε λάθος προτάσεις περιοχών λόγω και της απουσίας περε-

ταίρω εκπαίδευσης.

Το 2015 o R. Girshick και στην συνέχεια οι R. Shaoqing et al. πρότειναν βελ-

τιώσεις του υπάρχοντος μοντέλου με τους αλγόριθμους Fast R-CNN [33] και Faster

R-CNN [23] αντίστοιχα. Τα προβλήματα που αντιμετωπίζουν αυτοί οι αλγόριθμοι

είναι το γεγονός ότι οι υπολογισμοί χαρακτηριστικών πραγματοποιούνται επανει-

λημμένα για κάθε προτεινόμενη περιοχή της εικόνας και η χαμηλή ταχύτητα εκτέ-

λεσης των αλγορίθμων πρότασης περιοχών. Για το πρώτο πρόβλημα το Fast R-CNN

υπολογίζει μία εικόνα χαρακτηριστικών για ολόκληρη την εικόνα και στην συνέχεια

επεξεργάζεται τις προτεινόμενες περιοχές αυτής της εικόνας, ενώ ταυτόχρονα προ-

59