background image

σισμένες στη μηχανική μάθηση είτε στη βαθιά μάθηση. Όσο αφορά τη μηχανική

μάθηση, αρχικά ορίζονται τα χαρακτηριστικά και στη συνέχεια χρησιμοποιείται μια

τεχνική όπως η μηχανή φορέα υποστήριξης (SVM) για την ταξινόμηση. Στην περί-

πτωση της βαθιάς μάθησης, οι τεχνικές ανιχνεύουν για αντικείμενα σε όλο το εύρος

της εικόνας χωρίς να καθορίζουν συγκεκριμένα χαρακτηριστικά βασιζόμενες σε συ-

νελικτικά νευρωνικά δίκτυα.

Ένα από τα κύρια προβλήματα της όρασης μηχανής είναι η ανίχνευση αντικειμέ-

νων, η οποία είναι στενά συνδεδεμένη με την ταξινόμηση των αντικειμένων σε κλά-

σεις ούτως ώστε να εξάγεται η πληροφορία ως προς το είδος του αντικειμένου που

αναγνωρίστηκε. Βασικές λειτουργίες αποτελούν ο εντοπισμός αντικειμένων (object

detection/ localization) δηλαδή ο προσδιορισμός της θέσης των αντικειμένων σε μια

δεδομένη εικόνα καθώς και η ταξινόμηση αυτών (object recognition) στις κατηγορίες

που ανήκουν.

Οι σημαντικότεροι αλγόριθμοι βαθιάς μάθησης που χρησιμοποιούνται στην ανί-

χνευση αντικειμένων είναι οι εξής:

• Αλγόριθμοι Προτάσεων Περιοχής (R-CNN, Fast R-CNN, Faster R-CNN, Mask

R-CNN)

• Ανιχνευτής Πολλαπλών Θυρίδων μιας Λήψης (Single Shot MulitBoxDetector-

SSD)

• You Only Look Once (YOLO)

Αλγόριθμοι όπως Faster R-CNN, Mask R-CNN και YOLO αποτελούν τις νεότερες

προσεγγίσεις που συνδυάζουν τα συνελικτικά νευρωνικά δίκτυα με έξυπνη σχεδίαση

και αποτελεσματικότητα, αυξάνοντας τη ταχύτητα αναγνώρισης όταν εκτελούνται

σε ισχυρές GPUs [42].

57