Page 77

Ο αλγόριθμός δεν απαιτεί κάποιο συγκριμένο μέγεθος στις εικόνες εισόδου,

ωστόσο είναι προτιμότερο να χρησιμοποιηθεί ένα σταθερό μέγεθος εισόδου για την

αύξηση της ταχύτητας επεξεργασίας αλλά και την αποφυγή διαφόρων προβλημάτων

που ενδέχεται να προκύψουν κατά την εκτέλεση. Όταν οι εικόνες επεξεργάζονται

σε παρτίδες μπορούν να επεξεργαστούν παράλληλα από την GPU, γεγονός που θα

μειώσει σημαντικά το χρόνο εκτέλεσης. Το δίκτυο υποβαθμίζει (downsample) την

εικόνα με τον παράγοντα stride του δικτύου. Αν παραδείγματος χάριν ένα δίκτυο

έχει stride ίσο με 32 pixels, για μία εικόνα μεγέθους 416 x 416 θα προκύψει έξοδος

μεγέθους 13 x 13.

Η Είσοδος του Συστήματος

Η είσοδος στο σύστημα είναι τρισδιάστατοι πίνακες εικόνων σε παρτίδες με

μέγεθος (m, 416, 416, 3) και η έξοδος λίστα κουτιών οριοθέτησης μαζί με τις ανα-

γνωρισμένες κλάσεις. Κάθε πλαίσιο οριοθέτησης αντιπροσωπεύεται από 6 αριθμούς

(pc, bx, by, bh, bw, c).

Με τον ίδιο τρόπο όπως σε όλους τους αλγόριθμους εντοπισμού αντικειμένων τα

χαρακτηριστικά όπου το συνελικτικό δίκτυο έμαθε από τα συνελικτικά στρώματα

μεταφέρονται σε έναν ταξινομητή (classifier) / παλινδρομητή (regressor) που κάνει

την πρόβλεψη ανίχνευσης (συντεταγμένες των ορίων οριοθέτησης, την ετικέτα κλά-

σης, κ.λπ.).

Στο YOLO, η πρόβλεψη γίνεται χρησιμοποιώντας ένα συνελικτικό επίπεδο που

χρησιμοποιεί 1

×1 συνελίξεις. Έτσι, το πρώτο που εξάγεται είναι ένας χάρτης χαρα-

κτηριστικών. Δεδομένου ότι έχουν χρησιμοποιηθεί 1

× 1 συνελίξεις, το μέγεθος του

χάρτη προβλέψεων (prediction map) είναι ακριβώς το μέγεθος του χάρτη δυνατοτή-

των. Στο YOLO v3, ο τρόπος με τον οποίο αποδίδεται αυτός ο χάρτης πρόβλεψης

είναι ότι κάθε κελί μπορεί να προβλέψει έναν καθορισμένο αριθμό πλαισίων οριο-

θέτησης (bounding box).