- 💥 End to end yaklaşımıyla eğitilmiş tek bir sinir ağı içerir
- Bir görüntüyü girdi olarak alır ve bounding boxes ve her box için sınıf etiketlerini (label) direkt tahmin eder
- 😕 Bu teknik daha düşük tahmin doğruluğu sunar (örneğin, daha fazla yerelleştirme (localization) hatası) Bölge tabanlı modellere göre
- ➗ YOLO giriş görüntüsünü bir S × S grid'e böler. Her hücre yalnızca bir objeyi tahmin eder
👷♀️ Uzun lafın kısası: Sistem giriş görüntüsünü S × S grid'e böler. Bir objenin merkezi bir hücreye düşerse, bu hücre bu objeyi algılar.
- 🚀 Hız
- 🤸♀️ Gerçek zamanlı (real time) uygulamalar için uygundur
- 😕 Küçük boyutlu nesnelerde düşük performans
- Kesin olmayan obje konumları verebilir
TODO: Compare versions of YOLO
- 💥 Tek bir derin sinir ağını kullanarak görüntüdeki objeleri tahmin eder.
- 🤓 Ağ, feature map'lara uygulanan küçük convolutional filtreleri kullanarak her bir obje kategorisinin varlığı için puanlar oluşturur.
- ✌ Bu yaklaşım, belirli objelerin varlığı için bounding boxes ve scores üreten bir feed-forward CNN kullanır.
- ❗ Bu modelde, her feature map hücresi bir dizi varsayılan bounding boxe'a bağlanır
- Feature extraction için belirli bir convolution'dan geçtikten sonra, mxn boyutunda bir feature layer elde ediyoruz (Konumların sayısı) ve p kanala sahip , aşağıdaki 8×8 ve 4×4 gib
- Ve bu m×n×p özellik katmanına 3 × 3 convolution uygulanır
- Her konum için, k tane bounding boxes elde ediyoruz. Bu kutular farklı boyutlara ve en boy oranlarına sahiptir.
- Olay, belki dikey bir dikdörtgen insan sığdırabilirken yatay bir dikdörtgen araba için sığdırabilir.
- Kutuların her biri için, orijinal varsayılan kutu şekline göre c sınıfı skorları ve 4 ofsetleri hesaplayacağız.
SSD obje algılama algoritması 2 bölümden oluşur:
- Feature map'leri çıkarma
- convolution filtrelerini tespit edilen objelere uygulama.
- YOLO'ya göre daha iyi doğruluk
- Bölge tabanlı algoritmalara göre daha iyi hız