Derinlik Tahmini Bilimsel Makale · Devam Ediyor¶
Python PyTorch OpenCV timm HuggingFace NumPy Plotly
Problem¶
Monoküler görüntülerden doğru derinlik tahmini, bilgisayarlı görüde temel bir zorluk olmaya devam etmektedir. Stereo eşleştirme sistemleri yüksek doğruluk elde etse de pahalı çift kamera kurulumları gerektirir. Monoküler derinlik tahmini yöntemleri daha pratiktir ancak genellikle alt görevler için gereken hassasiyetten yoksundur. Monoküler ve stereo yaklaşımlar arasındaki bu fark, hibrit bir stratejiyi motive eder.
Yaklaşım¶
Bu proje, stereo eşleştirme performansını artırmak için sentetik stereo üretimi ile birleştirilmiş kompakt monoküler derinlik tahmini için bir pipeline geliştirir. Sistem:
- Tek bir görüntüden derinlik tahmin eder — kompakt, verimli sinir ağları kullanarak
- Sentetik stereo çifti sentezler — tahmin edilen derinlik haritasını kullanarak giriş görüntüsünü ileri çarpıtma ile
- Stereo eşleştirme uygular — rafine edilmiş eşitsizlik haritaları üretmek için sentetik çift üzerinde
Yaklaşım, birden fazla derinlik tahmini mimarisini ve stereo eşleştirme algoritmalarını karşılaştırır; standart veri setleri üzerinde model boyutu, çıkarım hızı ve doğruluk arasındaki ödünleşimleri değerlendirir.
Temel Özellikler¶
- Birden fazla derinlik modeli mimarisi — doğruluk ve verimlilik karşılaştırması
- İnpainting ile ileri çarpıtma — gerçekçi sentetik stereo üretimi
- Maliyet hacmi tabanlı stereo eşleştirme — sentetik çiftler üzerinde
- Çapraz veri seti değerlendirmesi — genelleme analizi
- Kayıp fonksiyonu ablasyon çalışmaları — optimal eğitim hedeflerini belirleme
- Kapsamlı değerlendirme metrikleri — AbsRel, RMSE, δ eşikleri, stereo kalitesi
Mimari¶
graph LR
A[Monoküler Görüntü] --> B[Derinlik Tahmini]
B --> C[Derinlik Haritası]
C --> D[İleri Çarpıtma]
A --> D
D --> E[Sentetik Stereo Çifti]
E --> F[Stereo Eşleştirme]
F --> G[Rafine Eşitsizlik]
Sonuçlar¶
Detaylı karşılaştırmalar, ablasyon çalışmaları ve çapraz veri seti değerlendirmeleri tam dokümantasyon sitesinde mevcuttur. Temel deneyler:
- Derinlik modeli karşılaştırması — mimariler arasında doğruluk ve çıkarım hızı
- Kayıp fonksiyonu ablasyonu — optimal eğitim hedeflerini belirleme
- Stereo kalite değerlendirmesi — sentetik stereo artırmasından elde edilen iyileşmenin ölçülmesi
- Çapraz veri seti genellemesi — KITTI ↔ NYU Depth V2 transfer performansı
Teknoloji Yığını¶
| Bileşen | Teknoloji |
|---|---|
| Framework | PyTorch + torchvision |
| Model Havuzu | timm (PyTorch Image Models) |
| Bilgisayarlı Görü | OpenCV |
| Model Hub'ı | HuggingFace Hub |
| Görselleştirme | Plotly + Kaleido |
| Veri Setleri | KITTI, NYU Depth V2 |
| Dokümantasyon | Zensical |