Skip to content

Derinlik Tahmini Bilimsel Makale · Devam Ediyor

Python PyTorch OpenCV timm HuggingFace NumPy Plotly

GitHub Tam Dokümantasyon


Problem

Monoküler görüntülerden doğru derinlik tahmini, bilgisayarlı görüde temel bir zorluk olmaya devam etmektedir. Stereo eşleştirme sistemleri yüksek doğruluk elde etse de pahalı çift kamera kurulumları gerektirir. Monoküler derinlik tahmini yöntemleri daha pratiktir ancak genellikle alt görevler için gereken hassasiyetten yoksundur. Monoküler ve stereo yaklaşımlar arasındaki bu fark, hibrit bir stratejiyi motive eder.

Yaklaşım

Bu proje, stereo eşleştirme performansını artırmak için sentetik stereo üretimi ile birleştirilmiş kompakt monoküler derinlik tahmini için bir pipeline geliştirir. Sistem:

  1. Tek bir görüntüden derinlik tahmin eder — kompakt, verimli sinir ağları kullanarak
  2. Sentetik stereo çifti sentezler — tahmin edilen derinlik haritasını kullanarak giriş görüntüsünü ileri çarpıtma ile
  3. Stereo eşleştirme uygular — rafine edilmiş eşitsizlik haritaları üretmek için sentetik çift üzerinde

Yaklaşım, birden fazla derinlik tahmini mimarisini ve stereo eşleştirme algoritmalarını karşılaştırır; standart veri setleri üzerinde model boyutu, çıkarım hızı ve doğruluk arasındaki ödünleşimleri değerlendirir.

Temel Özellikler

  • Birden fazla derinlik modeli mimarisi — doğruluk ve verimlilik karşılaştırması
  • İnpainting ile ileri çarpıtma — gerçekçi sentetik stereo üretimi
  • Maliyet hacmi tabanlı stereo eşleştirme — sentetik çiftler üzerinde
  • Çapraz veri seti değerlendirmesi — genelleme analizi
  • Kayıp fonksiyonu ablasyon çalışmaları — optimal eğitim hedeflerini belirleme
  • Kapsamlı değerlendirme metrikleri — AbsRel, RMSE, δ eşikleri, stereo kalitesi

Mimari

graph LR
    A[Monoküler Görüntü] --> B[Derinlik Tahmini]
    B --> C[Derinlik Haritası]
    C --> D[İleri Çarpıtma]
    A --> D
    D --> E[Sentetik Stereo Çifti]
    E --> F[Stereo Eşleştirme]
    F --> G[Rafine Eşitsizlik]

Sonuçlar

Detaylı karşılaştırmalar, ablasyon çalışmaları ve çapraz veri seti değerlendirmeleri tam dokümantasyon sitesinde mevcuttur. Temel deneyler:

  • Derinlik modeli karşılaştırması — mimariler arasında doğruluk ve çıkarım hızı
  • Kayıp fonksiyonu ablasyonu — optimal eğitim hedeflerini belirleme
  • Stereo kalite değerlendirmesi — sentetik stereo artırmasından elde edilen iyileşmenin ölçülmesi
  • Çapraz veri seti genellemesi — KITTI ↔ NYU Depth V2 transfer performansı

Teknoloji Yığını

Bileşen Teknoloji
Framework PyTorch + torchvision
Model Havuzu timm (PyTorch Image Models)
Bilgisayarlı Görü OpenCV
Model Hub'ı HuggingFace Hub
Görselleştirme Plotly + Kaleido
Veri Setleri KITTI, NYU Depth V2
Dokümantasyon Zensical