Yeni programlar, bilgisayarların görmesi için yüksek gelirli içgörülerin ayrıntıları |  MİT Haberleri

Yeni programlar, bilgisayarların görmesi için yüksek gelirli içgörülerin ayrıntıları | MİT Haberleri

Birkaç dakikalık kalabalık bir caddeye göz attığınızda, ardından gördüğünüz sahneyi hafızanızdan çizmeye çalışmayı hayal edin. Çoğu kişi arabaları, insanlar ve yaya geçişleri gibi büyük ürünlerin kaba konumlarını çizebilir, ancak neredeyse hiç kimse onun detayını piksel seviyesinde mükemmel bir doğrulukla çizemez. Aynı şey çoğu modern bilgisayarlı veri kaybı için geçerlidir: Bir sahnenin üst düzey ayrıntılarını yakalamada harikadırlar, ancak bilgilerde ince taneli ayrıntılar görüntülenir.

Artık MİT araştırmacılarıFeatUpBu, ekonomiklerin bir sahnesinin tüm yüksek ve düşük seviyeli ayrıntılarını aynı anda yakalamasına olanak tanır; Neredeyse bilgisayarlı görme için Lasik göz ameliyatına göre farklılık gösterir.

Bilgisayarlar görüntüler ve videolara bakarak “görmeyi” öğrenilirken, “özellikler” adı verilen bir şey boyunca sahnede ne yerde “fikirler” oluştururlar. Bu özellikleri oluşturmak için derin ağlar ve görsel temel modeller, görüntülerdeki küçük karelerden oluşan bir birleşikya böler ve fotoğraflarda neler olduğunu belirlemek için bu kareleri grup halinde işler. Her küçük kare genellikle 16 ila 32 piksel arasında herhangi bir yerden oluşur, dolayısıyla bu çıkışların kesilmesi, birlikte çalıştıkları görüntülerden önemli ölçüde daha küçüktür. Algoritmalar, fotoğrafları özetlemeye ve inceleyerek çok sayıda pikselin netliğini kaydetmeye yarar.

FeatUp yazılımı bu bilgi kaybını durdurabilir ve hız veya kaliteden ödün vermeden herhangi bir derin ağın azalmasını sağlayabilir. Bu, araştırmacıların herhangi bir yeni veya mevcut programın erimesini hızlı ve kolay bir şekilde kullanabileceğine olanak tanır. Örneğin, tümörün lokalizasyonu amacıyla bir akciğer kanseri tespitlerinin tahminlerini yorumlamaya çalışmayı hayal edin. Algoritmayı sınıf aktivasyon haritaları (CAM) gibi bir yöntem kullanarak yorumlamadan önce FeatUp'ı gösterir, modele göre tümörün nerede bulunabileceğine dair çok daha ayrıntılı (16-32x) bir görünüm sağlanabilir.

FeatUp yalnızca hücrelerin modellerini anlamalarına yardımcı olmaz, aynı zamanda nesne algılama, anlamlı bölümleme (nesne etiketleriyle bir görüntüdeki piksellere etiket atama) ve derinlik tahmini gibi farklı parçaların bir kümesini de geliştirebilir. Bunu, otonom sürüşten tıbbi görüntülemeye kadar çeşitli görüntü uygulamaları oluşturmak için hayati öneme sahip, daha doğru, yüksek performanslı özellikler sağlamayı başarıyor.

“Tüm bilgisayarlı görmenin özü, derin öğrenme mimarilerinin derinliklerinden ortaya çıkan bu derin, akıllı özelliklerde yatmaktadır. Modern tarayıcıların en büyük sorunu, büyük bölümleri 'akıllı' özelliklerinin çok küçük parçalarına indirgemeleri, akıllı içgörüler elde edilenler ancak daha ince ayrıntıları kaybetmeleridir” diyor MIT Bilgisayar Bilimleri elektrik mühendisliği ve bilgisayar bilimleri alanında MIT doktora öğrencisi Mark Hamilton. ve Yapay Zeka Laboratuvarı (CSAIL) üyesi ve ortak baş yazar kağıt proje hakkında. “FeatUp her iki dünyada da başarılı olmanıza yardımcı oluyor: orijinal dosyanın kaydedilmesiyle son derece akıllı gösterimler. Bu yüksek performanslı özellikler, nesne algılamayı yaygın ve derinlik tahmininin yayılmasından, yüksek performanslı analiz yoluyla ağınızın karar verme sürecinin daha iyi anlaşılmasını sağlayana kadar çeşitli bilgisayarlı görme görevlerinde performansı önemli ölçüde artar.”

Çözünürlük rönesansı

Bu büyük yapay zeka modelleri giderek daha yaygın hale geldikçe, yeni dönemde, baktıklarını ve yeni düşüncelerin ortaya çıkmasında ihtiyaçlar da artıyor.

Peki FeatUp bu ince taneli ayrıntıları tam olarak nasıl keşfedebilir? Beklenen bir şekilde işin sırrı, kıpırdayan ve titreyen görüntülerde bulunuyor.

FeatUp özellikle küçük ayarlamalar uygular (görüntüyü birkaç piksel sola veya bozulurk gibi) ve bir uygulamanın bu hafif hareketlerine nasıl tepki verir. Bu, hepsi biraz farklı olan ve tek bir net, yüksek performanslı, derin özellikler kümesi halinde birleştirilebilir, seçilebilir, geniş özellik haritasıyla genişletilebilir. Hamilton, “Bazı yüksek enflasyonlu özelliklerin mevcut olduğunu ve bunları oynatıp büyüttüğümüzda, oynatılan görüntülerdeki tüm orijinal, düşük performansla eşleşeceklerini hayal ediyoruz. Amacımız, ne kadar iyi olduğumuzu bilmemizi sağlayan bu 'oyunu' kullanarak düşük performanstaki yüksek seçenekleri nasıl dönüştürebileceğimizi açıklıyor,” diyor Hamilton . Bu algoritmaların, tahmin edilen 3B nesnenin onu oluşturmak için kullanılan tüm 2B fotoğraflarla eşleşmesini sağlayarak birden fazla 2B görüntüden 3B model oluşturmasına benzer. FeatUp'ın durumunda, orijinal görüntünün titretilmesiyle tüm düşük ücretli özellik haritalarıyla yüksek seçenekli bir özellik görünümü öngörülüyor.

Ekip, PyTorch'ta bulunan standart araçlar için yetersiz olduğunu belirterek, hızlı ve etkili bir çözüm arayışında yeni bir tür derin ağ oyunculukta oynadı. Özel bir ortak ikili dil işlemi olan özel katmanları, PyTorch'taki basit bir uygulamadan 100 kat daha verimliydi. Ekip ayrıca bu yeni katmanın anlamsız bölümleme ve derinlik tahmini de dahil olmak üzere çok çeşitli farklı türleri geliştirebileceğini gösterdi. Bu katman, ağın yüksek piksellerini işleme ve anlama yeteneğini geliştirerek, onu kullanan tüm yazılımlara önemli bir performans artışı sağladı.

“Başka bir uygulama, küçük nesne satın alma adı verilen bir uygulamadır; burada çalıştırmamız, hassas bir şekilde konumlandırılmasına olanak tanır. Örneğin, FeatUp ile zenginleştirilmiş iyileştirmeler, karmaşık yol sahnelerinde bile, düşük kırmızı kuzenlerinin başarısız olduğu trafik konileri, reflektörler, ışıklar ve çukurlar gibi Küçük görüntüler görüntülenebiliyor. Bu, kaba özelliklerin ayrıntılı sinyallere dönüştürme olanağını gösteriyor,” diyor Berkeley'deki California Üniversitesi'nde doktora öğrencisi ve yeni FeatUp makalesinin başka bir ortak yazarı olan MNG '23, Stephanie Fu '22. “Bu özellikle sürücüz bir araçta, karmaşık bir otoban üzerindeki trafik işaretlerinin yerini belirleyen gibi zamana duyarlı cihazlar için kritik önem taşıyor. Bu, yalnızca geniş tahminleri kesin yerelleştirmelere dönüştürülerek bu tür kesintilerinin kalıcılığı kalır, aynı zamanda bu sistemler daha güvenilir, yorumlanabilir ve güvenilir hale gelir olabilir.”

Sırada ne var?

Ekip, geleceğe yönelik hedeflerle ilgili olarak FeatUp'ın doğrulama iyileştirme uygulamalarına benzer şekilde araştırma topluluğu ve uluslararası yaygın olarak benimsenme potansiyelinin sunulduğu çiziliyor. Fu, “Amaç, bu yöntemi derin öğrenmede temel bir araç haline getirmek, modelleri zenginleştirerek, geleneksel yüksek matematiksel işlemenin hesaplama verimi olmadan dünyayı daha ayrıntılı olarak algılamaktır” diyor.

Araştırmada yer alan Cornell Üniversitesi bilgisayar bilimi yapıldı Noah Snavely, “FeatUp, görsel temsilleri tam görüntü çıkışında üreterek gerçekten kullanışlı hale getirme yönünde harika bir ilerlemeyi temsil ediyor” diyor. “Öğrenilmiş görsel temsiller son birkaç yılda gerçekten iyi hale geldi, ancak neredeyse her zaman çok dosyalar düşükte üretiliyor; tam güzel bir fotoğraf koyabilir ve geri, küçük, posta pulu hava koşullarında özellikleri tabloları elde edebilirsiniz. Bu özellikleri tam olarak gösterilen çıktılar uygulamalarda kullanmak istiyorsanız bu FeatUp, süper geniş klasik bir yerde modern öğrenme yöntemleriyle birleştirerek güzel, yüksek sorunlu özellik haritaları ortaya çıkararak bu çözümü yaratıcı bir şekilde çözüyor.”

“Bu basit fikrin geniş bir uygulama sahibi olabileceğini. MIT elektrik mühendisliği ve bilgisayar bilimleri işlemleri ve CSAIL üyesi kıdemli yazar William T. Freeman, “Daha önce yalnızca düşük seviyede yapılabilirliği yüksek lisanslı görüntü analiz versiyonlarını sağlıyor” diyor.

Baş yazarlar Fu ve Hamilton'a, MIT CSAIL'in mevcut veya eski bağlı sistemler olan MIT doktora diploması Laura Brandt SM '21 ve Axel Feldmann SM '21'in yanı sıra Zhoutong Zhang SM '21, PhD '22 üyesi oluyor. Araştırmaları kısmen Ulusal Bilim Vakfı Lisansüstü Araştırma Bursu tarafından desteklenmektedir., Ulusal Bilim Vakfı ve Ulusal İstihbarat Direktör Ofisi, ABD Hava Kuvvetleri Araştırma Laboratuvarı ve ABD Hava Kuvvetleri Yapay Zeka Hızlandırıcısı tarafından. Grup, Mayıs ayında Uluslararası Öğrenme Temsilleri Konferansı'nda sunacak.

Youtube