Üretken yapay zeka, metin ve resim oluşturma yeteneği nedeniyle büyük ilgi görüyor. Ancak bu medya, bugün toplumumuzda hızla çoğalan, yalnızca bir kısmını temsil ediyor. Veriler, bir gidişatla tedavi edilen bir sistemden geçerken, bir fırtınanın uçuş süresinde veya bir kişinin bir yazılım uygulamasıyla etkileşime geçmesinde üretilir.
Bu senaryo, alternatif olarak sentetik veriler oluşturmak için üretken yapay zekanın kullanılması, özellikle gerçek dünya verilerinin sınırlı veya hassas olduğu senaryolarda, aralıkların daha etkili bir şekilde sağlanması, tedavi uçaklarının yeniden yönlendirilmesi veya yazılım platformlarının kullanımına yardımcı olabilir.
Üç yıldır MIT’nin yan ürünü DataCebo, yazılımların yazılım testlerini ve makine geliştirmei modellerini eğitmek gibi şeyler yapmak için sentetik veriler oluşturmasına yardımcı olmak amacıyla Sentetik Veri Kasası adı verilen üretken bir yazılım sistemi sundu.
Sentetik Veri Kasası veya SDV, 1 milyondan fazla kez indirildi ve 10.000’den fazla veri bilimci sentetik tablo verileri oluşturmak için açık kaynak kitaplığını kullanıyor. Kurucular – Baş Araştırma Bilimcisi Kalyan Veeramachaneni ve mezun Neha Patki ’15, SM ’16 – şirketin kayıtlı SDV’nin yazılım testinde devrim yaratma yeteneğinden kaynaklandığına izin verildi.
SDV viral hale geliyor
2016 yılında Veeramachaneni’nin Veriden Yapay Zeka Laboratuvarı’ndaki grubu, para biriminin gerçek para değişimi özellikleriyle karşılanması sentetik veri oluşturmasına yardımcı olacak bir açık üretilen üretken yapay zeka araç paketini oynama.
Şirketler, veri bağlantılarını birleştirmek ilişkilerini korurken, programlarda hassas bilgiler yerine sentetik verileri kullanır. Şirketler ayrıca yeni yazılımları halka sunmadan önce performans gösterdiğini görmek için havalandırmalar yoluyla çalıştırmak için sentetik verileri kullanabilir.
Veeramachaneni’nin grubu bu sorunla karşılaştı çünkü araştırma amacıyla ayrılmak isteyen şirketlerle çalışıyorlardı.
Patki, “MIT tüm bu farklı kullanım durumlarını görmenize yardımcı oluyor” diye açıklıyor. “Finans şirketleri ve sağlık hizmetleri şirketleriyle çalışıyorsunuz ve tüm bu projeler, sektörler arası çözümler formüle etmek için faydalı.”
2020’de araştırmacılar, daha büyük kuruluşlar için daha fazla SDV özelliği oluşturmak amacıyla DataCebo’yu kurdu. Her zaman bu yana, kullanım örnekleri çeşitliliği gösterdiği kadar etkileyici de oldu.
Örneğin, DataCebo’nun yeni uçuşlarının devam etmesiyle havayolları nadir hava olaylarını, yalnızca geçmiş verileri kullanarak imkansız olacak şekilde planlanabilir. Başka bir yazılım SDV Aracıyla, kistik fibrozlu hastaların sağlık sorunları tahmin edilmek üzere tıbbi olarak sentezlendi. Norveç’ten bir ekip yakın zamanda çeşitli kabul politikalarının meritokratik ve önyargısız olup olmamasını sağlamak amacıyla sentetik öğrenci verileri oluşturmak için SDV’yi kullandı.
2021’de veri bilimi platformu Kaggle, özel kayıtları engellemek amacıyla sentetik veri kümeleri oluşturmak için SDV’yi kullanan veri bilimciler için bir yarışmaya ev sahipliği yaptı. Yaklaşık 30.000 veri uzmanı katıldı ve şirketin genel hatlarına dayanarak çözümler geliştirdi ve sonuçlar tahmin etti.
DataCebo büyüdükçe MIT kurumlarına sadık kaldı: Şirketin mevcut çalışanlarının toplamı MIT mezunlarından toplandı.
Süperşarj yazılım testi
Açık kaynak araçların çeşitli kullanım durumları için kullanılsa da şirket, yazılım testindeki gücünü artırmaya odaklanmış durumda.
Veeramachaneni, “Bu yazılımı test etmek için imza ihtiyacınız var” diyor. “Geleneksel olarak geliştiriciler sentetik veriler oluşturmak için komut satırı manuel olarak yazar. SDV, üretken modeller, bakım bir veri kopyadan öğrenilir ve ardından büyük miktarda sentetik veriyi (gerçek verilerle aynı görünüme sahip olan) örnekleyebilir veya belirli senaryolar ve uç durumları oluşturup verilerini kullanarak başvurunuzu yapın test edin.
Örneğin, bir banka, içinde para olmayan hesaplardan yapılan transferleri reddetmek üzere tasarlanmış bir program test etmek isterse, aynı anda işlem yapan birçok hesabın simüle edilmesi gerekir. Bunu manuel olarak verileriyle yapmak çok zaman alır. DataCebo’nun üretken modelleri müşteriler sayesinde, test etmek istedikleri herhangi bir uç durumda bulunabilirler.
Patki, “Endüstrilerin belirli bir düzeyde hassas verilere sahip olması mevcut” diyor. “Genellikle hassas verilerin bulunduğu bir alandayken düzenlemelerle uğraşırsınız ve Yasal düzenlemeler olmasa bile kimin olursa olsun, ne zaman erişilebileceği konusunda dikkatli olmak, bunların arasında yer alır. dolayısıyla gizli gizlilik politikası her zaman daha iyidir.”
Sentetik verileri kesme
Veeramachaneni, DataCebo’nun sentetik kurumsal verileri veya büyük projelerdeki yazılım uygulamalarında kullanıcı davranışlarından üretilen dayanıklılıklar olarak tasarlanan alan geliştirildine tasarlandı.
Veeramachaneni, “Bu tür kurumsal verilerin karmaşıklığı ve dil verilerinden farklı olarak evrensel olarak kullanılabilirliği yoktur” diyor. “İnsanlar halka açık yazılımlarımızı kullandığımızda ve belirli bir model üzerinde çalışmasını rapor ettiğinizde, bu tek modellerin çoğunu öğreniyoruz ve bu, açılışlarımızı geliştirmemize olanak tanıyor.
DataCebo ayrıca yakın zamanda SDV’nin kullanışlılığını artıracak, kaydedilen verilerin “gerçekliğini” değerlendirmeye yönelik araçlar da dahil olmak üzere özelliklerle piyasaya sürüldü. SDMetrics kütüphanesi modellerin performanslarını karşılaştırmanın bir yolunun yanı sıra SDGym.
Veeramachaneni, “Bu, paranın yeni aktarımını sağlamakla ilgili” diyor. “[Our tools offer] programlanabilir sentetik veriler; bu, belgelerin daha şeffaf modeller oluşturmak için kendi iç görünümlerini ve sezgilerini eklemelerine olanak sağladığımız, tanıdığımız anlamına geliyor.”
Her sektördeki yapay zeka ve diğer veri bilimi araçlarını benimsemek için acele ederken, DataCebo bunların daha şeffaf ve sorumlu bir şekilde yapılmasına yardımcı oluyor.
Veeramachaneni, “Önümüzdeki birkaç yıl içinde üretken modellerden elde edilen sentetik veriler, tüm verileri araştırmayla dönüştürecek” diyor. “Kurumsal operasyonların yüzde 90’ının sentetik verilerle yapılabileceğine kadar.”
Cevap bırakın