Yandex, büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi

Yandex, IST Austria, NeuralMagic ve KAUST araştırmacılarıyla işbirliği yaparak büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi.

#AQLM #Dil Modelleri için Eklemeli Niceleme #LLM #PV-Tuning #Yandex

23.07.2024 - 13:38 Yayınlanma

23.07.2024 - 13:54 Güncelleme

2 Dk Okunma Süresi

Yandex, büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi

İSTANBUL (AA) - Yandex, IST Austria, NeuralMagic ve KAUST araştırmacılarıyla işbirliği yaparak büyük dil modelleri için iki yeni sıkıştırma yöntemi geliştirdi.

Şirketten yapılan açıklamaya göre, geliştirilen "Dil Modelleri için Eklemeli Niceleme (AQLM)" ve "PV-Tuning" yöntemleri, model boyutunda 8 kata kadar azalma sağlarken yanıt kalitesini yüzde 95 koruyor.

Bu yeni yaklaşım, kaynakları optimize etmeyi ve büyük dil modellerinin çalıştırılmasında verimliliği artırmayı amaçlıyor. Araştırmanın detayları, Viyana, Avusturya'da devam eden Uluslararası Makine Öğrenimi Konferansı'na (ICML) sunuldu.

-Donanım maliyetlerinde 8 kata kadar azalma

AQLM, sıkıştırma sürecinde geleneksel olarak bilgi erişiminde kullanılan eklemeli niceleme yöntemini kullanıyor. Bu yöntem, aşırı sıkıştırma altında modelin doğruluğunu koruyarak ev bilgisayarları gibi günlük cihazlarda kullanılmasını mümkün kılıyor ve bellek tüketimini önemli ölçüde azaltıyor.

PV-Tuning ise model sıkıştırma işlemi sırasında ortaya çıkabilecek hataları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sınırlı bilgi işlem kaynaklarında bile yüksek kalitede yanıtlar sağlanabiliyor.

Bu yöntemlerin etkinliği, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modeller kullanılarak değerlendirildi. Araştırmacılar, büyük dil modellerini sıkıştırarak yanıt kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile test etti. Modeller, 8 kat sıkıştırılmalarına rağmen yüzde 95 oranında yanıt kalitesini korumayı başardı.

Yeni yöntemler, tescilli dil modellerini ve açık kaynaklı büyük dil modellerini geliştiren ve dağıtan şirketler için önemli ölçüde kaynak tasarrufu sağlıyor. Örneğin, sıkıştırma sonrası 13 milyar parametreye sahip LLama 2 modeli, artık 4 yerine sadece 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlıyor. Bu sayede girişimler, bireysel araştırmacılar ve büyük dil modelleri meraklıları LLama gibi gelişmiş dil modellerini günlük bilgisayarlarında çalıştırabilecek.

-Çevrimdışı gerçek zamanlı dil çevirisi

AQLM ve PV-Tuning, modellerin sınırlı hesaplama kaynaklarına sahip cihazlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları sağlıyor. Bu cihazlara entegre edilen gelişmiş büyük dil modelleri sayesinde kullanıcılar, metin ve görüntü oluşturma, sesli yardım, kişiselleştirilmiş öneriler ve hatta gerçek zamanlı dil çevirisini aktif bir internet bağlantısına ihtiyaç duymadan kullanabiliyor.

Ayrıca, bu yöntemlerle sıkıştırılan modeller daha az hesaplama gerektirdiğinden 4 kata kadar daha hızlı çalışabiliyor.

Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub'da bulunan AQLM ve PV-Tuning'i kullanabiliyor. Tanıtım sunumları, çeşitli uygulamalar için sıkıştırılmış büyük dil modellerini etkili bir şekilde eğitmek için rehberlik sunuyor. Geliştiriciler, bu yöntemler kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri de indirebiliyor.