AI büyük model yarışması: Akademik atılımlardan long'cu çatışmalara

AI Büyük Model Yarışması: Akademik Sıcak Noktalardan Mühendislik Problemlerine

Geçen ay, AI alanında şiddetli bir "hayvan savaşı" patlak verdi.

Bir taraf, açık kaynak özelliği ile geliştiriciler arasında popüler olan Llama alpaka. Diğer taraf ise Falcon adı verilen büyük model. Mayıs ayında, Falcon-40B piyasaya sürüldükten sonra açık kaynak LLM sıralamasında alpakanın önüne geçti.

Bu sıralama, açık kaynaklı model topluluğu tarafından hazırlanmıştır ve LLM yeteneklerini değerlendirmek için bir standart sunmaktadır. Sıralama esasen Llama ve Falcon'un sırayla güncellenmesidir. Llama 2 piyasaya sürüldüğünde, lama ailesi geçici olarak öne geçti; ancak Eylül başında, Falcon 180B versiyonunu yayımlayarak yeniden daha yüksek bir sıralama elde etti.

İlginçtir ki, "Şahin"in geliştiricisi bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nin başkentindeki bir teknoloji yenilik araştırma enstitüsüdür. Hükümet yetkilileri, bu projeye katılmalarının temel oyuncuları altüst etmek için olduğunu belirtti.

Artık AI alanı çeşitli gelişmelerin yaşandığı bir aşamaya girdi. Güçlü ülkeler ve şirketler kendi büyük dil modellerini oluşturuyor. Körfez bölgesinde birden fazla oyuncu var - Ağustos ayında Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çip satın aldı.

Bir yatırımcı şikayet etti: "O zamanlar internetin iş modeli yeniliklerini küçümsüyordum, bariyer olmadığını düşünüyordum. Beklemediğim bir şey, sert teknoloji büyük model girişimi hâlâ yüzlerce model savaşına dönüşüyor..."

Yüksek zorlukta bir sert teknoloji olarak adlandırılan şey, nasıl oldu da herkesin katılabileceği bir akıma dönüştü?

Transformer'ın Yükselişi

Amerika'daki girişim şirketleri, Çinli teknoloji devleri ve Orta Doğulu petrol baronları büyük modellere yönelmek için o ünlü makale "Attention Is All You Need"e teşekkür etmelidir.

2017'de, 8 bilgisayar bilimcisi bu makalede Transformer algoritmasını açıkladı. Bu makale şu anda AI tarihindeki en çok alıntı yapılan üçüncü belge ve Transformer'ın ortaya çıkışı bu AI dalgasını ateşledi.

Mevcut çeşitli büyük modeller, dünya çapında ses getiren GPT serisi de dahil olmak üzere, Transformer temeli üzerine inşa edilmiştir.

Bundan önce, "makinelerin okumayı öğrenmesi" kabul edilen bir akademik sorun olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da dikkate alarak anlarlar. Erken dönem sinir ağlarının girdi verileri birbirinden bağımsızdı, uzun metinleri anlayamadı ve sık sık çeviri hataları yaptı.

2014 yılında, Google bilim adamı Ilya Sutskever ilk kez bir atılım gerçekleştirdi. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını önemli ölçüde artırdı. RNN, her nöronun hem mevcut hem de bir önceki zaman diliminin girişini almasını sağlayan "döngü tasarımı"nı önerdi, böylece "bağlamı birleştirme" yeteneğine sahip oldu.

RNN'nin ortaya çıkışı akademik dünyanın araştırma heyecanını ateşledi, ancak geliştiriciler kısa süre içinde ciddi bir kusuru olduğunu keşfettiler: Bu algoritma sıralı hesaplamalar kullanıyor, bağlam problemini çözmesine rağmen, çalışma verimliliği düşüktür ve çok sayıda parametreyi işlemekte zordur.

2015 yılından itibaren, Noam Shazeer ve diğer 8 araştırmacı RNN'nin bir alternatifi üzerinde çalışmaya başladı ve nihai sonuç Transformer oldu. RNN ile karşılaştırıldığında, Transformer'ın iki büyük devrimi var: biri, döngüsel tasarımın yerini alan konum kodlaması kullanarak paralel hesaplama sağlar, böylece eğitim verimliliğini önemli ölçüde artırır ve AI'yı büyük model çağında ileri taşır; diğeri ise bağlam anlama yeteneğini daha da güçlendirir.

Transformer, birçok eksikliği bir anda çözdü ve giderek NLP alanında ana akım bir çözüm haline geldi. Bu, büyük modellerin teorik araştırmadan tamamen mühendislik sorununa dönüşmesini sağladı.

2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirerek akademiyi şaşırttı. Google hemen ardından, yalnızca parametre ve hesaplama gücünü arttırarak GPT-2'yi aşan daha güçlü Meena'yı tanıttı. Bu, Transformer yazarlarından Shazeer'i derinden etkiledi ve "Meena dünyayı yutuyor" başlıklı bir not yazdı.

Transformer'ın piyasaya sürülmesinden sonra, akademideki temel algoritma yenilik hızında büyük bir yavaşlama yaşandı. Veri mühendisliği, hesaplama gücü ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmalarının anahtarları haline geldi. Belirli bir teknik yeterliliğe sahip olan şirketler, büyük modeller geliştirebiliyor.

Bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde bir konuşma yaparken şunları belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve üretken yapay zeka da dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi genel teknolojilerdir."

OpenAI hâlâ LLM'nin yön göstericisi olsa da, analiz kuruluşları GPT-4'ün avantajlarının esasen mühendislik çözümlerinde yattığını düşünüyor. Eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir. Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 ile karşılaştırılabilir büyük modeller oluşturabileceğini öngörüyor.

Zayıf Savunma Hattı

Artık "Yüz Model Savaşı" abartılı bir ifade değil, objektif bir gerçek.

İlgili raporlar, bu yıl Temmuz itibarıyla, yurt içinde büyük model sayısının 130'a ulaştığını ve ABD'nin 114 modelini geçtiğini göstermektedir. Çeşitli mitolojik hikayeler, artık yerli teknoloji şirketlerinin isimlendirmesi için yeterli olmamaktadır.

Çin ve ABD dışında, bazı daha zengin ülkeler de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirmiştir: Japonya ve BAE kendi büyük modellerine sahipken, Hindistan hükümetinin öncülüğünde Bhashini ve Güney Kore internet şirketi Naver tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.

Bu sahne, sanki internetin erken dönemindeki balonların havada uçuştuğu zamana geri dönmüş gibiydi. Önceki metinde belirtildiği gibi, Transformer, büyük modelleri saf bir mühendislik sorunu haline getirdi; yeter ki birisi paraya ve ekran kartına sahip olsun, gerisi parametrelere bırakılır. Ancak giriş eşiği düşük olsa da, bu herkesin AI döneminin devlerinden biri olabileceği anlamına gelmez.

Başlangıçta bahsedilen "Hayvan Savaşı" tipik bir örnektir: Falcon, sıralamada Llama'yı geçmesine rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor.

Herkesin bildiği gibi, şirketler kendi başarılarını açık kaynak yaparak hem teknolojik faydaları paylaşmayı hem de toplumsal aklı harekete geçirmeyi amaçlıyor. Farklı kesimlerin Llama‘yı sürekli kullanması ve geliştirmesiyle, Meta bu başarıları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu temel rekabet avantajıdır.

Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu benimsedi; Zuckerberg sosyal medyadan geldi ve "kamu ilişkilerini iyi yönetme" konusunda daha derin bir anlayışa sahip.

Ekim ayında, Meta ayrıca "Yapay Zeka Tabanlı Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolarlık hibe alma şansına sahip.

Günümüzde, Meta'nın Llama serisi açık kaynak LLM'lerin öncüsü haline geldi. Ekim ayı başı itibarıyla, bir açık kaynak LLM sıralamasının ilk 10'unda 8 tanesi Llama 2 temel alınarak geliştirilmiştir. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmaktadır.

Elbette, Falcon gibi performansı artırmak da mümkündür, ancak şu anda piyasada bulunan çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.

Örneğin, kısa bir süre önce GPT-4, AgentBench testinde 4.41 puan alarak birinci oldu. AgentBench, Tsinghua Üniversitesi ve birçok ünlü Amerikan üniversitesi tarafından ortaklaşa geliştirilen, LLM'nin çok boyutlu açık ortamlardaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılan bir testtir. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı senaryoyu kapsamaktadır.

Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve farkın hala belirgin olduğunu gösteriyor. Oysa ki o büyük ses getiren açık kaynak LLM'lerin çoğu 1 puan civarında ve GPT-4'ün dörtte birinden bile az.

Bilmek gerekir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü, bu, dünya genelindeki rakiplerin altı ay sonra ulaşabildiği bir sonuçtur. Bu farkı yaratan, OpenAI'nin mükemmel bilim insanı ekibi ve uzun süreli LLM araştırma deneyimidir, bu nedenle her zaman öncü kalabilmektedir.

Yani, büyük modellerin temel avantajı parametreler değil, ekosistem inşasıdır ( açık kaynak ) veya saf çıkarım yeteneği ( kapalı kaynak ).

Açık kaynak topluluğu giderek daha aktif hale geldikçe, farklı LLM'lerin performansları benzer model mimarileri ve veri setleri kullanıldığı için benzeşebilir.

Bir diğer daha sezgisel zorluk ise: Midjourney dışında, görünüşe göre gerçekten kâr elde edebilen başka bir büyük model yok.

Değer Bağlantıları Nerede

Bu yılın Ağustos ayında, "OpenAI'nin 2024 sonunda iflas etme olasılığı" başlıklı bir makale dikkatleri üzerine çekti. Makalenin ana teması, neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok fazla.

Metinde belirtildiği üzere, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nın zararları hızla arttı, sadece 2022 yılında yaklaşık 540 milyon dolar zarar etti ve yalnızca Microsoft'un yatırımlarıyla ayakta kalabiliyor.

Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu ortaya koyuyor: maliyetler ve gelirler ciddi şekilde dengesiz.

Aşırı yüksek maliyetler, şu anda AI ile büyük para kazananların yalnızca NVIDIA olduğunu ve en fazla Broadcom'un da eklenebileceğini gösteriyor.

Danışmanlık şirketi Omdia'nın tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satışı gerçekleştirdi. Bu, AI eğitim verimliliği son derece yüksek bir çip ve dünya genelindeki teknoloji şirketleri ile araştırma kuruluşları tarafından kapışılıyor. Eğer bu 300.000 H100'ü üst üste koyarsak, ağırlığı 4.5 Boeing 747 uçağına eşdeğer.

NVIDIA'nin performansı hızla yükseldi, yıllık gelir %854 artarak Wall Street'i şok etti. Şu anda H100, ikinci el piyasada 40.000-50.000 dolara satılmakta, oysa malzeme maliyeti yalnızca yaklaşık 3.000 dolar.

Yüksek hesaplama gücü maliyetleri, bir bakıma sektördeki gelişimin önünde bir engel haline gelmiştir. Sequoia Capital, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcayacağını tahmin etti; buna karşın, büyük modeller her yıl en fazla 75 milyar dolar gelir elde edebilir, bu da en az 125 milyar dolarlık bir açığın olduğunu göstermektedir.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük yatırımlar yaptıktan sonra hala net bir kâr modeli bulamadı. Özellikle sektörün liderleri Microsoft ve Adobe'nun keşifleri biraz sekteye uğramış durumda.

Microsoft'un OpenAI ile birlikte geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft'un her kullanıcıdan 20 dolar zarar etmesine sebep oluyor. Aşırı kullanıcılar, Microsoft'un aylık 80 dolar zarar etmesine neden oluyor. Bu nedenle, fiyatı 30 dolar olan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.

Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe da kullanıcıların aşırı kullanımını önlemek için hızlı bir şekilde bir puan sistemi başlattı, bu da şirketin zarar etmesine yol açabilir. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecektir.

Microsoft ve Adobe'nin iş senaryolarının net olduğu ve büyük miktarda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Çoğu parametre yığılmış büyük modellerin en büyük uygulama alanı hala sohbet.

Inkar edilemez ki, eğer OpenAI ve ChatGPT birdenbire ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç gerçekleşmeyecekti; ancak şu anda, büyük modellerin eğitilmesinin yarattığı değer henüz tartışmaya açık görünüyor.

Ayrıca, homojen rekabetin artması ve açık kaynak modellerinin çoğalmasıyla birlikte, sadece büyük model tedarikçileri daha büyük zorluklarla karşılaşabilir.

iPhone 4'ün başarısı 45nm üretim sürecine sahip A4 işlemciden değil, bitki savaşı zombiler ve öfkeli kuşlar gibi uygulamaları oynayabilmesinden kaynaklanmaktadır.

GPT-4.69%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Repost
  • Share
Comment
0/400
BearMarketNoodlervip
· 08-10 06:40
klasik petrol zenginlik insanları enayi yerine koymak
View OriginalReply0
RumbleValidatorvip
· 08-09 23:00
Stabilite test verileri yayınlanmadı, güvenilirliği doğrulamak zor.
View OriginalReply0
BanklessAtHeartvip
· 08-09 21:36
Sanayi Partisi coşkulu Açık Kaynak gelecektir. Önerim saldırıya geçin.
View OriginalReply0
GateUser-c799715cvip
· 08-09 21:26
Dövüş BAE'ye kadar gitti.
View OriginalReply0
AirdropHunterXMvip
· 08-09 21:13
Kavga kavga, kim kazandıysa o kazanır.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)