“Dünyadaki En Akıllı” ı Test etmek GROK3

AIPU Waton Grubu (1)

giriiş

Sizce GROK3 önceden eğitilmiş modellerin "uç noktası" olacak mı?

Elon Musk ve Xai ekibi, bir canlı yayın sırasında GROK, GROK3'ün en son sürümünü başlattı. Bu olaydan önce, Musk'un 7/24 promosyon hype ile birleştiğinde, önemli miktarda ilgili bilgi, GROK3 için küresel beklentileri eşi görülmemiş seviyelere yükseltti. Sadece bir hafta önce Musk, Deepseek R1 hakkında yorum yaparken bir canlı yayın sırasında güvenle söyledi, "Xai daha iyi bir AI modeli başlatmak üzere." Canlı olarak sunulan verilerden, GROK3'ün matematik, bilim ve programlama ölçütlerinde mevcut tüm ana akım modelleri aştığı bildirildi, Musk bile GROK3'ün SpaceX'in Mars misyonlarıyla ilgili hesaplama görevleri için kullanılacağını iddia ederek "Üç yıl içinde Nobel Ödül Düzeyinde kırılmalar." Ancak, bunlar şu anda sadece Musk'un iddiaları. Lansmandan sonra, GROK3'ün en son beta versiyonunu test ettim ve büyük modeller için klasik hile sorusunu sordum: "Bu daha büyük, 9.11 veya 9.9?" Ne yazık ki, herhangi bir nitelik veya işaret olmadan, sözde en akıllı GROK3 hala bu soruyu doğru cevaplayamadı. GROK3, sorunun anlamını doğru bir şekilde tanımlayamadı.

 

Bu test, birçok arkadaştan hızla dikkat çekti ve tesadüfen, yurtdışındaki çeşitli benzer testler, GROK3'ün "Pisa'nın Pisa'nın ilk kulesinden ilk düştüğü" gibi temel fizik/matematik soruları ile mücadele ettiğini gösterdi. Böylece, mizahi bir şekilde "basit soruları cevaplamak istemeyen bir dahi" olarak etiketlendi.

640

GROK3 iyidir, ancak R1 veya O1-Pro'dan daha iyi değildir.

GROK3 pratikte birçok yaygın bilgi testinde "başarısızlıklar" yaşadı. Xai lansman etkinliği sırasında Musk, sık sık oynadığını iddia ettiği Exile 2 oyun yolundan karakter sınıflarını ve etkilerini analiz etmek için GROK3 kullanmayı gösterdi, ancak GROK3 tarafından sağlanan cevapların çoğu yanlıştı. Yaygılama sırasında misk bu bariz sorunu fark etmedi.

 

Bu hata, sadece denizaşırı netizenlerin oyunlarda "ikame bulmak" için Musk ile alay ettikleri için daha fazla kanıt sağlamakla kalmadı, aynı zamanda GROK3'ün pratik uygulamalarda güvenilirliğiyle ilgili önemli endişeler yarattı. Böyle bir "dahi" için, gerçek yeteneklerine bakılmaksızın, Mars keşif görevleri gibi son derece karmaşık uygulama senaryolarındaki güvenilirliği şüpheye sahiptir.

 

Şu anda, haftalar önce GROK3'e erişim alan birçok testçi ve model yeteneklerini dün birkaç saat boyunca test edenler, hepsi ortak bir sonuca işaret ediyor: "GROK3 iyi, ancak R1 veya O1-Pro'dan daha iyi değil."

640 (1)

"Nvidia'yı bozma" üzerine eleştirel bir bakış açısı

Sürüm sırasında resmi olarak sunulan PPT'de, GROK3'ün chatbot arenasında “çok ileride” olduğu gösterilmiştir, ancak bu akıllıca kullanılan grafik teknikleri: Lider tablosundaki dikey eksen, 1400-1300 skor aralığındaki sonuçları listeledi, bu da test sonuçlarındaki orijinal% 1 farkı bu sunumda istisnai olarak anlamlı göründü.

640

Gerçek model puanlama sonuçlarında, GROK3, Deepseek R1 ve GPT-4.0'dan sadece% 1-2 öndedir, bu da birçok kullanıcının "fark edilebilir fark" olmayan pratik testlerde deneyimlerine karşılık gelir. GROK3, haleflerini sadece%1-2 oranında aşar.

640

GROK3, halka açık test edilen tüm modellerden daha yüksek puan almış olsa da, birçoğu bunu ciddiye almıyor: Sonuçta, Xai daha önce GROK2 döneminde "skor manipülasyonu" için eleştirildi. Lider tablosu cevap uzunluğu stilini cezalandırdıkça, skorlar büyük ölçüde azaldı, endüstri içericilerinin "yüksek puanlama ama düşük yetenek" olgusunu sık sık eleştirmeye yol açtı.

 

İster liderlik tahtası "manipülasyon" ister resimlerde tasarım hileleri olsun, Xai ve Musk'ın model yeteneklerinde "paketi yönetme" kavramına takıntıyı ortaya çıkarırlar. Musk bu marjlar için dik bir fiyat ödedi: Lansman sırasında 200.000 H100 GPU (canlı yayın sırasında "100.000'den fazla" olduğunu iddia etmek ve toplam 200 milyon saatlik bir eğitim süresi elde etmekle övündü. Bu, bazılarının GPU endüstrisi için bir başka önemli nimeti temsil ettiğine ve Deepseek'in sektör üzerindeki etkisini "aptal" olarak görmesine inanmasına neden oldu. Özellikle, bazıları saf hesaplama gücünün model eğitiminin geleceği olacağına inanmaktadır.

 

Bununla birlikte, bazı netizenler, Deepseek V3'ü üretmek için iki ay boyunca 2000 H800 GPU tüketimini karşılaştırdı ve GROK3'ün gerçek eğitim güç tüketiminin V3'ün 263 katı olduğunu hesapladı. 1402 puan alan Deepseek V3 ve GROK3 arasındaki boşluk 100 puanın biraz altında. Bu verilerin piyasaya sürülmesinin ardından, birçoğu hızlı bir şekilde GROK3'ün "dünyanın en güçlü" olarak başlığının net bir marjinal fayda etkisi olduğunu fark etti - daha güçlü performans üreten daha büyük modellerin mantığı azalma getirileri göstermeye başladı.

640 (2)

"Yüksek puanlama ama düşük yetenek" ile bile, GROK2, kullanımı desteklemek için X (Twitter) platformundan büyük miktarda yüksek kaliteli birinci taraf veriye sahipti. Bununla birlikte, GROK3'ün eğitiminde, Xai doğal olarak Openai'nin şu anda karşılaştığı "tavan" ile karşılaştı - premium eğitim verilerinin eksikliği, modelin yeteneklerinin marjinal faydasını hızla ortaya koyuyor.

 

GROK3 ve MUSK geliştiricileri, bu gerçekleri derinden anlayan ve tanımlayan ilk geliştiricilerdir, bu yüzden Musk sosyal medyada sürekli olarak kullanıcıların yaşadığı sürümün "hala sadece beta" olduğunu ve "tam sürümün önümüzdeki aylarda piyasaya sürüleceğini" belirtti. Musk, GROK3'ün Ürün Yöneticisi rolünü üstlendi ve kullanıcıların yorum bölümünde karşılaşılan çeşitli konular hakkında geri bildirim sağladığını öne sürdü.

 

Yine de, bir gün içinde, GROK3'ün performansı şüphesiz daha güçlü büyük modelleri eğitmek için "büyük hesaplama kasına" güvenmeyi ümit edenler için alarmlar yükseltti: halka açık Microsoft bilgilerine dayanarak, Openai'nin GPT-4'ü GPT-3'ün on katından fazla bir parametre boyutuna sahiptir. Söylentiler, GPT-4.5'in parametre boyutunun daha da büyük olabileceğini düşündürmektedir.

 

Model parametre boyutları yükseldikçe, eğitim maliyetleri de hızla artmaktadır. GROK3'ün varlığı ile, GPT-4.5 gibi yarışmacılar ve parametre boyutu yoluyla daha iyi model performansı elde etmek için “parayı yakmaya” devam etmek isteyen diğerleri, şimdi açıkça görünürde olan tavanı dikkate almalı ve nasıl üstesinden geleceğini düşünmelidir. Şu anda, Openai'nin eski baş bilim adamı olan Ilya Sutskever, daha önce geçen Aralık ayında, tartışmalarda yeniden ortaya çıkan "bildiğimiz öncesi antrenman yaparak sona erecek" ve büyük modelleri eğitmek için gerçek yolu bulma çabalarını istedi.

640 (3)

Ilya'nın bakış açısı sektördeki alarm çaldı. Erişilebilir yeni verilerin yakın tükenmesini doğru bir şekilde öngörerek, veri toplama yoluyla performansın artırılmaya devam edemeyeceği bir duruma yol açarak fosil yakıtların tükenmesine benziyor. "Petrol gibi, internette insan tarafından üretilen içeriğin sınırlı bir kaynak olduğunu" belirtti. Sutskever'in tahminlerinde, yeni nesil modeller, antrenman sonrası, "gerçek özerklik" ve "insan beynine benzer" akıl yürütme yeteneklerine sahip olacak.

 

Öncelikle içerik eşleşmesine dayanan (daha önce öğrenilen model içeriğine dayanarak) günümüzün önceden eğitilmiş modellerinden farklı olarak, gelecekteki AI sistemleri, sorunları insan beyninin "düşüncesine" benzer şekilde çözmek için metodolojiler öğrenebilir ve oluşturabilir. Bir insan sadece temel profesyonel literatüre sahip bir konuda temel yeterlilik elde edebilirken, AI büyük bir model sadece en temel giriş seviyesi etkinliğini elde etmek için milyonlarca veri noktası gerektirir. İfadeler biraz değiştirilse bile, bu temel sorular doğru bir şekilde anlaşılamayabilir, bu da modelin zekada gerçekten gelişmediğini göstermektedir: makalenin başlangıcında belirtilen temel ama çözülemez sorular bu fenomenin açık bir örneğini temsil eder.

微信图片 _20240614024031.jpg1

Çözüm

Bununla birlikte, Brute Force'un ötesinde, eğer GROK3 gerçekten endüstriyi "önceden eğitilmiş modellerin sonlarına yaklaşıyor" olduğunu ortaya koymayı başarırsa, bu alan için önemli sonuçlar taşıyacaktır.

Belki de GROK3'ü yavaş yavaş azaldıktan sonra, Fei-Fei Li'nin "sadece 50 $ için belirli bir veri kümesinde yüksek performanslı modeller ayarlama" örneği gibi daha fazla vakaya tanık olacağız, sonuçta AGI için gerçek yolu keşfedeceğiz.

ELV Kablo Çözümünü Bulun

Kontrol Kabloları

BMS, otobüs, endüstriyel, enstrümantasyon kablosu için.

Yapılandırılmış kablolama sistemi

Ağ ve veri, fiber optik kablo, yama kablosu, modüller, yüz plakası

2024 Sergiler ve Etkinlikler İncelemesi

16 Nisan-18, 2024 Dubai'de Orta Doğu-Enerji

Moskova'da 16 Nisan 15, 2024 Securika

9 Mayıs 2024 Şangay'da Yeni Ürünler ve Teknolojiler Lansman Etkinliği

22 Ekim 25, 2024 Pekin'de Güvenlik Çin

19-20 Kasım, 2024 Bağlı Dünya KSA


Zaman Post: 19-2025 Şubat