DeepSeek: Yapay Zeka Manzarasını Devrimleştiren Bozucu

AIPU WATON GRUBU

giriiş

Rekabet Eden Büyük Modeller, Pazar Payı İçin Yarışan Bulut Sağlayıcıları ve Çalışkan Çip Üreticileri Arasındaki Süregelen Endişe - DeepSeek Etkisi Devam Ediyor.

Bahar Festivali sona ererken, DeepSeek'i çevreleyen heyecan güçlü kalmaya devam ediyor. Son tatil, teknoloji sektöründe önemli bir rekabet duygusunu vurguladı ve birçok kişi bu "catfish"i tartışıyor ve analiz ediyor. Silikon Vadisi benzeri görülmemiş bir kriz duygusu yaşıyor: açık kaynak savunucuları fikirlerini tekrar dile getiriyor ve hatta OpenAI bile kapalı kaynak stratejisinin en iyi seçim olup olmadığını yeniden değerlendiriyor. Daha düşük hesaplama maliyetlerine ilişkin yeni paradigma, Nvidia gibi çip devleri arasında bir zincirleme reaksiyona yol açarak ABD borsa tarihinde rekor tek günlük piyasa değeri kayıplarına yol açarken, hükümet kurumları DeepSeek tarafından kullanılan çiplerin uyumluluğunu araştırıyor. DeepSeek'in yurtdışında karışık eleştirileri arasında, yurtiçinde olağanüstü bir büyüme yaşıyor. R1 modelinin piyasaya sürülmesinden sonra, ilişkili uygulama trafiğinde bir artış gördü ve bu da uygulama sektörlerindeki büyümenin genel AI ekosistemini ileriye taşıyacağını gösteriyor. Olumlu yönü, DeepSeek'in uygulama olanaklarını genişletecek olması ve ChatGPT'ye güvenmenin gelecekte o kadar pahalı olmayacağını göstermesidir. Bu değişim, DeepSeek R1'e yanıt olarak özgür kullanıcılara o3-mini adlı bir akıl yürütme modeli sağlanması ve o3-mini'nin düşünce zincirini kamuya açık hale getiren sonraki yükseltmeler de dahil olmak üzere OpenAI'nin son faaliyetlerine yansımıştır. Birçok denizaşırı kullanıcı, bu gelişmeler için DeepSeek'e minnettarlığını ifade etmiştir, ancak bu düşünce zinciri bir özet görevi görmektedir.

İyimser bir şekilde, DeepSeek'in yerli oyuncuları birleştirdiği açıktır. Eğitim maliyetlerini azaltmaya odaklanarak, çeşitli yukarı akış çip üreticileri, ara bulut sağlayıcıları ve çok sayıda girişim ekosisteme aktif olarak katılarak DeepSeek modelini kullanmanın maliyet verimliliğini artırıyor. DeepSeek'in makalelerine göre, V3 modelinin tam eğitimi yalnızca 2,788 milyon H800 GPU saati gerektiriyor ve eğitim süreci oldukça kararlı. MoE (Uzmanların Karışımı) mimarisi, 405 milyar parametreye sahip Llama 3 ile karşılaştırıldığında ön eğitim maliyetlerini on kat azaltmak için çok önemlidir. Şu anda, V3, MoE'de bu kadar yüksek seyrekliği gösteren ilk kamuya açık olarak tanınan modeldir. Ek olarak, MLA (Çok Katmanlı Dikkat) özellikle akıl yürütme yönlerinde sinerjik olarak çalışır. "MoE ne kadar seyrek olursa, hesaplama gücünü tam olarak kullanmak için muhakeme sırasında gereken toplu boyut o kadar büyük olur ve KVCache'in boyutu temel sınırlayıcı faktördür; MLA, KVCache boyutunu önemli ölçüde azaltır," diye belirtti Chuanjing Technology'den bir araştırmacı AI Technology Review için yaptığı bir analizde. Genel olarak, DeepSeek'in başarısı yalnızca tek bir teknolojide değil, çeşitli teknolojilerin birleşiminde yatmaktadır. Sektör içeriden kişiler, DeepSeek ekibinin mühendislik yeteneklerini övüyor, paralel eğitim ve operatör optimizasyonundaki mükemmelliklerine dikkat çekiyor ve her ayrıntıyı iyileştirerek çığır açan sonuçlar elde ediyor. DeepSeek'in açık kaynaklı yaklaşımı, büyük modellerin genel gelişimini daha da teşvik ediyor ve benzer modellerin görüntülere, videolara ve daha fazlasına genişletilmesi durumunda, bunun sektör genelinde talebi önemli ölçüde artıracağı öngörülüyor.

Üçüncü Taraf Mantık Hizmetleri için Fırsatlar

Veriler, DeepSeek'in piyasaya sürülmesinden bu yana sadece 21 gün içinde 22,15 milyon günlük aktif kullanıcı (DAU) elde ettiğini, ChatGPT'nin kullanıcı tabanının %41,6'sına ulaştığını ve Doubao'nun 16,95 milyon günlük aktif kullanıcısını geride bıraktığını ve böylece küresel olarak en hızlı büyüyen uygulama haline gelerek 157 ülke/bölgede Apple App Store'da zirveye yerleştiğini gösteriyor. Ancak, kullanıcılar akın akın gelirken, siber korsanlar DeepSeek uygulamasına durmaksızın saldırıyor ve sunucularında önemli bir zorlanmaya neden oluyor. Sektör analistleri, bunun kısmen DeepSeek'in akıl yürütme için yeterli hesaplama gücünden yoksunken eğitim için kartlar dağıtmasından kaynaklandığına inanıyor. Bir sektör içeriden biri AI Technology Review'a, "Sık karşılaşılan sunucu sorunları, ücret talep ederek veya daha fazla makine satın almak için finansman sağlayarak kolayca çözülebilir; nihayetinde, DeepSeek'in kararlarına bağlıdır." dedi. Bu, teknolojiye odaklanmak ile ürünleştirmeye odaklanmak arasında bir denge sunuyor. DeepSeek, kendi kendini idame ettirmek için büyük ölçüde kuantum nicemlemesine güvendi, çok az dış fon aldı, bu da nispeten düşük nakit akışı baskısı ve daha saf bir teknolojik ortamla sonuçlandı. Şu anda, yukarıda belirtilen sorunlar ışığında, bazı kullanıcılar DeepSeek'i sosyal medyada kullanım eşiklerini yükseltmeye veya kullanıcı konforunu artırmak için ücretli özellikler sunmaya teşvik ediyor. Ek olarak, geliştiriciler optimizasyon için resmi API'yi veya üçüncü taraf API'lerini kullanmaya başladı. Ancak, DeepSeek'in açık platformu yakın zamanda "Mevcut sunucu kaynakları kıt ve API hizmeti şarjları askıya alındı." duyurusunu yaptı.

 

Bu, şüphesiz AI altyapı sektöründe üçüncü taraf satıcılar için daha fazla fırsat yaratıyor. Son zamanlarda, çok sayıda yerel ve uluslararası bulut devi DeepSeek'in model API'lerini piyasaya sürdü; yabancı devler Microsoft ve Amazon, Ocak ayının sonunda katılan ilk şirketler arasındaydı. Yerel lider Huawei Cloud, 1 Şubat'ta Silikon tabanlı Flow ile iş birliği yaparak DeepSeek R1 ve V3 akıl yürütme hizmetlerini yayınlayarak ilk adımı attı. AI Technology Review'dan gelen raporlar, Silikon tabanlı Flow'un hizmetlerinin kullanıcı akını gördüğünü ve platformu etkili bir şekilde "çökerttiğini" gösteriyor. Üç büyük teknoloji şirketi olan BAT (Baidu, Alibaba, Tencent) ve ByteDance de, DeepSeek'in V2 modelinin piyasaya sürülmesiyle başlayan ve DeepSeek'in "fiyat kasabı" olarak anılmaya başlandığı geçen yılki bulut satıcısı fiyat savaşlarını anımsatan düşük maliyetli, sınırlı süreli teklifler yayınladı. Bulut satıcılarının çılgınca hareketleri, Microsoft Azure ve OpenAI arasındaki daha önceki güçlü bağları yansıtıyor. Microsoft, 2019'da OpenAI'ye 1 milyar dolarlık önemli bir yatırım yaptı ve 2023'te ChatGPT'nin piyasaya sürülmesinden sonra faydalar elde etti. Ancak, bu yakın ilişki Meta'nın Llama'yı açık kaynaklı hale getirmesinden sonra bozulmaya başladı ve Microsoft Azure ekosistemi dışındaki diğer satıcıların büyük modelleriyle rekabet etmesine olanak tanıdı. Bu durumda, DeepSeek yalnızca ürün ısısı açısından ChatGPT'yi geride bırakmakla kalmadı, aynı zamanda Llama'nın GPT-3'ü yeniden canlandırması etrafındaki heyecana benzer şekilde o1 sürümünün ardından açık kaynaklı modeller de tanıttı.

 

Gerçekte, bulut sağlayıcıları kendilerini AI uygulamaları için trafik ağ geçitleri olarak da konumlandırıyorlar, bu da geliştiricilerle derinleşen bağların önleyici avantajlara dönüştüğü anlamına geliyor. Raporlar, Baidu Smart Cloud'un modelin lansman gününde Qianfan platformu üzerinden DeepSeek modelini kullanan 15.000'den fazla müşteriye sahip olduğunu gösteriyor. Ek olarak, Silikon tabanlı Flow, Luchen Technology, Chuanjing Technology ve DeepSeek modelleri için destek başlatan çeşitli AI Infra sağlayıcıları dahil olmak üzere birkaç küçük firma çözümler sunuyor. AI Technology Review, DeepSeek'in yerelleştirilmiş dağıtımları için mevcut optimizasyon fırsatlarının öncelikle iki alanda mevcut olduğunu öğrendi: biri, karma GPU/CPU çıkarımını kullanırken 671 milyar parametreli MoE modelini yerel olarak dağıtmak için karma muhakeme yaklaşımı kullanarak MoE modelinin seyreklik özelliklerini optimize etmek. Ek olarak, MLA'nın optimizasyonu hayati önem taşıyor. Ancak, DeepSeek'in iki modeli hala dağıtım optimizasyonunda bazı zorluklarla karşı karşıya. Chuanjing Technology'den bir araştırmacı, "Modelin boyutu ve çok sayıda parametresi nedeniyle, özellikle performans ve maliyet arasında optimum dengeyi sağlamanın zor olacağı yerel dağıtımlar için optimizasyon gerçekten karmaşıktır," dedi. En önemli engel, bellek kapasitesi sınırlarının üstesinden gelmektir. "CPU'ları ve diğer hesaplama kaynaklarını tam olarak kullanmak için heterojen bir işbirliği yaklaşımı benimsiyoruz, yalnızca seyrek MoE matrisinin paylaşılmayan kısımlarını yüksek performanslı CPU operatörleri kullanılarak işlenmek üzere CPU/DRAM'e yerleştiriyoruz, yoğun kısımlar ise GPU'da kalıyor," diye açıkladı. Raporlar, Chuanjing'in açık kaynaklı çerçevesi KTransformers'ın öncelikle bir şablon aracılığıyla orijinal Transformers uygulamasına çeşitli stratejiler ve operatörler enjekte ettiğini ve CUDAGraph gibi yöntemleri kullanarak çıkarım hızını önemli ölçüde artırdığını gösteriyor. DeepSeek, büyüme avantajları belirginleştikçe bu girişimler için fırsatlar yarattı; birçok firma DeepSeek API'sini başlattıktan sonra belirgin müşteri büyümesi bildirdi ve önceki müşterilerden optimizasyon arayan talepler aldı. Sektör içeriden kişiler, "Geçmişte, nispeten yerleşik müşteri grupları genellikle ölçek nedeniyle maliyet avantajlarına sıkı sıkıya bağlı olarak daha büyük şirketlerin standartlaştırılmış hizmetlerine kilitlenmişti. Ancak, Bahar Şenliği'nden önce DeepSeek-R1/V3'ün dağıtımını tamamladıktan sonra, aniden birkaç tanınmış müşteriden işbirliği talepleri aldık ve daha önce uykuda olan müşteriler bile DeepSeek hizmetlerimizi tanıtmak için iletişime geçti." Şu anda, DeepSeek'in model çıkarım performansını giderek daha kritik hale getirdiği ve büyük modellerin daha geniş bir şekilde benimsenmesiyle bunun AI Infra endüstrisindeki gelişmeyi önemli ölçüde etkilemeye devam edeceği anlaşılıyor. DeepSeek düzeyinde bir model düşük bir maliyetle yerel olarak dağıtılabilirse, hükümet ve kurumsal dijital dönüşüm çabalarına büyük ölçüde yardımcı olacaktır. Ancak, bazı müşteriler büyük model yetenekleri konusunda yüksek beklentilere sahip olabileceğinden, performans ve maliyeti dengelemenin pratik dağıtımda hayati önem taşıdığı daha belirgin hale geldiğinden zorluklar devam etmektedir. 

DeepSeek'in ChatGPT'den daha iyi olup olmadığını değerlendirmek için, temel farklılıklarını, güçlü yönlerini ve kullanım durumlarını anlamak önemlidir. İşte kapsamlı bir karşılaştırma:

Özellik/Yön Derin Arama SohbetGPT
Sahiplik Çinli bir şirket tarafından geliştirildi OpenAI tarafından geliştirildi
Kaynak Modeli Açık kaynak Tescilli
Maliyet Kullanımı ücretsiz; daha ucuz API erişim seçenekleri Abonelik veya kullanım başına ödeme fiyatlandırması
Özelleştirme Son derece özelleştirilebilir, kullanıcıların ince ayar yapmasına ve üzerine inşa etmesine olanak tanır Sınırlı özelleştirme mevcuttur
Belirli Görevlerde Performans Veri analitiği ve bilgi alma gibi belirli alanlarda mükemmellik gösterir Yaratıcı yazma ve konuşma görevlerinde güçlü performansa sahip çok yönlü
Dil Desteği Çin dili ve kültürüne güçlü odaklanma Geniş dil desteği ancak ABD merkezli
Eğitim Maliyeti Verimlilik için optimize edilmiş daha düşük eğitim maliyetleri Daha yüksek eğitim maliyetleri, önemli miktarda hesaplama kaynağı gerektirir
Tepki Değişimi Muhtemelen jeopolitik bağlamdan etkilenerek farklı yanıtlar sunulabilir Eğitim verilerine dayalı tutarlı yanıtlar
Hedef Kitle Esneklik isteyen geliştiricilere ve araştırmacılara yöneliktir Konuşma yetenekleri arayan genel kullanıcılara yöneliktir
Kullanım Örnekleri Kod oluşturma ve hızlı görevler için daha verimli Metin oluşturmak, soruları yanıtlamak ve diyaloğa girmek için idealdir

"Nvidia'yı Bozmak" Konusunda Eleştirel Bir Bakış Açısı

Şu anda Huawei'nin yanı sıra Moore Threads, Muxi, Biran Technology ve Tianxu Zhixin gibi birkaç yerli çip üreticisi de DeepSeek'in iki modeline uyum sağlıyor. Bir çip üreticisi AI Technology Review'a, "DeepSeek'in yapısı yenilikçilik gösteriyor, ancak yine de bir LLM olarak kalıyor. DeepSeek'e uyum sağlamamız öncelikle akıl yürütme uygulamalarına odaklanıyor ve teknik uygulamayı oldukça basit ve hızlı hale getiriyor." dedi. Ancak MoE yaklaşımı, depolama ve dağıtım açısından daha yüksek talepler gerektiriyor ve yerli çiplerle dağıtım sırasında uyumluluğun sağlanmasıyla birlikte, uyum sırasında çözülmesi gereken çok sayıda mühendislik zorluğu sunuyor. Bir sektör uygulayıcısı, pratik deneyime dayanarak, "Şu anda, yerli hesaplama gücü kullanılabilirlik ve kararlılık açısından Nvidia ile eşleşmiyor ve yazılım ortamı kurulumu, sorun giderme ve temel performans optimizasyonu için orijinal fabrika katılımı gerektiriyor." dedi. Eş zamanlı olarak, "DeepSeek R1'in büyük parametre ölçeği nedeniyle, yerel hesaplama gücü paralelleştirme için daha fazla düğüm gerektirir. Ek olarak, yerel donanım özellikleri hala biraz geride; örneğin, Huawei 910B şu anda DeepSeek tarafından tanıtılan FP8 çıkarımını destekleyemiyor." DeepSeek V3 modelinin öne çıkan özelliklerinden biri, son derece büyük bir modelde etkili bir şekilde doğrulanmış olan ve önemli bir başarıyı işaret eden bir FP8 karma hassasiyetli eğitim çerçevesinin tanıtılmasıdır. Daha önce, Microsoft ve Nvidia gibi büyük oyuncular ilgili çalışmaları önerdi, ancak uygulanabilirlik konusunda sektörde şüpheler devam ediyor. INT8 ile karşılaştırıldığında, FP8'in birincil avantajının, eğitim sonrası kantizasyonun çıkarım hızını önemli ölçüde artırırken neredeyse kayıpsız hassasiyete ulaşabilmesi olduğu anlaşılıyor. FP16 ile karşılaştırıldığında, FP8, Nvidia'nın H20'sinde iki kata kadar ve H100'de 1,5 katın üzerinde hızlanma gerçekleştirebilir. Özellikle, yerel hesaplama gücü ve yerel modeller trendini çevreleyen tartışmalar ivme kazandıkça, Nvidia'nın bozulup bozulmayacağı ve CUDA hendeğinin aşılıp aşılamayacağı hakkındaki spekülasyonlar giderek yaygınlaşıyor. İnkar edilemez bir gerçek, DeepSeek'in Nvidia'nın piyasa değerinde önemli bir düşüşe neden olduğudur, ancak bu değişim Nvidia'nın üst düzey hesaplama gücü bütünlüğüyle ilgili soruları gündeme getiriyor. Sermaye odaklı hesaplama birikimiyle ilgili daha önce kabul görmüş anlatılar sorgulanıyor, ancak Nvidia'nın eğitim senaryolarında tamamen yerini alması hala zor. DeepSeek'in CUDA'yı derinlemesine kullanımının analizi, SM'yi iletişim için kullanma veya ağ kartlarını doğrudan manipüle etme gibi esnekliğin normal GPU'lar için uygun olmadığını gösteriyor. Sektör bakış açıları, Nvidia'nın hendeğinin sadece CUDA'nın kendisini değil, tüm CUDA ekosistemini kapsadığını ve DeepSeek'in kullandığı PTX (Paralel İş Parçacığı Yürütme) talimatlarının hala CUDA ekosisteminin bir parçası olduğunu vurguluyor. "Kısa vadede, Nvidia'nın hesaplama gücü atlatılamaz - bu özellikle eğitimde belirgindir; ancak, muhakeme için yerel kartları dağıtmak nispeten daha kolay olacaktır, bu nedenle ilerleme muhtemelen daha hızlı olacaktır. Yerel kartların uyarlanması öncelikle çıkarıma odaklanır; henüz hiç kimse DeepSeek'in yerel kartlardaki performansının bir modelini ölçekte eğitmeyi başaramadı," diye belirtti bir endüstri analisti AI Technology Review'a. Genel olarak, çıkarım açısından, koşullar yerel büyük model çipler için cesaret vericidir. Eğitimin girişi engelleyen aşırı yüksek gereksinimleri nedeniyle, çıkarım alanındaki yerel çip üreticileri için fırsatlar daha belirgindir. Analistler, yalnızca yerel çıkarım kartlarını kullanmanın yeterli olduğunu; gerekirse ek bir makine edinmenin mümkün olduğunu, ancak eğitim modellerinin benzersiz zorluklar ortaya çıkardığını - artan sayıda makineyi yönetmek külfetli hale gelebilir ve daha yüksek hata oranları eğitim sonuçlarını olumsuz etkileyebilir. Eğitimin ayrıca belirli küme ölçek gereksinimleri vardır, ancak çıkarım için kümelere yönelik talepler o kadar katı değildir, bu nedenle GPU gereksinimlerini kolaylaştırır. Şu anda, Nvidia'nın tek H20 kartının performansı Huawei veya Cambrian'ın performansını geçmiyor; gücü kümelemede yatıyor. Luchen Technology'nin kurucusu You Yang, AI Technology Review ile yaptığı bir röportajda, hesaplama gücü pazarındaki genel etkiye dayanarak, "DeepSeek, ultra büyük eğitim hesaplama kümelerinin kurulmasını ve kiralanmasını geçici olarak baltalayabilir. Uzun vadede, büyük model eğitimi, muhakeme ve uygulamalarla ilişkili maliyetleri önemli ölçüde azaltarak, pazar talebinin artması muhtemeldir. Bu nedenle, buna dayalı AI'nın sonraki yinelemeleri, hesaplama gücü pazarında sürekli talebi sürekli olarak artıracaktır." Ayrıca, "DeepSeek'in muhakeme ve ince ayar hizmetlerine olan artan talebi, yerel kapasitelerin nispeten zayıf olduğu yerel hesaplama ortamıyla daha uyumludur ve kümeleme kurulumundan sonra boşta kalan kaynaklardan kaynaklanan israfı azaltmaya yardımcı olur; bu, yerel hesaplama ekosisteminin farklı seviyelerindeki üreticiler için uygulanabilir fırsatlar yaratır." Luchen Technology, yerel hesaplama gücüne dayalı DeepSeek R1 serisi akıl yürütme API'lerini ve bulut görüntüleme hizmetlerini başlatmak için Huawei Cloud ile iş birliği yaptı. You Yang gelecek hakkında iyimserliğini dile getirdi: "DeepSeek, yerel olarak üretilen çözümlere güven aşılayarak, gelecekte yerel hesaplama yeteneklerine daha fazla heves ve yatırım yapılmasını teşvik ediyor."

微信图片_20240614024031.jpg1

Çözüm

DeepSeek'in ChatGPT'den "daha iyi" olup olmadığı kullanıcının belirli ihtiyaçlarına ve hedeflerine bağlıdır. Esneklik, düşük maliyet ve özelleştirme gerektiren görevler için DeepSeek üstün olabilir. Yaratıcı yazma, genel sorgulama ve kullanıcı dostu konuşma arayüzleri için ChatGPT öne çıkabilir. Her araç farklı amaçlara hizmet eder, bu nedenle seçim büyük ölçüde kullanıldıkları bağlama bağlı olacaktır.

ELV Kablo Çözümü Bulun

Kontrol Kabloları

BMS, BUS, Endüstriyel, Enstrümantasyon Kabloları için.

Yapısal Kablolama Sistemi

Ağ&Veri, Fiber Optik Kablo, Patch Cord, Modüller, Ön Panel

2024 Sergileri ve Etkinlikleri İncelemesi

16-18 Nisan 2024 Ortadoğu-Dubai'de Enerji

16-18 Nisan 2024 Securika Moskova'da

9 Mayıs 2024 Şanghay'da YENİ ÜRÜNLER VE TEKNOLOJİLER LANSMAN ETKİNLİĞİ

22-25 Ekim 2024 Pekin'de GÜVENLİK ÇİN

19-20 Kasım 2024 CONNECTED WORLD KSA


Gönderi zamanı: 10-Şub-2025