9 soruda DeepSeek’in yeni modeli: Dünyayı sarsan yapay zeka nasıl değişti?


Çinli yapay zeka girişimi DeepSeek, teknoloji dünyasında büyük ses getiren düşük maliyetli R1 modelinden sonra şimdi de DeepSeek-V3.1 sürümünü tanıttı.
Çarşamba akşamı duyurulan yeni model, şirketin bugüne kadar geliştirdiği en iddialı yapay zeka sistemi olarak öne çıkıyor.
Teknoloji meraklıları heyecanla DeepSeek R-2 modelini bekliyordu. Halihazırda firmanın bu modeli yakında duyurması bekleniyor. Anck R-2 modelinden önce V3.1 modeli geldi.
Bu modeller R serisinden farklı olarak hibrit bir yaklaşımı benimsiyor.
İşte sorularla yeni DeepSeek modeli ve R serisinden farklılıkları:
1. V3.1 MODELİ NEDİR?
685 milyar parametreye sahip olan V3.1, hem kodlama hem mantıksal akıl yürütme hem de sohbet işlevlerini tek bir çatı altında birleştiriyor.
Önceki nesil modellerde normal görevler ve akıl yürütme için ayrı yapılar bulunurken, bu kez “tek model, iki mod” yaklaşımıyla hem “düşünme” hem de “düşünmeme” modu bir arada sunuluyor. Kullanıcılar, uygulama veya web üzerinden yer alan “deep thinking” seçeneğiyle bu modlar arasında geçiş yapabiliyor.
Teknik açıdan bakıldığında V3.1, yalnızca 37 milyar parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisiyle çalışıyor. Bu sayede devasa boyutuna rağmen kullanım maliyetleri düşük tutulabiliyor.
2. 685 MİLYAR VE 37 MİLYAR PARAMETRE NE DEMEK?
Normalde bir yapay zekA modelinin parametre sayısı ne kadar fazlaysa, o kadar çok bilgi barındırabilir ama çalıştırması (inference) o kadar pahalı ve yavaş olur.
DeepSeek-V3.1’in toplam parametre sayısı 685 milyar. Ancak yeni modelde her bir kullanıcı talebinde bu 685 milyarın hepsi aynı anda kullanılmayacak.
İşte burada DeepSeek’in sektörde deprem etkisi yaratmasını sağlayan faktörlerden biri olan “Mixture-of-Experts” (MoE) mimarisi devreye giriyor. Model, “uzman” (expert) diye adlandırılan farklı alt-modüllerden oluşuyor. Yani tüm modelin içinde minik uzman yapay zeka ajanları var. Her işlem için bu uzmanların hepsi değil, sadece konuyla ilgilenen küçük bir kısmı aktif hale geliyor.
DeepSeek-V3.1’de, toplam 685 milyar parametre içinden her bir token (yazı parçacığı) için yalnızca yaklaşık 37 milyarı aktive edilecek.
Bu şu anlama geliyor: Eğitimde tüm 685 milyar parametre öğrenmeye katkı sağlıyor, yani model çok zengin bilgi biriktiriyor. Kullanımda ise aynı anda sadece 37 milyarlık kısım çalışıyor. Böylece yapay zeka aracınız çok daha hızlı ve düşük maliyetli hale geliyor.
Bir şirkette 685 uzman olduğunu düşünelim. Ancak bir sorun çıktığında hepsini aynı anda çağırmak yerine, konuyla en alakalı 37 kişiyi görevlendirmek yeterlidir. Böylece hem iş hızlı ilerler hem de kaynak boşa harcanmaz. Bu günümüz yapay zeka sektöründe önemli bir ilerleme.
3. TEK SEFERDE NE KADAR BÜYÜK BİR METNİ ANLAYABİLECEK?
Model ayrıca 128 bin token’lık bağlam penceresi sunuyor.
Bağlam penceresi (context window) bir dil modelinin “hafızası” gibi çalışır: Model aynı anda ne kadar metni görebiliyor, anlamını sürdürebiliyor, önceki kısımlara referans verebiliyor. İşte bu da kapasiteyi belirliyor.
128 bin token’lık bağlam penceresi piyasada epey yüksek görülüyor. Yani yeni V3.1 modeli, ir kitap uzunluğunda metni (250-300 sayfa) tek seferde işleyebilir. Uzun raporlar, kod tabanları, sözleşmeler veya veri setleri üzerinde bütünlüklü analizler yapabilir. Ayrıca kullanıcıyla yapılan uzun konuşmalarda modelin “unutma” sorunu büyük ölçüde azalmış oluyor.
Kıyaslamak gerekirse; GPT-4 (ilk sürüm): 8 bin 192 token (6-7 bin kelime), GPT-4 Turbo 128 bin token ve Anthropic Claude 3.5 Sonnet modeli ise 200 bin token’lık bağlam pencerelerine sahip.
4. PERFORMANSI NASIL
Şirketin kendi açıklamalarına göre, performans açısından da model dikkat çekici sonuçlar veriyor.
Erken testlerde Aider kodlama kıyaslamasında yüzde 71,6 başarı elde eden DeepSeek-V3.1, böylece Anthropic’in en gelişmiş kapalı modeli Claude Opus 4’ü geride bırakırken, maliyet açısından çok daha avantajlı olduğunu gösteriyor.
Örneğin, bir kodlama görevini yaklaşık 1 dolar maliyetle tamamlarken, benzer Amerikan sistemlerinde bu rakam 70 dolara kadar çıkabiliyor.
Matematiksel yetenekleri ve karmaşık mantık problemlerini çözme becerisi de önceki modellerin üzerine koymuş durumda.
Ancak en net sonucu, şirketle ilişkisi bulunmayan bağımsız uzmanların önümüzdeki günlerde yapacağı denemeler verecek.
5. YİNE AÇIK KAYNAKLI MI?
2025 başında yayınlanan ilk model DeepSeek R-1 aynı zamanda açık kaynaklı olduğu için de deprem etkisi yaratmıştı. Diğer firmalar, geliştirdikleri modellerin tam olarak nasıl işlediğini ve eğitildiğini gösteren kodlarını dışarıya açmazken, DeepSeek bunun tersini yapmıştı.
Bir teknolojinin açık kaynak kodlu olması, aynı zamanda o kodları alıp kendi bilgisayarınıza kurabileceğiniz, daha da geliştirebileceğiniz ve istekleriniz doğrultusunda özelleştirebileceğiniz anlamına geliyor.
V3.1’in en dikkat çekici yönlerinden biri de DeepSeek’in açık kaynak stratejisini sürdürmesi oldu. Model, MIT lisansı altında Hugging Face üzerinden indirilebiliyor ve ticari kullanım için de serbest.
Ancak yaklaşık 700 GB’lık dev boyutu, modeli kendi altyapısında çalıştırmak isteyenler için ciddi bir teknik engel oluşturuyor. Bu nedenle birçok kullanıcı için asıl avantaj, bulut sağlayıcılar üzerinden uygun maliyetli API erişimi olacak. API’ler sayesinde de belirli bir ücret karşılığında yapay zeka modellerini kendi firmanız için özelleştirmeniz mümkün.
DeepSeek ve yakın zamana kadar Meta’nın da katıldığı bu şeffaflık akımı sektörün tamamını etkiledi. Öyle ki OpenAI da GPT-5 modelini açık kaynak politikasını benimseyerek piyasaya sürdü.
6. MERAKLA BEKLENEN R-2 İLE FARKI NEDİR?
Şirketin kurucusu Liang Wenfeng, finans sektöründeki girişimlerinden elde ettiği kaynaklarla DeepSeek’i büyütmeye devam ederken, uzun vadeli hedefinin insan seviyesinde bir sistem hayali olan “genel yapay zeka” (AGI) olduğunu vurguluyor.
R1’in devamı olması beklenen R2 modeliyle ilgili belirsizlik sürerken, V3.1’in hibrit yapısı nedeniyle bu projenin tamamen rafa kalkabileceği de konuşuluyor.
DeepSeek’in R1 modeli “akıl yürütme” odaklı özel bir yapay zekaydı. Daha uzun sürede yanıt veriyor ama karmaşık mantık ve muhakeme gerektiren görevlerde güçlü performans gösteriyordu. Bu yüzden herkes, daha gelişmiş bir R2 sürümünü bekliyordu.
Ancak R2’nin ayrı bir model olarak çıkması yerine, DeepSeek “tek model, iki mod” stratejisini benimsemiş gibi görünüyor. V3.1’de hem “düşünme” hem de “düşünmeme” modları bir arada sunuluyor. Kullanıcılar, ihtiyaca göre bu modlar arasında geçiş yapabiliyor. Yani R1’in mantıksal derinliği artık V3.1’in içinde, ama daha hızlı yanıt verecek şekilde optimize edilmiş durumda.
DeepSeek’e göre V3.1, R1’e kıyasla yanıtları yüzde 50’ye kadar daha hızlı üretebiliyor. Bu da R2’ye gerek bırakmayabilir çünkü zaten beklenen “gelişmiş muhakeme” kabiliyetinin, hibrit yapının içinde çözüldüğü yorumları yapılmaya başladı.
R2, ayrı bir “saf akıl yürütme modeli” olacaktı. Fakat V3.1 ile DeepSeek yönünü “ajan çağı”na çevirdi. Yani gelecekteki hedef, R2 gibi niş bir model yerine, çok yönlü bir tek modelin üzerine yapay zeka ajanları inşa etmek.
7. TÜM BUNLAR KULLANICI AÇISINDAN NE ANLAMA GELİYOR?
Bunların son kullanıcı açısından anlamı ise şu: Önceden, kullanıcı bir görev için hangi modeli seçmesi gerektiğini düşünmek zorundaydı. Örneğin normal sohbet veya kodlama için V3’ü, zor mantıksal görevler için R1’i seçiyordu.
Şimdi ise tek bir model var (V3.1) ve kullanıcı basitçe “düşünme” ya da “düşün” modunu seçebiliyor. Yani aynı sistem hem hızlı cevap verebiliyor, hem de gerektiğinde derin muhakeme yapabiliyor. Bu, kullanıcının kafa karışıklığını ortadan kaldırıyor.
Benzer bir yaklaşımı OpenAI da GPT-5 ile benimsedi. Eskiden ChatGPT kullanıcılarının, o3, 4o veya bunların mini modelleri arasından en uygun olanını bulup kendisinin seçmesi gerekiyordu. Ancak artık hepsi GPT-5’in içinde olacaktı ve kullanıcının bunu düşünmesine gerek kalmayacaktı. Öte yandan kullanıcılar GPT-5 modelini, GPT-4 modeline göre “soğuk” ve “duygusuz” buldu. Taleplerin ardından OpenAI GPT-4’ü geri getirdi.
8. DEEPSEEK ARTIK YERLİ ÇİP Mİ KULLANIYOR?
DeepSeek’in yeni modeli farklı donanımlara uyumlu hale gelmesi için BF16, F8_E4M3, FP8 ve F32 gibi çoklu tensör formatlarını da destekliyor. Özellikle FP8 formatının, yakında piyasaya çıkacak Çin yapımı yeni nesil çiplerle uyumlu çalışacak şekilde optimize edilmesi dikkat çekiyor.
Bu hamle, Pekin’in ABD ihracat kısıtlamaları karşısında kendi yarı iletken ekosistemini güçlendirme politikasının bir parçası olarak yorumlanıyor.
Forbes’a göre DeepSeek, özellikle DeepSeek-V3 için model geliştirmenin temel aşamalarında AMD Instinct GPU’larını (grafik işlem birimleri) ve ROCM yazılımını kullandı.
MIT Technology Review dergisi ise ABD’den Çin’e yönelik çip yaptırımlarının gelmesinden çok önce Liang’ın, şu anda Çin’e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından önemini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başlamıştı.
Yeni yaklaşımla birlikte Çin’de uygun çipler üretilirse artık DeepSeek de yerli çiplere geçebilir.
9. GÜVENLİ Mİ?
DeepSeek kullanımıyla ilgili bir önemli soru başlığı da güvenli olup olmadığı. DeepSeek de tıpkı diğer hizmetlerde olduğu gibi kullanıcının verilerini istiyor ve bunlar muhtemelen Çin’deki sunucularda saklanıyor.
Kullanıcıların herhangi bir yapay zeka modelinde olduğu gibi burada da sohbet botuna hassas verilerini vermemesi önemli.
DeepSeek’in yeni modeli de açık kaynaklı olduğu için bağımsız araştırmacılar ilerleyen günlerde modelin kodlarına bakıp güvenli olup olmadığını belirlemeye yönelik çalışmalar yapabilir.