
Milyonları Etkileyen Amazon (AWS) Kesintisinin Nedeni Belli Oldu: Tek Bir Hata!
Geçtiğimiz günlerde Amazon Web Services (AWS)‘i vuran ve dünya çapında Snapchat, Roblox, Alexa ve Prime Video gibi hayati hizmetleri erişilemez hale getiren devasa kesintinin nedeni belli oldu. Amazon mühendisleri tarafından yayınlanan bir “otopsi” raporuna göre, tüm felaket, Amazon’un devasa ağı içinde sistemden sisteme yayılan tek bir arızadan kaynaklandı.
Ağ istihbarat şirketi Ookla, DownDetector hizmetinin 3.500 kuruluştan 17 milyondan fazla kesinti raporu aldığını ve bu olayın “Downdetector için kaydedilen en büyük internet kesintilerinden biri” olduğunu belirtti.
Sorun Her Zaman DNS’tir: “Race Condition” Hatası
Amazon, kesintinin temel nedeninin, DynamoDB DNS yönetim sistemini çalıştıran bir yazılımdaki “race condition” (yarış koşulu) hatası olduğunu söyledi.
Peki, bu teknik felaket tam olarak nasıl gerçekleşti?
- Race Condition Nedir?: Bir yazılım sürecinin, geliştiricilerin kontrolü dışındaki değişken olayların zamanlamasına veya sırasına bağlı hale gelmesi durumudur. Bu, beklenmedik davranışlara ve zararlı arızalara yol açabilir.
- Felaketin Anatomisi:
- Amazon’un DNS Enactor (Uygulayıcı) adlı bir bileşeni, ağdaki yükü dengelemek için sürekli olarak alan adı arama tablolarını günceller.
- Bu Uygulayıcı, bazı DNS uç noktalarında “olağandışı yüksek gecikmeler” yaşamaya başladı ve güncellemelerini yeniden denemek zorunda kaldı.
- Bu gecikme yaşanırken, DNS Planner (Planlayıcı) adlı ikinci bir bileşen, yeni DNS planları oluşturmaya devam etti.
- Tam bu sırada, ikinci bir DNS Enactor devreye girdi ve bu en yeni planları uygulamaya başladı.
- İki Uygulayıcının bu zamanlaması, “race condition” hatasını tetikledi ve tüm DynamoDB sistemini çökertti.
Basitçe söylemek gerekirse, geciken “eski” planı uygulayan birinci sistem ile “yeni” planı uygulayan ikinci sistem, aynı anda çalışarak sistemi kilitledi ve tüm IP adreslerinin silinmesine neden oldu. Bu durum, sistemi manuel operatör müdahalesi gerektiren tutarsız bir duruma soktu.
Domino Etkisi: Bir Servis Diğerini Nasıl Çökertti?
DynamoDB’nin çöküşü, Amazon’un en büyük ve en eski bölgesi olan US-East-1‘deki diğer servislere dayanan sistemlerin bağlantı hataları yaşamasına neden oldu.
- DynamoDB düzeltildikten sonra bile, EC2 servisleri (sanal sunucular) “işlenmesi gereken önemli bir ağ durumu birikmesi” nedeniyle zorlanmaya devam etti.
- Bu gecikme, diğer AWS hizmetlerinin kararlılık için güvendiği Ağ Yük Dengeleyicisine (Network Load Balancer) sıçradı.
- Sonuç olarak, AWS müşterileri US-East-1 bölgesinden bağlantı hataları yaşadılar ve Redshift, Lambda, Fargate gibi birçok kritik hizmet durdu.
Amazon, bu hatayı düzeltmek ve yanlış DNS planlarının uygulanmasını önlemek için korumalar eklemek üzere dünya çapındaki DynamoDB DNS Planlayıcısını ve Uygulayıcısını geçici olarak devre dışı bıraktı.
Techneiro Analizi: “Tek Bir Başarısızlık Noktası” ve Aşırı Merkezileşme Tehlikesi
Bu olay, modern bulut bilişimin en büyük zaafını, yani “Tek Bir Başarısızlık Noktası” (Single Point of Failure) tehlikesini acı bir şekilde ortaya koyuyor. Ookla’nın da belirttiği gibi, sorun sadece bir yazılım hatası değil, aynı zamanda mimari bir tasarım hatasıdır.
AWS’nin en eski ve en yoğun kullanılan merkezi olan US-East-1 (Virginia), “küresel” olduğu iddia edilen birçok uygulamanın bile kimlik veya meta veri akışları için “çıpa” olarak kullandığı bir merkezdir. Bu bölgesel bağımlılık başarısız olduğunda, etkileri tüm dünyaya yayılır. Snapchat veya Roblox’un neden çöktüğünü anlamayan milyonlarca kullanıcı, aslında bu uygulamaların hepsinin Virginia’daki tek bir DNS hatasına bağlı olduğunu bilmez.
Bu, tüm bulut hizmetleri için bir uyarı niteliğindedir: İlerideki yol, “sıfır hata” değil, “kontrol altına alınmış hata” olmalıdır. Bu da, çoklu bölge (multi-region) tasarımları, bağımlılık çeşitliliği ve disiplinli olay müdahale hazırlığı ile mümkündür.
Siz bu devasa internet kesintisinden etkilendiniz mi? Tüm favori uygulamalarınızın tek bir şirketin, tek bir bölgesindeki bir hataya bağlı olması sizce de korkutucu değil mi? Düşüncelerinizi yorumlarda bizimle paylaşın!
Dijital dünyada güvende kalmanızı sağlayacak en son siber güvenlik tehditleri, korunma yöntemleri ve gizlilik ipuçları için techneiro.com‘u takip etmeye devam edin!