Hadoop Nedir?

Hadoop Nedir?

Önceki yazımda Big Data ve bunların işlenmesi ile alakalı teknolojilerden bahsetmiştim.

Bu yazımda Hadoop’un ne olduğundan bahsedeceğim.

Bildiğiniz gibi Big Data, büyük ölçekli verilerin oluşturduğu veri setlerine (Data Set) verilen isim ve biz bu büyük veri setlerini kaydetmek ve işlemek için çeşitli dosya sistemleri ve veritabanları kullanıyoruz.

Hadoop da büyük veri setleri ile birden fazla makinede paralel olarak işlem yapmamızı, verileri kaydetmemizi ve yönetmemizi sağlayan, MapReduce özelliklerini bir araya getiren, Java ile yazılmış açık kaynak kodlu kütüphanedir.

Hadoop içinde büyük verileri sakladığımız bileşene HDFS (Hadoop Distributed File System) denir.

HDFS nedir?
Açılımı Hadoop Distributed File System

yani Türkçesi ile Hadoop Dağıtık Dosya Sistemi.

Peki ne için böyle bir sisteme ihtiyaç duyulmuş?
Petabyte seviyesindeki büyük verileri saklamak için pahalı bir donanım satın almak yerine sıradan sunucuların disklerini bir araya getirerek büyük, tek bir sanal disk oluştururlar. Bu sunucu disklerine Cluster adı verilmektedir. Clusterların her biri aynı yerde durmak durumunda değildirler, farklı bölgelerde, farklı şehirlerde hatta farklı ülkelerde aynı sisteme hizmet edebilirler.

HDFS içine büyük boyuttaki veriler kopyalandıktan sonra bir çok kaynak üzerinden aynı anda ve oldukça hızlı erişim sağlanabilir. Bu dosya sistemi içinde büyük veriler küçük dosya blokları halinde saklanırlar.

HDFS, NameNode ve DataNode olarak iki ayrı süreçten oluşur.

NameNode, master(ana) düğümdür. Verilerin bloklar halinde parçalanarak dağıtıldığını düşünürsek bu parçaların her birinin diğer makinelere DataNode) dağılımından, yaratılmasından, silinmesinden, yeniden oluşturulmasından sorumlu düğümdür. (Serverlar arasındaki configürasyonu sağlayan ana makine)

DataNode, slave(işçi) düğümdür. Ona verilen blockları kendi yerel diskinde saklamaktan sorumludur. İlave olarak diğer DataNode’lardaki verilerin yedeklerini de saklayabilirler. Bir HDFS sistemde birden fazla olabilirler.

Şu görsel ile anladıklarımızı güçlendirelim;

Gelelim yukarıda bahsettiğimiz MapReduce’a,
MapReduce ise HDFS üzerindeki büyük verileri işleyebilmek amacıyla kullanılan bir yöntemdir. Bu yöntemin içeriğine bu linke tıklayarak ulaşabilirsiniz.

Hadoop şuanda Facebook, Twitter, Yahoo, Alibaba, EBay, Adobe() ve daha bir çok bilindik firmada büyük verileri analiz etmek amacı ile kullanılıyor.

Bunların yanısıra Hadoop projesi büyük verileri işlemek için başka projelere bir çatı görevi görüyor. Bu projelerden bazıları, Hive, Mahout, Cassandra, Pig, Zookeper.

Yazıyı yazarken: http://devveri.com/hadoop-nedir adresinden faydalanılmıştır.

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir