Günümüzde firmaların karlılıklarını arttırmanın bir yolu data miningten geçmektedir. Firmalar ellerindeki verileri ne kadar gerçekçi bir şekilde analiz edip, ne kadar sağlıklı teoriler türetebilirlerse o kadar başarılı olmaktadırlar.
Bunun en güzel örneğini Google ve Facebook'ta görebilirsiniz. Google'ı ve Facebook'u bu kadar önemli ve başarılı yapan; verdikleri hizmetlerden daha ziyade, toplulukların trendlerini, ihtiyaçlarını ve beklentilerini, bu toplulukların davranışlarından sağlıklı bir şekilde yorumlayıp çıkarmalarıdır esasında.
Data mining; tüketicinin isteklerini en optimum şekilde karşılama yöntemlerinin tespiti ve tüketicinin farkında olmadığı isteklerini ortaya çıkarma prosesinin istatistiksel ve matematiksel modellemesidir. Bir süre Facebook'ta data mining ekibinin başında olan Jeff Hammerbacher, Facebook'ta kullanıcıların aksiyonlarını inceleyen modelleri geliştirmiş ve reklamların gösterimi ön planda olmak üzere, ürün satışları konusunda kararların alınmasında veri sağlayan sistemleri geliştirmiştir. Harvard Universitesi matematik mezunu olan Hammerbacher Facebook'un data mining operasyonu için açık kaynak kodlu bir proje olan Hadoop frameworkünden faydalanmış. Ve şu anda Cloudera'da chief scientist olarak hadoop frameworkünün desteğini vermektedir.
En basit anlatımla; Hadoop size veriyi işlediğiniz java ile yazılan temel uçlardan bir network oluşturmanızı sağlar. Siz datanızı bu networke besleyerek sonuçları networkünüzden alabilirsiniz. Diğer deyişle; Hadoop, veriyi işlemek için oluşturduğunuz istatistiksel ve matematiksel modelin yaşaması için bize ortamı sunmaktadır.
Hadoop projesinin en önemli özelliği yüksek oranda ölçeklenebilir bir yapıya sahip olmasıdır. Yüksek ölçeklenebilirlik sayesinde terabytelarca datanızın işleme iş gücünü birden fazla sunucuya dağıtabilir ve işleme kapasitenizi arttırabilirsiniz. Bu ölçeklenebilirlik sisteminizi bir network şeklinde oluşturup nodeları birbirinden bağımsız çalıştırılabilir tasarlamanız sayesinde gerçekleşmektedir.
Hadoop'un diğer önemli özelliği ise, data kaynaklarınızın düzenli ve sistematik bir yapıya sahip olmasını gerektirmemesidir. Günümüzde internet ortamının ürettiği bilgiyi sınıflandırmak, tasniflendirmek belli bir düzene koyup analiz etmek imkansızdır. Değişen trendler, eklenen yeni bilgiler, unutulan eski bilgiler, önemi olmayan gürültü kaynakları. Bunların hepsi günümüz veri ortamında bırakın birbirleriyle olan ilişkilerindeki dinamikliği herbiri kendi içerisinde o kadar dinamik ki bunları bir hizaya getiremememiz ve tasniflenmesine yetişemememiz normaldir. Bu verileri mevcut dinamikler çerçevesinde inceleyebilmek için; bu verileri işleyen matematiksel model networkünü modifiye ederek bu düzensiz verilerden hızlı bir şekilde sonuçlar elde etmeye devam edebiliriz. Bunlar Hadoop frameworkü ile kolaylıkla mümkün olmaktadır.
Ayrıca Hadoop frameworkü mining networkünüzü kontrol etmek, bakımlarını sağlamak gibi araçları da size sunmaktadır. Bu şekilde data mining operasyonu üzerinde tam kontrolü de bize bırakmaktadır.
Bütün bu özellikleri birleştirdiğimizde çok büyük data kümelerinizi analiz edip işlemek için çok kuvvetli bir araca sahip oluyoruz.
IBM; firmaların data mining ihtiyaçlarını karşılamak için Hadoop frameworkü üzerinden data mining servis hizmeti projesine 100 milyon dolar bütçe ayırmış. Bu servis sayesinde firmalar farklı farklı veri kaynaklarını sisteme tanımlayıp bunlar üzerinde data mining işlemlerini daha hızlı ve daha etkin bir şekilde gerçekleştirebilecekler. Firmalara getireceği karlılık açısından düşünüldüğünde oldukça öneme sahip bir proje. Yatırılan paranın ve buna karşılık getireceği paranın büyüklüğü düşünülünce, data miningin firmaların karlılıklarını arttırmak için ne kadar önemli bir araç olduğunu daha iyi görmekteyiz.
http://www.zdnet.co.uk/blogs/mapping-babel-10017967/
http://hadoop.apache.org/
http://www.ibm.com/
http://www.cloudera.com/
Comments