Oracle Data Mining ile Veri Profilleme

Herkese Selam,

Bu yazıda Oracle Data Mining ile elimizdeki bir veriyi nasıl profilleyeceğimizi göstereceğim. Umarım farkındalık anlamında faydalı bir yazı olur.

Veri profilleme bir veri kümesini anlamlandırmak için oldukça önemli bir adımdır. Genellikle bir işe başlamadan önce uğraşacağımız veri içerisinde ne tarz kolonların bulunduğunu, bu kolonların barındırdığı değerlerin hangi aralıkta dağıldığını, mininmum/maximum noktalarının neler olduğunu, ne kadar distinct değerler içerdiğini, ne kadar null kayıt bulundurduğunu bilmek veriyi kullanmadan önce yapacağımız analize ve iş sonunda üreteceğimiz faydayı doğrudan etkileyecek bilgiler olmakta. Bu nedenle bir işe başlamadan önce veriyi profillememiz oldukça önemli bir adım.

Veri profillemek için birden çok metot bulunmakta. Bunun işi gerçekleştirebilmek için kendi scriptlerinizi yazabileceğiniz gibi hazır yazılmış kütüphanelerde kullanmak mümkün. Ben bu çalışmayı hazır ve Oracle SQL Developer içerisinden kolayca uygulayabileceğim yöntemlerden biri olan Oracle Data Mining ile yapacağım.

Öncelikle Oracle SQL Developer üzerinde Oracle Data Mining penceresini açalım.

Şimdi var olan bir ODM bağlantımız üzerinden yeni bir proje ve workflow oluşturuyoruz.

Evet yeni workflow’umuzu oluşturduk ve şimdi data profile etmemiz için gerekli olan komponentleri toolbox’dan workflow’a doğru sürükleyip bırakıyoruz.

İlk olarak datasource komponentini workflow üzerine bırakalım ve datasource’umuzun ayarlarını yapalım. (Datasource komponenetineprofilleyeceğim datanın bulunduğu tabloyu gireceğim)

Datasource komponentine inceleyeceğim veri setini girdim (HR_DATA). Bu data seti seçtikten sonra bu set ile ilgili kolon ve data bilgileri, pencerenin alt kısımındaki grid de listelendi.

Şimdi data profillemeyi yapacak komponentimiz Explore Data komponentini workflow üzerine sürükleyip bırakalım ve datasource komponenti ile bağlantısını kuralım.

Evet bağlantımızı yaptıktan sonra şimdi workflow’u çalıştıralım.

Workflow’u çalıştırdıktan sonra incelediğimiz verinin boyutuna göre bu iş bir miktar sürebilir. Profillemenin bittiğini ekran üzerinden takip edebiliyoruz. Bu işlem bittikten sonra sonuçları gözlemlemek için Explore Data komponentine sağ tıklayıp View Data diyoruz.

Evet sonuç ekranında her bir veri setimizdeki  her bir kolon için ayrı bir satır kayıt bulunmakta. Veri setimizdeki her bir kolon için bazı istatistikler ve hesaplamalar yapıldığını gözlemleyebiliyoruz.  Kolon bazında  aşağıdaki sonuçlara bu ekran üzerinden ulaşabiliyoruz.

  • NULL Percent
  • Distinct Count
  • Distinct Percent
  • Mode Value
  • Average
  • Average Date
  • Median Value
  • Median Date
  • Min Value
  • Max Value
  • Standart Deviation
  • Variance
  • Skewness
  • Kurtosis
  • Histogram

Buna ek olarak açılan pencerenin Statistics tabına geçerekte kolonlar üzerindeki veri dağılımlarını görsel olarak histogramlar aracılığı ile görüntülenebiliyor.

Bu histogramlar aracılığı ile verinin hangi değerler arasında nasıl dağıldığını rahatça gözlemleyebiliyoruz.

Yapmış olduğumuz örnekten da anlaşılacağı üzere veri profilleme sonucunda olduka kullanışlı değerler elde edebiliyorum. Bu değerler üzerinden yapacağım analizler ve üreteceğim faydanın daha fazla olacağı aşikar.

Advertisements

About ... from Emrah METE

Bilgisayar Mühendisi
This entry was posted in Oracle, Root, Uncategorized and tagged , , , , . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.