AÇIK KAYNAK KODLU VERĠ MADENCĠLĠĞĠ PROGRAMLARI:
WEKA’DA ÖRNEK UYGULAMA
Murat DENER Murat DÖRTERLER Abdullah ORMAN
Gazi Üniversitesi Gazi Üniversitesi Gazi Üniversitesi
Elektronik-Bilgisayar Eğitimi Bölümü Elektronik-Bilgisayar Eğitimi Bölümü Elektronik-Bilgisayar Eğitimi Bölümü
muratdener@gazi.edu.tr dorterler@gazi.edu.tr abdullah@gazi.edu.tr
ÖZET
depolarında çok miktarda bilginin depolanmasını ve
Veri Madenciliği, veriden bilgi elde etme amaçlı çözümlenmesini gerektirmektedir. Bilgisayar
kullanılan teknikler bütünüdür. İstatistiksel analiz teknolojilerindeki gelişmeler doğrultusunda Veri
tekniklerinin ve yapay zekâ algoritmalarının bir Madenciliği yöntemleri ve programlarının amacı
arada kullanılarak veri içerisindeki gizli bilgilerin büyük miktarlardaki verileri etkin ve verimli hale
açığa çıkarılması ve verinin nitelikli bilgiye getirmektedir. Bilgi ve tecrübeyi birleştirmek için
dönüştürülmesi sürecidir. Veri Madenciliği Veri Madenciliği konusunda geliştirilmiş
uygulamalarını gerçekleştirmek için ticari ve açık yazılımların kullanılması gerekmektedir. Hızla
kaynak olmak üzere birçok program mevcuttur. Bu artan veri kayıtları (GB/saat), Otomatik istasyonlar,
makalede açık kaynak kodlu Veri Madenciliği Uydu ve uzaktan algılama sistemleri, Teleskopla
programlarından olan RapidMiner(YALE), WEKA uzay taramaları, Gen teknolojisindeki gelişmeler,
ve R anlatılmış olup, bu programların Bilimsel hesaplamalar, benzetimler, modeller, Veri
karşılaştırılmalarına yer verilmiştir. Ayrıca WEKA’ Madenciliğini zorunlu kılmıştır.
da örnek bir uygulama sunulmuştur.
Gerçekleştirilen uygulamanın lisansüstü eğitimi Teknolojinin gelişimiyle bilgisayar ortamında ve
veren tüm Enstitülere yararlı olacağı veritabanlarında tutulan veri miktarının artması,
değerlendirilmektedir. yeni veri toplama yolları, otomatik veri toplama
aletleri, veritabanı sistemleri, bilgisayar
kullanımının artması, büyük veri kaynakları (İş
ABSTRACT dünyası:Web,e-ticaret, alışveriş,hisse senetleri,…),
bilim dünyası (Uzaktan algılama ve izleme,
Data Mining is a technique designed to extract bioinformatik, simülasyonlar..) toplum
information from data sets. It is a process used to (haberler,digital kameralar, YouTube, Facebook…)
reveal hidden information in data and transform neden Veri Madenciliği sorusuna cevap
data into codified information by using a vermektedir [1].
combination of both statistical analysis techniques Veri Madenciliği uygulamalarını gerçekleştirmek
and artificial intelligence algorithms. A lot of için programlara ihtiyaç duyulur. Bu kapsamda,
softwares exist for implement to Data Mining SPSS Clementine, Excel, SPSS, SAS, Angoss,
Applications with the inclusion of commercial and KXEN, SQL Server, MATLAB ticari ve
open source. In this article, RapidMiner(YALE), RapidMiner(YALE), WEKA, R, C4.5, Orange,
WEKA and R are explained which are open source KNIME açık kaynak olmak üzere birçok program
softwares. Comparison of this softwares are geliştirilmiştir.
mentioned. Also, sample application is showed in
WEKA. It is claimed that this application is useful Bu çalışmada Veri Madenciliği Açık Kaynak Kodlu
for Institutes. programlarına değinilmiş, programlar
karşılaştırılmış ve örnek bir uygulama
Anahtar Kelimeler: Veri Madenciliği, Açık gerçekleştirilmiştir. İkinci bölümde Veri
Kaynak, WEKA, Örnek Uygulama Madenciliği, üçüncü bölümde Açık Kaynak Kodlu
Veri Madenciliği Programlarından
RapidMiner(YALE), WEKA ve R anlatılmıştır.
1. GĠRĠġ Dördüncü Bölümde bu programlar
karşılaştırılmıştır. Beşinci bölümde ise WEKA ile
Günümüzde birçok kaynaktan veri alıp bu verileri gerçekleştirilen örnek bir uygulama sunulmuştur.
veritabanlarında saklayan kurumların amaçlarından
biri de ham verileri bilgiye dönüştürmektir. Bu 2. VERĠ MADENCĠLĠĞĠ
işlem yani veriyi bilgiye dönüştürme işlemi Veri
Madenciliği olarak adlandırılmaktadır. Son yıllarda
ölçüm cihazlarının artmasına paralel olarak veri Veri Madenciliği; veri ambarlarındaki tutulan, çok
sayısı ve türleri artmaktadır. Veri toplama araçları çeşitli ve çok miktarda veriye dayanarak daha önce
ve veri tabanı teknolojilerindeki gelişmeler, bilgi keşfedilmemiş bilgileri ortaya çıkarmak, bunları
karar verme ve eylem planını gerçekleştirmek için
kullanma sürecidir. Büyük miktarda veri içinden, 3.1. RAPĠDMĠNER (YALE)
gelecekle ilgili tahmin yapmamızı sağlayacak
bağıntı ve kuralların aranmasıdır. Veri Madenciliği, Amerika‟da bulunan YALE üniversitesi bilim
verilerin içerisindeki desenlerin, ilişkilerin, adamları tarafından Java dili kullanılarak
değişimlerin, düzensizliklerin, kuralların ve geliştirilmiştir. YALE‟de çok sayıda veri işlenerek,
istatistiksel olarak önemli olan yapıların yarı bunlar üzerinden anlamlı bilgiler çıkarılabilir. Aml,
otomatik olarak keşfedilmesidir. Veriler arasındaki arff, att, bib, clm, cms, cri, csv, dat, ioc, log, mat,
ilişkiyi, kuralları ve özellikleri belirlemekten mod, obf, bar, per, res, sim, thr, wgt, wls, xrff
bilgisayar sorumludur. Amaç, daha önceden fark uzantılı dosyaları desteklemektedir. Diğer
edilmemiş veri desenlerini tespit edebilmektir. programlar gibi birkaç tane format desteklememesi
YALE‟nin artılarındandır [4].
Etkin bir Veri Madenciliği Uygulaması için farklı
tipteki verileri ele alma, Veri Madenciliği
algoritmasının etkinliği ve ölçeklenebilirliği, Makine Öğrenme Algoritmaları olarak Destek
sonuçların yararlılık, kesinlik ve anlamlılık Vektör Makinelerini içeren büyük sayıdaki
kıstaslarını sağlaması, keşfedilen kuralların çeşitli öğrenme modelleri için sınıflandırma ve regresyon,
biçimlerde gösterimi, farklı ortamlarda yer alan veri Karar Ağaçları, Bayesian, Mantıksal Kümeler,
üzerinde işlem yapabilme, gizlilik ve veri güvenliği İlişkilendirme Kuralları ve Kümeleme için birçok
özelliklerinin sağlanması gereklidir. Alternatif algoritma (k-means, k-medoids, dbscan),
olarak Veri Madenciliği aslında bilgi keşfi sürecinin WEKA‟da olan her şey, veri önişleme için ayırma,
bir parçası şeklinde kabul görmektedir. Bilgi keşfi normalizasyon, filtreleme gibi özellikler, genetik
sürecinin aşamaları aşağıda verilmiştir. algoritma, yapay sinir ağları, 3D ile verileri analiz
etme gibi birçok özelliği bulunmaktadır. 400‟den
1-Veri Temizleme (gürültülü ve tutarsız verileri fazla algoritmaya sahiptir. Oracle, Microsoft SQL
çıkarmak) Server, PostgreSQL, veya mySQL
2-Veri Bütünleştirme (birçok veri kaynağını veritabanlarından veriler YALE‟ye aktarılabilir.
birleştirebilmek) Eğer veritabanı yönetim sistemi desteklenmiyorsa,
3-Veri Seçme (Yapılacak olan analiz ile ilgili olan jdbc driverı classpath değişkenine eklenerek sorun
verileri belirlemek ) giderilebilir.
4-Veri Dönüşümü (Verinin Veri Madenciliği
tekniğinden kullanılabilecek hale dönüşümünü YALE‟de veri kümesi XML olarak ifade edilir.
gerçekleştirmek) Aşağıda örnek veri kümesi verilmiştir.
5-Veri Madenciliği (Veri örüntülerini
yakalayabilmek için akıllı metotları uygulamak)
edilmiş bilgiyi temsil eden ilginç örüntüleri
algoritma bulunmaktadır. Bu algoritmaları
3. AÇIK KAYNAK KODLU VERĠ
kapsamda birçok yazılım geliştirilmiştir. Bu
İçerisinde yüzlerce özelik barındırdığı gibi oluşturulabilir, Open diyerek te varolan
kullanıcıya yakınlığı açısından da diğer uygulamalar açılabilir. Program bünyesinde her bir
programlardan oldukça üstündür. YALE ilk algoritma için örnek bulunmaktadır.
çalıştırıldığında, New diyerek yeni bir uygulama
3.3. R
3.2. WEKA
Grafikler, istatistiksel hesaplamalar, veri analizleri
WEKA bir proje olarak başlayıp bugün dünya için geliştirilmiş bir programdır. S diline benzer bir
üzerinde birçok insan tarafından kullanılmaya GNU projesidir. Yeni Zelanda‟da bulunan
başlanan bir Veri Madenciliği uygulaması Auckland Üniversitesi İstatistik Bölümünde bilim
geliştirme programıdır. WEKA java platformu adamlarından olan Robert Gentleman ve Ross Ihaka
üzerinde geliştirilmiş açık kodlu bir programdır. tarafından geliştirilmiştir. R & R olarak ta bilinir.
WEKA çalıştırıldıktan sonra Şekil 1‟de görüldüğü R, farklı uygulamalar ile S diline üstünlük
gibi, Application menüsünde çalışılabilecek modlar sağlamaktadır. Lineer ve lineer olmayan
listelenmektedir. Bunlar komut modunda çalışmayı modelleme, klasik istatistiksel testler, zaman
sağlayan Simple CLI, projeyi adım adım görsel serileri analizi, sınıflandırma, kümeleme gibi
ortamda gerçekleştirmeyi sağlayan Explorer ve özellikleri bünyesinde bulundurmaktadır. R,
projeyi sürükle bırak yöntemiyle gerçekleştirmeyi Windows, MacOS X ve Linux sistemleri üzerinde
sağlayan KnowledgeFlow seçenekleridir. çalışabilmektedir [5].
R yaygın olarak pencereli sistemlerde kullanılır.
R‟nin X Window sistemi üzerinde kullanılması
tavsiye edilmektedir. Açık sistemlerin kullanıcıya
sunduğu en büyük özelliklerinden biri olan X
Window, Linux'un doğduğu andan itibaren destek
görmeye başlamıştır. İnternet üzerinde bedava
dağıtılmasıyla Linux dağıtımı altında bir standart
olarak kendine yer edinmiştir. X Window, istemci-
sunucu modeline göre çalışır. Ana makina üzerinde
çalışan X sunucusu, grafik donanımı üzerindeki
tüm giriş-çıkış yetkilere sahiptir. Bir X istemcisi,
sunucuya bağlanarak istediği işlemleri sunucuya
yaptırır. İstemcinin görevi emir vermek, sunucunun
ise verilen emri görünür hale getirmektir [6].
Şekil 1. WEKA‟da Applications Menüsü Windows veya MacOS üzerinde R‟yi çalıştırmak
için uzman yardımına ihtiyaç vardır. Kullanıcılar,
Explorer seçeneği seçildikten sonra üzerinde R‟yi çoğunlukla Unix makineler üzerinde
çalışılacak verilerin seçilmesi, bu veriler üzerinde çalıştırırlar.
temizleme ve dönüştürme işlemlerinin
gerçekleştirilebilmesini sağlayan ekran ile R‟yi Unix makinelerde çalıştırabilmek için
karşılaşılmaktadır. aşağıdaki adımlar izlenir.
Arff, Csv, C4.5 formatında bulunan dosyalar —Problemi çözümü için gereken veri dosyaları
WEKA‟da import edilebilir. Herhangi bir text barındırmak için dizin oluşturulur.
soyadaki verileri WEKA ile işlemek olanaksızdır. $ mkdir work
Ayrıca Jdbc kullanılarak veritabanına bağlanıp $ cd work
burada da işlemler yapılabilir. WEKA‟nın
içerisinde Veri İşleme, Veri Sınıflandırma, Veri —R programının çalıştırılması için aşağıdaki komut
Kümeleme, Veri İlişkilendirme özellikleri yazılır.
mevcuttur. $ R
Bu adımdan sonra yapılacak olan projenin amacına
göre açılan sayfadaki uygun tabdaki (Sınıflandırma, —R programından çıkmak için aşağıdaki komut
Kümeleme, İlişkilendirme) uygun algoritma veya yazılır.
algoritmalar seçilerek veriler üzerine uygulanmakta > q()
ve en doğru sonucu veren algoritma
seçilebilmektedir. — Fonksiyonların özelliklerini öğrenmek için
aşağıdaki komutlar yazılabilir.
> help(solve)
> ?solve
Verilerin işleniş şekli de aşağıda verilmektedir.
> incomes ”Gazi
Notu niteliğine ait verilerin (yukarıda belirlenen Üniversitesi”
derslere ait) eksik olduğundan dolayı bu verilerin
veritabanından çıkarılmasına karar verilmiştir. 3- Öğrencilerin lisans programından mezun olduğu
Nümerik kayıp değerler için yazılan SQL bölüm ve devam ettiği bölüm karşılaştırılarak,
sorgusuyla yukarıda belirlenen dersler silinmiştir. aşağıdaki sql komutları ile değiştirilmiştir.
Delete from tablo_adi where dersad Update tablo_adi set
like „%Tez%‟ and dersad like Mezun_Oldugu_Bolum=”aynı” where
„%Seminer%‟ dersad like „%Bilimsel Mezun_Oldugu_Bolum =
Hazırlık%‟ dersad like „%Yeterlik Devam_Ettiği_Bolum
Aşaması%‟ dersad like „%Uzmanlık Alan Update tablo_adi set
Dersi%‟ Mezun_Oldugu_Bolum=”farklı” where
Silinen satırlardaki derslerin kredisi 0 olduğundan Mezun_Oldugu_Bolum
dolayı ortalamayı etkilememektedir. Devam_Ettiği_Bolum
4- Öğrencilerin ikamet ettiği yeri tutan Update tablo_adi set İkamet_Ettiği_İl
İkamet_Ettiği_İl alanı aşağıda gösterildiği gibi =”0” where Adres_İl “Ankara”
güncellenmiştir.
Tablo 1‟de veri dönüşümünden önce ve sonraki
Update tablo_adi set İkamet_Ettiği_İl nitelik isimleri gösterilmektedir.
=”1” where Adres_İl = “Ankara”
Tablo 1. Nitelik İsimleri
Nitelikler
Veri Dönüşümünden Önce Veri Dönüşümünden Sonra
Notu (AA, BA, BB, CB, CC, DC, DD, FD, G,
Notu (5, 4, 3, 2 ,1)
D)
Mezun Olduğu Üniversite (Abant İzzet
Baysal, Afyon Kocatepe, Akdeniz,
Anadolu, Ankara, Atatürk, Atılım,
Balıkesir, Başkent, Celal Bayar,
Cumhuriyet, Çanakkale 18 Mart, Çankaya,
Çukurova, Dicle, Doğu Akdeniz,
Dumlupınar, Ege, Erciyes, Fırat, Gazi,
Gaziantep, Gaziosmanpaşa, Hacettepe,
Mezun Olduğu Üniversite (aynı, farklı)
İnönü, İstanbul Teknik, İstanbul
Ticareti İstanbul, İzmir Yüksek
Teknoloji, Karadeniz Teknik, Kocaeli,
Marmara, Mersin, Mustafa Kemal, Niğde,
19 Mayıs, Odtü, Osman Gazi, Sakarya,
Selçuk, Süleyman Demirel, Trakya,
Uludağ, Yıldız Teknik, Zonguldak
Karaelmas)
Mezun Olduğu Bölüm (Biyoloji, Fizik,
İstatistik, Kimya, Matematik, Elek.
Elektronik Müh., Endüstri Müh., İnşaat
Müh., Makine Müh., Mimarlık, Şehir ve
Bölge Planlama, Kimya Müh., Makine
Eğitimi, Metal Eğitimi, Yapı Eğitimi,
Mezun Olduğu Bölüm (aynı, farklı)
Mobilya ve Dekorasyon Eğitimi, Elektrik
Eğitimi, Endüstriyel Teknoloji Eğitimi,
Trafik Planlaması ve Uygulaması,
Kazaların Teknik ve Çevresel
Araştırması, İleri Teknolojiler, Çevre
Bilimleri, Orman Müh., Bilgisayar Müh.)
İkamet Ettiği İl (Adana, Adıyaman,
Afyon, Amasya, Ankara, Antalya, Aydın,
Balıkesir, Bolu, Bursa, Çankırı, Çorum,
Denizli, Diyarbakır, Düzce, Elazığ,
Eskişehir, Gaziantep, İçel, İstanbul,
İzmir, Karabük, Kastamonu, Kayseri, İkamet Ettiği İl (1, 0)
Kırıkkale, Kırklareli, Kırşehir,
Kocaeli, Konya, Kütahya, Malatya,
Manisa, Muş, Nevşehir, Osmaniye,
Sakarya, Samsun, Sivas, Tokat, Trabzon,
Yozgat)
5.2.3 Modelleme
Belirlene hedeflere ulaşmak için kullanılan
Veri temizleme ve dönüşümünden sonraki adım algoritmalar ve bu algoritmaların doğruluklarının
modelleme adımıdır. Farklı modeller veri kümesi karşılaştırılması Tablo 2‟de gösterilmiştir.
üzerinde denenerek doğruluğu en yüksek olan
model seçilir.
Tablo 2. Sınıflandırma Algoritmaları ve Doğrulukları
NAIVE
ALGORİTMA KSTAR RBFNETWORK J.48 JRIP RIDOR
BAYES
Doğru Olarak
Sınıflandırılan 5434 5352 5364 5253 5311 5271
Örnek Sayısı
Yanlış Olarak
Sınıflandırılan 907 989 977 1088 1030 1070
Örnek Sayısı
Kappa
0.367 0.1481 0.3537 0 0.0885 0.0294
İstatistiği
Ortalama Mutlak
0.2195 0.2467 0.2188 0.2843 0.2694 0.1687
Hata
Ortalama Hata
0.3337 0.3457 0.3476 0.377 0.3687 0.4108
Karakök
Göreli Mutlak
%77.1815 %86.7651 %76.943 %99.9734 %94.7277 %59.3417
Hata
Göreli Hata
%88.5109 %91.6863 %92.2014 %100 %97.7933 %108.9563
Karakök
Tablo 2‟deki değerler WEKA paket programı Doğru olarak sınıflandırılan örnek sayısı 5000‟den
yardımıyla elde edilmiştir. WEKA paket az olduğu için değerlendirmeye alınmamıştır. Tablo
programında veri kümesi için sırasıyla Naive 2‟den de görüldüğü gibi doğruluğu en yüksek olan
Bayes, Kstar, RBFNetwork, J.48, JRIP, Ridor sınıflandırma algoritması Naive Bayes olduğu için
algoritmaları seçilerek program çalıştırılmış ve elde uygulamanın bu bölümünde Naive Bayes
edilen sonuçlarla Tablo 2 hazırlanmıştır. Ayrıca algoritması esas alınacaktır.
HyperPipes, VFI gibi birçok algoritma denenmiştir.
Şekil 5. Naive Bayes Sınıflandırıcı
Veri kümesine Naive Bayes algoritması olan öğrencilerin başarısı, ikamet yerinin
uygulandığında Mezun_Olduğu_Bölüm alanı için lisansüstü eğitimini gördüğü yerden farklı olan
Şekil 5 elde edilmektedir. Kırmızı işaretler mezun öğrencilerin başarısından daha fazladır.
olduğu bölüm aynı olan öğrencileri, mavi ise mezun Görüldüğü gibi yukarıda bulunan kırmızı
olduğu bölümü farklı olan öğrencileri işaretler, aşağıda bulunanlara göre oldukça
göstermektedir. X ekseninde, 1,2,3,4,5 olmak üzere fazladır. 3,4,5 notlarına göre bu başarı
başarı notları, Y ekseninde ise 1,0 olmak üzere beklendiği gibi olabilir. Ama 1,2 notlarında
ikamet edilen il gösterilmektedir. Naive Bayes görülen olay beklenilmeyen bir durumdur.
algoritmasının sonuçlarını aşağıdaki şekilde Şöyle ki; aynı yerde ikamet eden öğrencilerin
değerlendirmek mümkündür. yoğunluğu, farklı yerde ikamet eden
öğrencilerin yoğunluğundan 1 notuna göre
Mezun olduğu bölümde lisansüstü eğitimine daha fazladır. Bilindiği gibi 1 notu, FF,
devam eden öğrenciler ele alındığında, ikamet Girmedi, Devamsız notlarına karşılık
yeri ile lisansüstü eğitimini gördüğü yer aynı gelmektedir. Bu durumun, aynı yerde ikamet
eden öğrencilerin iş hayatlarındaki programlarına ihtiyaç vardır. Bu programlar
yoğunluklarından meydana geldiği içerisinde veri kümeleme, karar ağaçları, bayes
düşünülmektedir. Bu sorunu gidermek için, bu sınıflandırıcılar, apriori yöntemi gibi birçok
öğrencilerin iş yerlerinden, üniversite algoritma mevcuttur. Algoritmalar sayesinde
tarafından 2 günlük izin alınarak bölümde işlenen verilerden, bilgi çıkarımı yapılabilmektedir.
çalışması desteklenebilir. Bu çalışmada Açık Kaynak Kodlu Veri Madenciliği
programlarından RapidMiner(YALE), WEKA, R
X ve Y eksenlerine veri kümesindeki diğer anlatılmış ve farkları üzerinde durulmuştur.
özellikler teker teker yerleştirildiğinde aşağıdaki WEKA‟nın en çok kullanılan Veri Madenciliği
sonuçlar elde edilmektedir. programı olduğu görülmüştür. WEKA‟da örnek bir
uygulama sunulmuştur. Gerçekleştirilen
Mezun olduğu bölümde lisansüstü eğitimine uygulamadan elde edilen sonuçların lisansüstü
devam eden öğrenciler ele alındığında, doktora eğitimi veren tüm Enstitülere yararlı olacağı
öğrencileri ve yüksek lisans öğrencilerinin, 3 düşünülmektedir.
notu hariç diğer başarı notları, ortalama olarak
aynıdır. 3 notunda ise yüksek lisans 7. KAYNAKLAR
öğrencilerin çoğunluğu fark edilmektedir.
Bilindiği gibi 3 notu, CC ve DC notuna karşılık 1. Kudyba, S., “Managing Data Mining”,
gelmektedir. Bunun sebebi olarak, Yüksek CyberTech Publishing, 2004, 146-163.
Lisans öğrencilerinin geçme notunun CC, 2. Han, J. ve Kamber M., “Data Mining Concepts
doktora öğrencilerinin geçme notunun ise CB and Techniques”, Morgan Kaufmann Publishers,
olmasıdır. Buradaki not kriteri başarıyı 2001.
tetiklemiştir. Yüksek Lisans öğrencilerinin de 3. Delen, D., Walker, G., Kadam, A., „Predicting
geçme notu CB‟ye yükseltilerek başarının breast cancer survivability: a comparison of three
yükselmesi sağlanabilir. data mining methods‟, Artificial Intelligence in
Medicine, vol 34, June 2005, pp113-127
Mezun olduğu bölüm dışında lisansüstü 4
eğitimine devam eden öğrenciler ele http://surfnet.dl.sourceforge.net/sourceforge/YALE/
alındığında, doktora öğrencileri, yüksek lisans rapidminer-4.2-tutorial.pdf
öğrencilerine göre başarı olarak büyük bir 5- http://cran.r-project.org/doc/manuals/R-intro.pdf
üstünlük sağlamaktadır. Bu üstünlüğün sebebi 6- Hania Gajewska, Mark S. Manasse and Joel
doktora öğrencilerinin genel olarak yüksek McCormack, Why X Is Not Our Ideal Window
lisans öğrencilerinden daha fazla bilgi sahibi System , Software — Practice & Experience vol 20,
olması olarak açıklanabilir. Bu yüzden farklı issue S2 (October 1990)
bölümde lisansüstü eğitimine devam etse bile 7- http://www.kdnuggets.com/polls/2007/data
başarısı etkilenmemektedir. Yüksek lisans _mining_software_tools.htm
öğrencilerinin bu zayıflığı, farklı bölümlerde 8-http://sourceforge.net/project/stats/detail.php?
lisansüstü eğitimi yapmak isteyen öğrencilerin group_id=5091&ugn=yale&type=prdownload
zorunlu olarak alması gereken Bilimsel &mode=year&package_id=0&release_id=0&file_i
Hazırlık dersinin süresini uzatarak giderilebilir. d=0
9-http://sourceforge.net/project/stats/detail.php?
Mezun olduğu üniversitede ve mezun olduğu group_id=5091&ugn=weka&type=prdownloa
üniversite dışında lisansüstü eğitimine devam d&mode=year&package_id=0&release_id=0&file_
eden Doktora&Yüksek lisans öğrencilerinin id=0
başarı notları ortalama olarak aynıdır. Bu
durum şunu göstermektedir ki, farklı
üniversiteden gelen öğrenciler yeni eğitim
yerine hızlıca ayak uydurabilmektedir. Bu
kısımda, mezun olduğu üniversitede
lisansüstüne devam eden öğrencilerin daha
başarılı olması beklense de, farklı üniversiteden
gelen öğrencilerin kaliteli olmasından dolayı
bir eşitlik söz konusudur.
6. SONUÇLAR
Artan veri miktarından dolayı bilgiye ulaşamama
sorunu neticesinde ortaya çıkan alan Veri
Madenciliği olarak nitelendirilmektedir. Veri
Madenciliği uygulamaları yapmak için bilgisayar