T.C.
BEYKENT
ÜNİVERSİTESİ
SOSYAL
BİLİMLER ENSTİTÜSÜ
İŞLETME
YÖNETİMİ ANABİLİM DALI
İŞLETME
YÖNETİMİ 2011 GÜZ DÖNEMİ TEZSİZ YÜKSEK LİSANS PROGRAMI
DÜNYADAKİ İLK 100 ÜLKENİN (NÜFUSA
GÖRE) GRAFİK DATAMİNİNG TEKNİĞİ İLE ANALİZİ
(Karar Verme
Teknikleri Dersi Uygulama Çalışması)
Çalışmayı Hazırlayan
Selçuk AYDIN
Danışman
Doç. Dr. Kutlu MERİH
İstanbul, 2011
Yemin Metni
Karar verme teknikleri dersi uygulama çalışması olarak
sunduğum “Dünyadaki ilk 100 ülkenin (nüfusa göre) Grafik Datamining Tekniği İle
Analizi” başlıklı çalışmanın, bilimsel ahlak ve
geleneklere uygun şekilde tarafımızdan yazıldığını, yararlandığım eserlerin
tamamının kaynaklarda gösterildiğini ve çalışmanın içinde kullanıldıkları her yerde
atıf yapıldığını doğrularım.
Selçuk Aydin
Dünyadaki
İlk 100 Ülkenin (Nüfusa göre)
Grafik Datamining Tekniği İle Analizi
Çalışmayı Hazırlayan: Selçuk AYDİN
Özet
Bu
çalışmada, dünyadaki nüfusa göre ilk yüz ülkenin, kuruluş yılları, yönetim
şekilleri, GSYIH’ları, bu ülkelerin hangi kıtada bulunduğu ve bu ülkede
yaşayanların cinsiyetlerine göre ortalama yaşam süreleri bilgilerini “R”
programının grafik datamining görsel
yöntemlerini kullanarak; sosyoekonomik özelliklere, nüfus yoğunluklarına ve dünyadaki
coğrafi konumlarının GSYIH ya ve ortalama yaşam sürelerine etkilerini “R”
programının grafik datamining görsel
yöntemlerin de desteğiyle, (Boxplot plot grafikleri, Histogram grafikleri, İndex plot grafikleri) ile görsel
datamining analizleri yapılmıştır.
Anahtar
Kelimeler: Dünya, Ülkeler , Nüfus, Grafik , Datamining.
İÇİNDEKİLER
ÖZET
KISALTMALAR
GRAFİKLER LİSTESİ
ŞEKİLLER LİSTESİ
1.GİRİŞ
2. VERİ
MADENCİLİĞİ
2.1. Veri Madenciliği
Nedir
3.VERİ
AMBARLARI
3.1
Veri Ambarı Nedir
4. “R” PROGRAMI HAKKINDA
4.1 Özellikleri
4.2 Çalışmada Kullanılan “R” Programı Paketleri Ve
Grafik Modellemeleri
4.2.1 Grafik Datamining Paketi “Rcommander”
5.DÜNYA ÜLKELERİ HAKKINDA
AYRINTILAR
5.1 İçerik ve
Kullanılan Veri Bankası Hakkında Bilgi
5.2 Veri Bankası Özet Görünümü
5.3.Ülkelerin kuruluş yılı İndex Plot Analizi
5.3.1 Ülkelerde yaşayanların ortalama
yaşam süreleri İndex Plot Analizi
5.3.2 Ülkelerin GSYIH İndex Plot
Analizi
5.4.1 Ülkelerde yaşayanların ortalama
yaşam süreleri Histogram Analizi
5.4.2 Ülkelerdeki kadınların ortalama
yaşam süreleri Histogram Analizi
5.4.3 Ülkelerdeki
erkeklerin ortalama yaşam süreleri Histogram Analizi
5.5.1 Ortalama yaşam sürelerinin Kıta bazında Boxplot Analizi
5.5.2 GSYIH’nın Kıtalar bazında Boxplot Analizi
5.5.3 Kadınların ortalama yaşam sürelerinin Kıta bazında
Boxplot Analizi
5.5.4 Erkeklerin ortalama yaşam sürelerinin Kıta bazında
Boxplot Analizi
5.5.5 Ortalama yaşam süresinin yönetim şekli bazında Boxplot Analizi
5.5.6
Erkeklerin yaşam sürelerinin yönetim
şekli bazında Boxplot Analizi
5.5.7
Kadınların yaşam sürelerinin yönetim
şekli bazında Boxplot Analizi
5.6.1 Ortalama
Yaşam,Kıtalar,Yönetim Şekli ve GSYIH 4 boyultu analiz
5.6.2 Nüfus
rakamları,Ortalama yaşam,Yönetim şekli ve Kıtalar 4boyutlu analiz
5.7.1 Nüfus rakamlarının yönetim
şekliyle Plot Of Means Analizi
9.
SONUÇ
KAYNAKÇA
KISALTMALAR
Kategorik Değişkenler
|
Değişkenlerin Data
Üzerindeki Adı
|
YIL2010
|
2010 YILINA AİT NÜFUS RAKAMLARI
|
YIL2009
|
2009 YILINA AİT NÜFUS RAKAMLARI
|
YIL2008
|
2008 YILINA AİT NÜFUS RAKAMLARI
|
ULKELER
|
ÜLKELER
|
YUZOLCUMU
|
ÜLKELERİN YÜZ ÖLÇÜMLERİ
|
KURULUS
|
ÜLKENİN KURULUŞ YILI
|
ORTYASAM
|
ÜLKEDEKİ ORTALAMA YAŞAM SÜRESİ
|
YASAMERK
|
ÜLKEDEKİ ERKEKLERİN ORTALAMA YAŞAM SÜRESİ
|
YASAMKADN
|
ÜLKEDEKİ KADINLARIN ORTALAMA
YAŞAM SÜRESİ
|
GSYIH
|
GAYRİ SAFİ YURT İÇİ HASILA
|
YONSEK
|
ÜLKEDE UYGULANAN YÖNETİM ŞEKLİ
|
ASYA
|
ASYA KITASI
|
KAMERIKA
|
KUZEY AMERİKA KITASI
|
GAMERIKA
|
GÜNEY AMERİKA KITASI
|
AFRIKA
|
AFRİKA KITASI
|
CUMH
|
CUMHURİYET
|
GİRİŞ
Dünyadaki nüfus yoğunluğu
günden güne artmaktadır. Devletler çoğalan bu
nüfusla ilgili gerek ticari gerekse sosyolojik olarak birçok değişim
göstermektedir. Çalışmamızda; ülkelerle ilgili birçok analizler ve grafikler
göreceksiniz.
VERİ MADENCİLİĞİ
Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli
veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir.
Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde
bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak
aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim
olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir.
Veritabanlarında bilgi madenciliği (İng. knowledge mining from databases),
bilgi çıkarımı (İng. knowledge
extraction), veri ve örüntü analizi (İng. data/pattern analysis), veri
arkeolojisi gibi.
Bunların arasındaki en yaygın kullanım Veritabanlarında Bilgi Keşfi (İng. VBK - Knowledge Discovery From
Databases - KDD)'dir. Alternatif olarak veri madenciliği aslında bilgi
keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bu adımlar:
- Veri temizleme (gürültülü ve tutarsız verileri çıkarmak)
- Veri bütünleştirme (birçok veri kaynağını birleştirebilmek)
- Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek )
- Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
- Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
- Örüntü değerlendirme (bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
- Bilgi sunumu (madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek).
Veri madenciliği adımı, kullanıcı ve bilgi tabanıyla etkileşim halindedir.
İlginç örüntüler kullanıcıya gösterilir , ve bunun ötesinde istenirse bilgi tabanına
da kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler
bulunana kadar devam eder.
Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir:- Veritabanı, veri ambarı ve diğer depolama teknikleri
- Veritabanı ya da Veri Ambarı Sunucusu
- Bilgi Tabanı
- Veri Madenciliği Motoru
- Örüntü Değerlendirme
- Kullanıcı Arayüzü
Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden
bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da;
kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi
belirli sayıda teknik yaklaşımları içerir.
Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin,
ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak
önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da
düzenin, verinin analizi ve yazılım tekniklerinin kullanılmasıyla ilgilidir.
Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar
sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit
edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün
olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde
farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya
da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu
bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar
arayüzü birleştirilir.
Veri madenciliği sahası, istatistik, makine bilgisi, veritabanları ve yüksek
performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek
bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade
etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup
iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık
veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
VERİ AMBARI
Veri ambarı, ilişkili verilerin sorgulandığı ve analizlerinin
yapılabildiği bir depodur. Veri ambarı veri tabanını yormamak için
oluşturulmuştur. Bir veri ambarı ilgili veriyi kolay, hızlı, ve doğru bicimde
analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı, işlemsel
sistemlerde ki veriyi kopyalayıp, karar verme işlemi için uygun formda saklar.
Veri ve bilgiler, üretildiklerinde heterojen kaynaklardan elde edilirler.
Standford Üniversitesine göre: Veri ambarı, başlangıçta farklı kaynaklardan
gelen verinin üzerinde daha etkili ve daha kolay sorguların yapılmasını
sağlamaktadır.
Veri Ambarları, sağlık sektöründen coğrafi bilişim sistemlerine,
işletmelerin pazarlama bölümünden üretime, geleceğe dönük tahminler yapmada,
sonuçlar çıkarmada ve işletmelerin yönetim stratejilerini belirlemede
kullanılmakta olan bir sistemdir. Pahalı bir yatırım maliyeti olsa bile sonuç
olarak getirisi (yararı) bu maliyeti kat kat aşmaktadır. İs organizasyonlarında
bilgi akış mimarisinde veri ambarları iki amaçla oluşturulmaktadır:
- Hareketsel ve organizasyonel görevler arasındaki depo ve analitik stratejik verilerin birikimini sağlar. Bu veriler daha sonra yeniden kullanılmak üzere arşivlenir. Veri ambarları verilerin sorgulanabildiği ve analiz yapılabilindiği bir depodur.
- Veri Ambarlarının pazarda yeni fırsatlar bulmaya, rekabete katkı, yoğun proje çevirimi, iş, envanter , ürün maliyetlerinin azalmasının yanında farklı işlere ait verilerin ilişkilendirilmesi, karar destek ve alınan bilgiye hızlı cevap verebilme gibi birçok katkısı vardır.
Veri Ambarının Kullanım Amacı]
- Müşterilerin gizli kalmış satın alma eğilimlerini tespit etmek
- Satış analizi ve trendler üzerine odaklanmak,
- Finansal analiz
- Stratejik Analiz (Bir KDS olmasından dolayı)
R (programlama dili)
R
|
|
İlk
çıkışı
|
1993
|
Tasarımcısı
|
|
R
Development Core Team
|
|
Etkilendikleri
|
|
R istatistiksel
hesaplama ve grafikleri için bilgisayar programı olup aynı zamanda programlama dilidir. Yeni Zelanda Auckland
Üniversitesinden Ross Ihaka ve Robert Gentleman tarafından ortaya çıkarılan R
halihazırda R Geliştirme Çekirdek Ekibi tarafından geliştirilmekte. S
programlama dilinin açık kaynak kodlu versiyonu olan R bundan dolayı bazen GNU
S olarak ta anılmaktadır.
İstatistiki yazılım geliştirme için istatistikçiler arasında de fakto
standart haline gelen R istatistiki yazılım geliştirme ve veri analizi alanında kullanılmaktadır.
GNU projesinin bir parçası olan R nin kaynak kodları GNU Genel Kamu Lisansı
altında olup değişik işletim sistemleri için sürümleri mevcuttur.R komut satırı
arayüzü kullanıyor olsada değişik grafik kullanıcı arayüzleri de bulunmaktadır.
Özellikleri
R çok geniş istatistiki (doğrusal ve doğrusal olmayan modelleme,klasik
istatistik testleri, zaman serileri analizi, sınıflandırma, kümeleme ve diğer)
ve grafik çizim teknikleri sunmaktadır. R de S gibi tam anlamıyla programlama
dili olarak tasarlanmış olup kullanıcıya yeni fonksiyonlar tanımlayarak ilave
özellikler geliştirme imkânı sunmaktadır. Bazı önemli farklılıklar olmasına
rağmen S için yazılan kodlar aynen R de de çalışır. R sisteminin büyük
çoğunluğu aynı dille yazıldığından kullanıcının yapılan algoritmik seçimleri
takip etmesi kolaylaşmaktadır. Yoğun hesaplamalar gerektiren görevler için C,C++ ve Fortran kodu çalışma
zamanında bağlanıp çalıştırılabilmektedir. İleri seviye kullanıcılar R
nesnelerinin manupilasyonu için C kodu yazabilirler.
R, kullanıcıların eklediği özel fonksiyonlar veya çok özel araştırma alanlarına
ait paketlerle oldukça geliştirilebilirdir. S dilinin mirasından dolayı R diğer
birçok istatistiki hesaplama dilinden daha kuvvetli bir nesneye yönelik
programlama kabiliyetine sahiptir.
R'nin bir diğer güçlü yönü matematiksel sembolleri de içeren yayın kalitesinde
grafikler çizebilen grafik imkânlarıdır. R'nin ister online isterse baskı
amaçlı kullanılabilen çok geniş içerikli LaTeX
benzeri dökümantasyon imkânı vardır.
Popüler veri madenciliği yazılım Weka nın, veri madenciliği
yeteneklerinin Weka, istatistiksel analizlerin R ile yapılmasını sağlayan
arayüzü bulunmaktadır.
Veri Tabanı Hakkında bilgi
İlgili çalışma dünya ülkelerinin, ayrıntılı
bilgilerinden oluştuğundan birçok kaynaktan yararlanılarak bir araya
getirilmiştir. Dünyadaki nüfus bakımından ilk 100 ülkesinin genel analizlerini
saptayabileceğimiz bir database oluşturduk. Çalışmalarımızdaki beklentilerimizi
karşılayabilecek bilgileri sayarsak:
Ülkelerin 2010-2009-2008 nüfuslarıÜlkelerin yüzölçümleri
Ülkelerin hangi kıtada yer aldıkları
Ülkelerin GSYIH rakamları
Ülkelerde yaşayan insanların ortalama yaşam süreleri ve cinsiyetlere göre ayrımları
Ülkelerde uygulanan yönetim şekilleri
Ülkelerde kullanılan resmi dil veya diller
Ülkelerin kuruluş yılları
Gibi analiz yapılabilecek birçok bilgiyi barındırmaktadır.
TABLO ÖZETİ
summary(DÜNYA)
SIRALAMA ULKELER YIL2010 YIL2009
Min. : 1.00 ABD : 1 Min. :6.736e+06 Min. :6.371e+06
1st Qu.: 25.75 AFGANISTAN: 1 1st Qu.:1.074e+07 1st Qu.:1.052e+07
Median : 50.50 ALMANYA : 1 Median :2.191e+07 Median :2.140e+07
Mean : 50.50 ANGOLA : 1 Mean :6.430e+07 Mean :6.589e+07
3rd Qu.: 75.25 ARABISTAN : 1 3rd Qu.:4.822e+07 3rd Qu.:4.511e+07
Max. :100.00 ARJANTIN : 1 Max. :1.324e+09 Max. :1.459e+09
(Other) :94
YIL2008 YUZOLCUMU KURULUS ORTYASAM
Min. :7.019e+06 Min. : 1092 Min. : -11 Min. :47.80
1st Qu.:1.061e+07 1st Qu.: 129090 1st Qu.:1857 1st Qu.:58.56
Median :2.258e+07 Median : 413826 Median :1947 Median :71.62
Mean :6.489e+07 Mean : 1208972 Mean :1867 Mean :67.95
3rd Qu.:4.791e+07 3rd Qu.: 1026145 3rd Qu.:1961 3rd Qu.:75.58
Max. :1.330e+09 Max. :17098242 Max. :2011 Max. :82.90
NA's : 6.00
YASAMERK YASAMKADN GSYIH KITA
Min. :47.08 Min. :44.04 Min. : 917 AFRIKA :32
1st Qu.:58.85 1st Qu.:61.42 1st Qu.: 21294 ASYA :28
Median :67.88 Median :74.36 Median : 96538 AVRASYA : 1
Mean :65.45 Mean :70.14 Mean : 593722 AVRUPA :21
3rd Qu.:71.96 3rd Qu.:78.18 3rd Qu.: 370575 AVUSTURALYA: 1
Max. :80.80 Max. :85.91 Max. :14582400 GAMERIKA :11
NA's : 3.00 NA's : 6.00 KAMERIKA : 6
YONSEK RES1DIL RES2DIL RES3DIL
CUMH :89 INGILIZCE :18 INGILIZCE: 4 AYMARA : 1
DIKTATORLUK: 1 FRANSIZCA :16 ARAPCA : 2 FELEMENKCE : 1
KRALLIK :10 ISPANYOLCA:13 BERBERICE: 2 ITALYANCA : 1
ARAPCA : 9 FRANSIZCA: 2 KINYARWANDA: 1
PORTEKIZCE: 4 HINTCE : 2 MALAGASCA : 1
ALMANCA : 3 (Other) :17 (Other) : 2
(Other) :37 NA's :71 NA's :93
Ülkelerin kuruluş yıllarına göre index analizi yaptığımızda; çoğu ülkenin 1500 yılında sonra kurulduğunu görmekteyiz.
Ülkelerde yaşayanların ortalama yaşam
sürelerini index analizi yaptığımızda; yaşam sürelerinin ülkelere göre
değiştiğini ve minimum ile maximum yaş ortalamalarında dünya genelinde çok
uçurumları gözlemleyebiliriz.
Ülkeleri GSYIH rakamlarına göre index analizi
yaptığımızda; uçurumların oluştuğu sonuca varabiliriz
Ortalama yaşam sürelerini Histogram analizi
yaptığımızda; dünya genelinde ağırlıklı olarak maximum 70-75 aralığı bir
ortalama yaşam süresinin olduğunu söyleyebiliriz.
Kadınların Ortalama Yaşam Sürelerini Histogram Analizi yaptığımızda; ortalama yaşların 70-85 aralığında yoğunlukta olduğunu saptayabiliriz.
Erkeklerin dünya genelindeki ortalama yaşam süresini Histogram Analizinde incelediğimizde; kadınlara oranla daha geniş parametrede ortalama yaşam süresi olduğunu çıkartabiliriz.
Ülkelerde yaşayanların ortalama yaşam
sürelerini bulundukları kıta üzerinde Boxplot Analizi yaptığımızda;
Afrika’daki ortalama yaşam süresinin diğer
kıtalara göre daha düşük aralıkta olduğunu ve diğer ülkelerde yaşayanların
Afrika kıtasına oranla daha dar aralıkta ve yüksek eksende istikrar sağladığını
söyleyebiliriz.
Ülkelerin GSYIH rakamlarını kıta bazında Boxplot Analiziyle değerlendirdiğimizde; Afrika kıtasındaki ülkelerin diğer kıtalara göre daha dar ve düşük seviyede olduğunu tespit edebiliriz.
Ülkelerde yaşayan kadınların ortalama yaşam sürelerini Boxplot analiziyle değerlendirdiğimizde; Afrika ülkelerinde çok geniş eksende dağılım gösterdiğinin sonucuna varabiliriz.
Ülkelerde yaşayan erkeklerin ortalama yaşam sürelerini Boxplot analiziyle yorumladığımızda; kadınlardaki oranlara yakın bir sonuç ile geniş eksende fakat taban ağırlıklı bir ortalama olduğunu saptayabiliriz.
Dünyadaki ortalama yaşam sürelerini,
ülkelerin yönetim şekilleriyle Boxplot analizi yaptığımızda;
Cumhuriyet ile yönetilen ülkelerde yaşayanlar
çok geniş yelpazede olduğunu fakat ağırlıklı olarak orta ve alt uzantıda
yoğunlaştığını,
Diktatörlükle ile yönetilen ülkelerde
ortalama yaşam sürelerinin düşük olduğunu,
Krallık sisteminde yönetilen ülkelerdeki
insanların ortalama yaşam sürelerinin yüksek olduğunu analiz edebiliriz.
Ülkelerdeki erkeklerin
ortalama yaşam sürelerini yönetim şekli ile boxplot analizi yaptığımızda; genel
ortalama yaşam süresindeki verilere çok yakın sonuç çıktığını saptayabiliriz.
Ülkelerdeki kadınların
ortalama yaşam sürelerini yönetim şekli ile boxplot analizi yaptığımızda; genel
ortalama yaşam süresindeki verilere çok yakın sonuç çıktığını saptayabiliriz.
Ülkelerdeki ortalama yaşam sürelerini ve GSYIH
rakamlarını, kıtalar ile ülkelerin yönetim şekillerine göre kategorize
ettiğimizde 4 boyutlu bir tablo meydana gelmektedir.
2010 nüfus verilerini ortalama yaşam süreleriyle
birlikte, yönetim şekillerine ve kıtalara ayırdığımızda 4 boyutlu bir tablo
meydana gelmektedir.
2010 nüfus rakamlarını yönetim şekilleriyle Plot of
means analizi yaptığımızda; krallık yönetimindeki ülkelerin nüfusunun diğer
yönetim şekillerine göre daha düşük olduğunu, cumhuriyet yönetim şeklinin daha
fazla nüfusa hitap ettiğini söyleyebiliriz.
Sonuç:
Afrika ülkelerinde ortalama
yaşam süreleri ve GSYIH rakamları diğer kıtalara göre daha düşüktür.
Krallık yönetim şeklini
benimseyen ülkelerde ortalama yaşam daha yüksek ve nüfusları daha azdır.Bunun
neticesinde yaşlanan ülkeler sıfatlamasını yapabiliriz.
Kaynaklar:
Vikipedi Özgür Ansiklopedi http://tr.wikipedia.org/wiki/Ana_Sayfa
Ülkeler Rehberi http://www.ulkeler.net/index.htm
Google Publıc Data http://www.google.com.tr/publicdata/directory?hl=tr&dl=tr
Hiç yorum yok:
Yorum Gönder