DISCOVERING THE PROBLEMS OF THE AMERICAN AIRLINE COMPANIES BY USING R AND BIG DATA TOOLS

Big data systems solve today's large scale data analytics needs. In addition, succesfull analysis systems emerge when we combine statistical power of R programming and data visualization with power of making big scalability applications of big data tools. In the scope of the study, the major big data tools Apache Hadoop and Apache Spark are mentioned, the difference between the disk based MapReduce programming model and the in-memory Apache Spark's internal structure is highlighted. Machine learning approaches are discussed and the differences between supervised learning and unsupervised learning methods have been stated. Theoretically, clustering methods of unsupervised learning approaches, decision trees of supervised learning approaches are mentioned. These analysis methods were applied to the data of the United States airline companies between 1987-2008. Cluster analysis was conducted for airline companies flight distances and flight delays. Specifically, the conclusions regarding the delays of an airline company were made using the decision tree. The mainstream airline companies formed the most problematic cluster with the result of the analysis. The fact that these problems are resulted from take off delay and distance is revealed by results of clustering analysis and decision trees.

BÜYÜK VERİ ARAÇLARI VE R KULLANARAK AMERİKAN HAVAYOLU FİRMALARININ SORUNLARININ KEŞFEDİLMESİ

Büyük veri sistemleri günümüzün büyük ölçekli veri analitiği ihtiyaçlarını karşılamaktadır. Bununla birlikte R yazılımının istatistiksel hesaplama ve veri görselleştirme gücü ile büyük veri araçlarının büyük ölçekli uygulamalar gerçekleştirebilme yetenekleri birleştiğinde başarılı analiz sistemleri ortaya çıkmaktadır. Çalışma kapsamında büyük veri araçları Apache Hadoop ve Apache Spark’a değinilmiş, disk bazlı çalışan MapReduce programlama modeli ile bellek içi çalışan Apache Spark’ın içyapısı arasındaki farklılıklara dikkat çekilmiştir. Makine öğrenmesi yaklaşımları ele alınmış ve denetimli öğrenme ile denetimsiz öğrenme metotları arasındaki farklılıklar ifade edilmiştir. Teorik olarak denetimsiz öğrenme yöntemlerinden kümeleme yöntemlerine, denetimli öğrenme yöntemlerinden karar ağaçlarına değinilmiştir. Bu analiz yöntemleri Amerika Birleşik Devletleri havayolu firmalarına ait 1987-2008 yılları verilerine uygulanmıştır. Havayolu şirketlerinin uçuş mesafeleri ve uçuş gecikme performanslarına yönelik kümeleme analizi yapılmıştır. Spesifik olarak bir havayolu şirketinin gecikme sürelerine ilişkin çıkarımlar karar ağacı kullanılarak yapılmıştır. Ana akım havayolu firmaları, analiz sonuçlarından hareketle en sorunlu kümeyi oluşturmuştur. Bu sorunların özellikle kalkıştaki gecikme ve mesafeden kaynaklandığı gerçeği, kümeleme analizi ve karar ağaçları sonuçlarından ortaya çıkmıştır.