A Binary Classification Approach Based on Support Vector Machines via Polyhedral Conic Functions
Abstract
Sınıflandırma sıkça kullanılan bir veri madenciliği tekniğidir. Bir sınıflandırma çeşidi olan ikili sınıflandırmada iki sınıf bulunur. Bu problemin birçok uygulama alanı vardır; tıp, sosyal bilimler, ekonomi, mühendislik, finans ve yönetim, pazarlama vb. gibi. Son yıllarda ikili sınıflandırma için farklı matematiksel programlama yaklaşımları sunulmuştur. Destek vektör makineleri ve çokyüzlü konik fonksiyonlar bunlardan sadece ikisidir. Makalede bu iki verimli yöntemin kombinasyonuyla oluşturulmuş yeni bir algoritma sunulmuştur. Ayrıca yine bir veri madenciliği yöntemi olan kümeleme metoduda bu algoritmaya eklenerek hesaplama zamanı indirgenmeye çalışılmıştır. Gerçek hayat veri kümeleri üzerinde yapılan sayısal deney sonuçları sunulan yaklaşımın, ikili veri sınıflandırma problem çözümlerinde etkili olduğunu göstermektedir. Sadece bazı veri kümelerinde kümeleme metodunun başlangıç nokta seçimlerindeki hassasiyeti sebebiyle bir problem ortaya çıkmıştır, öyle ki aykırılıklar ve gürültüye sahip büyük veri kümelerinde genel sonuçlardan farklı yerel sonuçlar elde edilmiştir. Tüm sonuç değerleri tablolarda sunulmuştur Classification is a frequently used technique of data mining. Binary classification is a type of classification that includes two classes. This problem has a lot of application areas like medical and social sciences, economics, engineering, finance and management, marketing etc. Different mathematical programming approaches of the binary classification have been presented in recent years to support vector machines and polyhedral conic functions. In this paper, a modified algorithm that combines both support vector machines approachment and polyhedral conic functions has been presented. Besides clustering method, a data mining technique, has been added to reduce computational time. Results of numerical experiments on real-world datasets demonstrate that the proposed approach is efficient for solving binary data classification problems. Only one problem arised in some datasets. Because of clustering method's sensitivity on initilization point choice, it can find different local solutions from global ones in some big datasets that have noise or outliers. All results are presented in tables