Estimation of Right Censored Nonparametric Regression Solved by kNN Imputation: A Comparative Study
Abstract
This paper introduces an estimation procedure for the right-censored nonparametric regression model using smoothing spline method. In this process, to overcome the censorship problem we used an imputation method based on k-nearest neighbors (kNN). Among some known censorship solutions, such as Kaplan-Meier weights (Kaplan and Meier, Miller) and Synthetic data transformation (Koul et al.), the most important advantage of the kNN imputation method is that it does not depend on a distribution. After solving the problem of censorship, the most important problem in obtaining the optimal estimation of non1parametric regression function by using smoothing spline will be the selection of the smoothing parameter. In order to achieve this aim, three commonly used criteria such as generalized cross-validation (GCV), Bayesian information criterion (BIC) and risk estimation using classical pilots (RECP) are considered in this study. A Monte-Carlo simulation study and a “kidney infection recurrence” data are carried out to realize the purposes of this study. Thus, it is determined that which selection criterion is more successful in estimating the non-parametric model with right censored data. Obtained results from both simulation and real-world studies show that BIC has remarkable performance among others. Also, it can be seen that GCV is better than BIC for large sample size. RECP has mediocre performance. Bu makalede, düzleştirici splayn yöntemi kullanılarak sağdan sansürlü parametrik olmayan regresyon modeli için bir tahmin prosedürü sunulmaktadır. Bu süreçte, sansür sorununun üstesinden gelmek için, en yakın komşulara (kNN) dayanan bir tamamlama (yerine koyma) yöntemi kullanıldı. Kaplan-Meier ağırlıkları (Kaplan ve Meier, Miller) ve Sentetik veri dönüşümü (Koul ve ark.) gibi bilinen bazı sansür çözümleri arasında, kNN değerleme yönteminin diğerlerine göre en önemli avantajı, bir dağılıma bağlı olmamasıdır. Sansür problemini çözdükten sonra, düzeltme parametresi kullanarak parametrik olmayan regresyon fonksiyonunun en uygun tahminini elde etmedeki en önemli problem, düzeltme parametresi seçimi olacaktır. Bu amaca ulaşmak için, genelleştirilmiş çapraz doğrulama (GCV), Bayes bilgi kriteri (BIC) ve klasik pilotlar kullanılarak risk tahmini (RECP) gibi yaygın olarak kullanılan üç kriter ele alınarak düzeltme parametresi seçilmiştir. Bu çalışmanın amaçlarını gerçekleştirmek için bir Monte-Carlo simülasyon çalışması ve “böbrek enfeksiyonun tekrar etmesi” verileri ile uygulama çalışması yapılmıştır. Böylelikle parametrik olmayan regresyon modelinin sağdan sansürlü verilerle tahmin edilmesinde hangi seçim kriterinin daha başarılı olduğu tespit edilmiştir. Hem simülasyon hem de gerçek veri çalışmalardan elde edilen sonuçlara göre, BIC yönteminin diğerleri arasında dikkate değer bir performansa sahip olduğu kolaylıkla görülmektedir. Ayrıca, GCV yönteminin büyük örneklem büyüklüğü için BIC'den daha iyi sonuçlar verdiği söylenebilir. RECP yöntemi ise diğer iki yönteme göre vasat bir performans sergilemiştir.
Source
Türkiye Klinikleri Biyoistatistik DergisiVolume
11Issue
2URI
https://doi.org/10.5336/biostatic.2019-66285https://app.trdizin.gov.tr//makale/TXpNME1qZzRPQT09
https://hdl.handle.net/20.500.12809/8578