20 Nisan 2012 Cuma

Karakter Tabanlı Dil Tanıma Projem


Karakter Tabanlı Dil Tanıma Projesi, Demo Sürümünü İndirmek için TIKLAYIN
(yazılımı uygun bir klasöre kopyalayıp açarak çalıştırın. demo sürümü olması nedeniyle sadece dil tanımanın yapıldığı kısımlar çalışmaktadır. n-gram tabanlı dil tanıma da desteklenmiş olmasına rağmen daha iyi sonuç alabilmek için karakter tabanlı dil tanımayı çalıştırın. ayrıca test metinlerinin küçük harflerle girilmesi tavsiye edilir.)

2005 yılında doktora tezi olarak geliştirdiğim, çalışır bir proje haline getirdiğim Karakter Tabanlı Dil Tanıma  projemiz mevcut dil tanıma yazılımları içerisinde en yüksek hıza sahip ve tanıma başarısı açısından da onlarla yarışır durumdadır. Detaylarını sonra ekleyeceğim projemden üç ekran görüntüsünü sizlerle paylaşıyorum.




Dil tanıma; dili bilinmeyen bir metnin, bilgi işlem olanakları ile dilinin otomatik şekilde, insan yardımı gerekmeden, yerine getirilmesidir. Bugüne kadar birçok dilbilimsel, istatistiksel ve makine öğrenimi tabanlı dil tanıma uygulaması geliştirilmiştir. Bu çalışma makine öğrenme yöntemlerinden sınıflandırma algoritmaları yardımıyla yerine getirilmiştir. 

Projemizi diğer projelerden ayıran en önemli özelliği, dolayısıyla özgün tarafı düşük özellik seti ile yüksek sınıflandırma başarısı vermiştir. Metinlerden çıkarılan 60 kadar özellik yardımıyla şekillerde de görüleceği üzere oldukça kısa metinlerde bile yüksek oranda başarı vermektedir. Ortalama 100 karakter ve üstü boyutlarda metinler için dil tanıma doğruluğu 9 dilde %99 civarındadır. Yani sisteme bu 9 dilden birinde verilmiş 100 adet metinden 99 tanesinin dilini doğru olarak tanımaktadır. 

Artan çok dilli dokümanlar ve farklı dillerde arama yapma gibi görevler için dil tanıma kaçınılmazdır. Bu alan bilgi erişim konusu içerisinde önemli bir yere sahip olup çalışmamız bu anlamda önemli bir boşluğu doldurmuştur. Ayrıca, çalışmanın ağırlığını göstermesi açısından önemli olduğunu düşündüğümüz bazı çıktıları olmuştur ve olmaya devam etmektedir. Sırayla onları yazacak olursak: 


  1. Hidayet TakcıKarakter Tabanlı Doküman Dili Tanıma Sistemi Tasarımı: Doktora Tezi, Gebze Yüksek Teknoloji Enstitüsü Bilgisayar Müh. Bölümü, Gebze 2005 (Danışman : Prof. Dr. İbrahim Soğukpınar)
  2. Şengül Bayrak, TRIGRAM ÖZELLİK SETİ KULLANILARAK SINIFLANDIRMA YÖNTEMLERİYLE METİN TABANLI DİL TANIMA : Master Tezi, Haliç Üniversitesi, 2011 (Danışman : Yrd. Doç. Dr. Hidayet Takcı)
  3. Hidayet Takcı, İbrahim Soğukpınar, Centroid-Based Language Identification Using Letter Feature Set, Lecture Notes in Computer Science, (CICLING 2004) Springer-Verlag, Vol. 2945/2004, pages 635-645, February 2004 (SCI Indexed)
  4. Hidayet Takcı, İbrahimSoğukpınar, Letter Based Text Scoring Method for Language Identification, Lecture Notes in Computer Science, (ADVIS 2004) Springer-Verlag, (SCI Indexed)
  5. Hidayet Takcı, Ekin Ekinci, Minimal Feature Set in Language Identification and Finding Suitable Classification Method with It, World Conference on Information Technology, Bahcesehir University, 07-10 October 2010, İstanbul - Turkey
  6. Hidayet Takcı, ÇOK DİLLİ DOKÜMANLARIN DAHA KOLAY YÖNETİLEBİLMESİ İÇİN DOKÜMANLARIN DİLE DAYALI OLARAK OTOMATİK YÖNTEMLERLE SINIFLANDIRILMASI : BAP Projesi, Cumhuriyet Üniversitesi, 2012
  7. Hidayet Takcı, Tunga Güngör, A High Performance Centroid Based Classification for Language Identification, Pattern Recognition Letters
  


Hiç yorum yok:

Yorum Gönder

İki yarım bir tam etmez

Bir bütünün iki parçaya ayrılıp sonra bir araya getirilmesi bütünden bir şey eksiltir mi, miktarından bir şey eksiltmez ama bütünlüğünden ek...