Bu yazımızda Metin Madenciliği(Text Mining)hakkında aklınızdaki soru işaretlerine cevaplar bulmaya çalışıp,metin madenciliği uygulamarının nasıl yapıldığını ve bu konunun büyük veriyle olan ilişkisini inceleyeceğiz.
Metin Madenciliği Nedir?
En basit tanımıyla metinler üzerinden istatiksel sonuçlar elde etmek diyebiliriz. Verinin çok önemli olduğu günümüzde metin madenciliği sayesinde metinler analiz edilir.Bu analiz sonuçları
dilbilim, istatistik, makine öğrenmesi, veri madenciliği gibi konuların temelini oluşturur diyebiliriz.
Metin madenciliğinin bilgisayar bilimlerinden biri olan doğal dil işleme metodunu kullanır.Doğal dil işleme metoduna göre dilin grametik(gramer) yapısı gözönünde bulundurulur ve metin bir bütün olarak ele alınır.Türk dili için bu yaklaşımlar hala tamamen uygulanabilir değildir.”Bag of words” isimli diğer yaklaşım ise kelime kelime parçalıp verileri analiz eder.Metin önce kelimelere daha sonra kelimelerin köklerine ve köklerin frekansları hakkında inceleme yapılır.
Bilgisayarın işleyebileceği şekilde bazı sabit çıkarım yöntemleri uygular.Örneğin bir yazının bileşenleri ortaya çıkartılabilir.Metinde geçen sıfatlar,alıntılar vb. içerikler işlenecek hale getirilip bu metinin hangi yazar tarafından yazıldığını tespit etmek için bu verileri işlenebilir hale getirmeye metin madenciliğinde sayesinde yapabiliriz. Peki veri madenciliği ile metin madenciliği özünde aynı şeylermi ?
Veri Madenciliği ile Metin Madenciliğinin Farkları Nelerdir?
Veri madenciliğinde verilen hazırlanmış şekilde bulunurlar. Özetle anlam kazanmış ve işlenmiş bir biçimde veritabanında bulunmaktadır.
Metin madenciliğinde yazılar henüz işlenmemiştir.Bu yazılar genellikle doğal dil işleme(örneğin Türkçe doğal bir dildir) algoritmalarıyla anlamlı hale getirilmesi adımlarıdır.
Türkiye’de Metin Madenciliği Uygulamaları:
Metin madenciliğinin Türkiye’de özellikle sosyal medya alanında ünlenmiştir. Fakat metin madenciliğinde uygulanan yukarıda bahsettiğimiz iki yaklaşımda hala eksik kalmaktadır.Çünkü tam manasıyla tek bir Türkçe sözlük oluşturulamamıştır.Bu konu üzerinde İstanbul Teknik Üniversitesi Bilgisayar ve Bilişim Fakültesi‟nde Doğal Dil İşleme Grubu‟nun oluşturduğu İTÜ Doğal Dil İşleme Yazılım Zinciri web arayüzü ve Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği bölümü Kemik Doğal Dil İşleme Grubu‟nun geliştirdiği java tabanlı Kemik isimli sözlük programıdır. Diğer akademik araştırmalar, araştırmacıların kendi oluşturdukları sözlükler üzerinde gerçekleştirilmektedir.