Uygulama Metodları: Yazı Ön İşleme

Verimiz artık uygun bir ortamda bulunduğu için veri madenciliği ön hazırlık sürecine tabi tutulabilir haldedir. Sırasıyla aşağıdaki adımlar izlenerek veri istenilen şekle sokulur.

Gereksiz Girdilerin Silinmesi

Veri madenciliği uygulanırken bir getirisi olmayacağını düşünülen girdiler eğitim kümesinden atılmalıdır. Sadece tek kelimeden, bakınız ibaresinden veya linkten oluşan girdiler uygulama alanımıza girmediği için bu aşamada silinmesi gerekir.

Projenin ön yüzündeki internet sayfası Codeigniter PHP çatısı ile gerçekleştirileceği için öncesinde veri madenciliği sürecine katkıda bulunması için bir yönetici paneli tasarlanır ve bu işlemi yapan bir çatı fonksiyonu yapılıp süreç aşaması olarak eklenir.

Fonksiyon yazılırken bu durumları yakalamak için REGEX betik dili ile eşleşmeler sağlanır.

Linklerin Çıkartılması

Girdi metinleri içiresinde yer alan linkle veri madenciliği için bulanıklık yaratırlar. Bu nedenle girdilerin her noktasındaki linkleri temizleyen bir başka fonksiyon yönetici sayfasına eklenir.

Anlamsız Kelimelerin Çıkartılması

Girdi metinleri içiresinde yer alan, anlam yükü olmayan, özel sözlük ibareleri; edat, bağlaç gibi kelimelerin de sürecin içerisinde yer almaması gerekir. Fakat burada atlanılması gereken kelimeler eş anlamı olup da duygu ağırlığı taşıyabilecek kelimelerdir. Bu işlevi yerine getiren bir başka fonksiyon yönetici sayfasına eklenir.

Duygu İfadelerinin Etiketlenmesi

Girdi yazarları tarafından çeşitli şekillerde noktalama işaretleri ile ya da belirli hece tekrarlarıyla bırakılan gülücük, üzüntü ifadeleri etiketlenerek bütünleştirilir. Kötü hisleri çağrıştıra ifadeler “SADEMOTICON” etiketiyle, iyi hisleri ve mutluluğu ifade edenler ise “HAPPYEMOTICON” etiketi ile değiştirilir. Bu işlemi gerçekleştirmek için ilgili yönetim fonksiyonu yapılır ve yönetici sayfasına aşama olarak eklenir.

İfade Etiket İfade Etiket
😮 SADEMOTICON 🙂 SMILEEMOTICON
:/ SADEMOTICON :p SMILEEMOTICON
:’( SADEMOTICON >:( SADEMOTICON
asdas SMILEEMOTICON eheheh SMILEEMOTICON
(: SMILEEMOTICON SMILEEMOTICON
): SADEMOTICON lol SMILEEMOTICON
:d SMILEEMOTICON swh SMILEEMOTICON
xd SMILEEMOTICON haha SMILEEMOTICON

Çizelge: Belirlenen ifade setinin etiketlenmesi.

Noktalama İşaretlerinin Kaldırılması

Metin içerisinde yer alan bütün noktalama işaretleri temizlenir. Bu işlemi yapmaktaki amaç bulanıklığı ortadan kaldırmak ve ilerleyen aşamalardaki kelime karşılaştırma işlemlerine kolaylık sağlamaktır. Bu işlemi gerçekleştirmek için ilgili yönetim fonksiyonu yapılır ve yönetici sayfasına aşama olarak eklenir.

Türkçe Karakterlerin İngilizce Karşılıklarıyla Değiştirilmesi

Kelimelerin defalarca karşılaştırılması ve tekillik açısından bu işlemi yapmak araştırmacıya yarar sağlar. Ön işleme çalışmasının son aşaması olarak bu fonksiyon da yazılır ve yönetim paneline işlev olarak eklenir.

Türkçe İngilizce Türkçe İngilizce
ç c ö o
ğ g ş s
ı i ü u

Çizelge: Dönüştürülen Türkçe karakterler.