Uygulama Metodları: Eğitim Kümesinin Elde Edilmesi - Bloğum

, 21 Kasım, 2016

Uygulama Metodları: Eğitim Kümesinin Elde Edilmesi

Sürecin ilk aşamasının hedefi olan eğitim kümesini elde etmek için Ekşi Sözlük‘ün herhangi bir UPA’sı olmadığı için küme HTTP istekleri ile elde edilecektir. Bunun için import.io özelleştirilmiş tarayıcısı kullanılacaktır.

Eğitim kümesi için planlanan girdi sayısı 10.000’dir. Bu girdiler, Türkiye’nin toplumsal olarak yaşadığı 5 mutsuz gün, 5 mutlu gün ve 10 tane de 2009 yılından günümüze kadarki süreçten rasgele günler seçilerek sözlüğün o günkü en çok beğenilen başlıklar sıralaması ile sıralanmış ve sayfa linkleri site tarayıcısına verilmek üzere toplanmıştır.

 

Günü Seçilen OlayEtiket
Aziz Sancar’ın Nobel Ödülü Alması#mutlu
Arda Turan’ın Barselona Transferi#mutlu
Fransa’da Terör Saldırısı#mutsuz
Özgecan Asan’ın Katledilmesi#mutsuz
İrlandalı Turist Haberi#mutlu
Kenan Sofuoğlu Haberi#mutlu
Aylan Kurdi Haberi#mutsuz
Başkent Terör Saldırısı#mutsuz
1 Kasım Seçimi#mutsuz
Milli Maç#mutlu

Çizelge 4.1. Eğitim kümesi için seçilen özel günler.

 

Örnek seçilen 1 gün için link yapısı:

https://eksisozluk.com/basliklar/ara? searchForm.Keywords=&searchForm.Author=&searchForm.When.From=2008-06-20&searchForm.When.To=2008-06-22&searchForm.NiceOnly=true&searchForm. NiceOnly=false&searchForm.FavoritedOnly=false&searchForm.SortOrder=Count

 

Import.io’nun bize sunduğu hizmetlerden biri de internet sitesi tarayıcısı olan Crawler’dır. Kaydedilen bu 20 arama linki ile site tarayıcı aracını kullanarak her bir arama sonucunda beliren 50 başlığın linki elde edilir. Sistem eğit-kullan mantığı ile çalıştığı için bir Crawler eğitilmek üzere 20 linkten biri özelleştirilmiş tarayıcıda açılır ve tekrar eden başlık linklerinden biri seçilir. Sistem verideki sayfalama özelliğinin kullanılıp kullanılmayacağını sorar ve hayır seçerek devam ederiz.

Seçilen başlık verisi için kolon ismi girilir ve kolon tipi olarak link seçilir. Bu sayede sistem başlığın linkini, ismini ve kaynağını taramak zorunda olduğunu bilir. İlk 5 link için sistem bizden bu seçimi doğrulamamızı ister ve artık tarama işleminden önce bir konfigürasyon sayfasını bize sunar. Buradaki arama linki kutusuna taramasını istediğimiz 20 linki yapıştırarak taramayı başlatırız. Tarama sonucunda her bir arama linkinin içindeki 50 şer başlık, toplamda 1000 link olarak, virgülle ayrılmış dosya tipinde(CSV) indirilir.

 

import.io crawler konfigürasyon penceresi import.io crawler konfigürasyon penceresi

 

Örnek başlık linki:

https://eksisozluk.com/aziz-sancar–1234049?a=nice

 

İndirilen 1000 adet başlık linkinden aynı yöntemlerle başka bir internet tarama aracı oluşturulur ve başlığın içindeki oylanarak beğenilen ilk 10’ar girdi başlığı, içeriği, tarihi, yazarı ve girdi numarası ile beraber ilgili kolon tipiyle seçilir. Konfigürasyon sayfasında adres kutusuna bir önceki internet taramasında elde edilen girdi linkleri kopyalanarak tarama başlatılır.  Artık hazır olan eğitim kümesi için belirlenmiş bu 10.000 girdi virgülle ayrılmış formatta kullanılmak üzere indirilir.

Örnek girdi linki:

https://eksisozluk.com/entry/7228961

 

Girdilerin Crawler aracı yardımı ile elde edilmesi. Girdilerin Crawler aracı yardımı ile elde edilmesi.

 

CSV formatında elde ettiğimiz eğitim kümesi verisini MySQL veri tabanına dönüştürmek için Excel için geliştirilmiş MySQL for Excel eklentisini kullanmak üzere dosyamızı Excel de açıyoruz. Karşımıza çıkan sihirbaz sayesinde verimizin ne ile ayrıldığını işaretleyip üst bilgisi olduğunu Excel’e bildiriyoruz.

 

MySQL for Excel eklentisiyle tabloyu veri tabanına aktarma. MySQL for Excel eklentisiyle tabloyu veri tabanına aktarma.

 

Temsili olarak şekilde gösterilen bu Excel eklentisi sayesinde verimizi bir MySQL veri tabanı içerisinde tablo olarak kaydediyoruz.

eğitim kümesi oluşturma  eğitim kümesi oluşturma süreci  rest web servisi  veri madenciliği için veri seçimi  veri madenciliğinde eğitim kümesi  web crawler ile veri elde etme  

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.