Knime Ders 1: Web – Metin Madenciliği

Şimdi biraz sizlere Knime‘dan bahsetmek istiyorum. Knime açık kaynak kodlu bir veri madenciliği yazılımı. Üniversitedeyken Knime‘a benzer olarak Rapidminer kullanmıştım ve ikisini kıyaslayacak olursam Rapidminer ücretsiz olarak size yalnızca on bin satırlık veri ekleme imkanı veriyordu fakat Knime tamamen ücretsiz bir veri işleme yazılımı. (Desktop’ı ücretsiz, server tarafı ücretlidir.)

Knime workflow mantığıyla çalışır yani ekrana sürükle bırak yaparak node denen kutucukları birbirine bağlayıp akış diyagramı oluştururuz.

Knime‘ı yüklediğinizde kurulu değilse “palladian“ı mutlaka kurmamız lazım. Palladian java üzerinde geliştirilmiş internet üzerinden download yapmayı sağlayan bir yazılım. Bunun için Install KNIME Extensions‘a girerek arama kısmına palladian yazıyoruz. (Sol altta hide items that are already installed (yüklenmiş olanları gizle) seçeneğindeki tiki kaldırırsanız yüklü olan programlar görünecektir.) Knime Community Contributions Other -> Palladian for KNIME diyerek palladian‘ı kuruyoruz.

Eveet tamamsak şimdi kullanmaya başlayabiliriz. Burada bir sürü örnekten istediğinizi çift tık ile seçerek inceleyebilirsiniz.

Dilerseniz yeni bir proje oluşturarak web madenciliği – metin madenciliği – ile ilgili örneğimizi oluşturalım. En üst sekmeden File -> New -> New KNIME workflow diyerek yeni bir proje açıyoruz.

Hadi gelen ekranı doldurmaya başlayalım.

Sol aşağıda Node Repository kutusuna gelerek Table Creator i bulup çift tıklıyoruz. Table Creator nodunu web sitesinden bilgileri çekmek için kullanıyoruz. Noda çift tıklıyoruz ya da sağ tık configure diyoruz. Gelen Row0 Column1’e verilerini çekmek istediğimiz rss’i yapıştırıyoruz. Ben google’a cnn rss feed yazarak gelen adrese tıklayıp çıkan rss’lerden birini kopyalarak yapıştırdım.

Ekrana Http Retriever’i alıyoruz ve iki nodu birbirine bağlıyoruz (giriş çıkış sayıları farklı olduğu için eskisini aldım). Bu nodlar verileri internetten almamızı sağlıyor. Şimdi Feed Parse‘ı alarak gelen verileri parçalara bölüyoruz. Ardından Strings to Document‘i (üzerine çift tıklayıp title karşısına title, full text’in karşısına da description olarak ayarlardım) ekliyorum. Dökümanı işleyebilmek için string olan bilgileri dökümana çevirmek zorundayız.

Sonraki adım OpenNLP NE Tagger. Bu nodta etiketlemeyi sağlıyor. 2, 3, 4 vs. istediğiniz kadar ekleyebilirsiniz ben 2 tane ekliyorum. Noda çift tıklayarak neye göre etiketlendirme yapacağını ayarlayabiliyorsunuz tarih, yer, kişi vb. Arkasından Bag of Words Creater ekliyoruz kendisi her etiketi sayar ve gruplandırır.

Tags to String ile etiketlerimizi string’e çeviriyoruz. Şimdi TF’i ekliyoruz. TF, frekansları (sayıları) sayıyor.

Son olarak Tag Cloud ekliyoruz. Tag cloud, yani etiket bulutu etiketleri görmemizi sağlar. Sık kullanılan etiketleri daha büyük diğerlerini daha küçük yazar. Bunu görmek için Tag Cloud sağ tık image port diyebilirsiniz.

Son olarak yeşil play iconuna basın ve hepsi bu kadar!

25.png

Sevgiler

Reklamlar

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.