Merhaba,
Talend’in modüler yapısından ilk yazımızda genel hatlarıyla bahsetmiştik. Bu yazımızda ise sizlere Talend Data Preparation modülünü tanıtmak istiyoruz.
Veri ve iş analistleri, verileri analiz etmek yerine temizlemek için çok daha fazla zaman harcıyor. Talend Data Preparation, hataları hızlı bir şekilde tanımlamak ve çok büyük veri kümelerinde bile kolayca yeniden kullanıp paylaşabileceğiniz kuralları uygulamak için self servis, tarayıcı tabanlı, “işaretle ve tıkla” aracı sağlar.
Sezgisel kullanıcı arayüzü, self servis veri hazırlama ve iyileştirme işlevselliği, herkesin gerçek zamanlı olarak veri profili oluşturma, temizleme ve zenginleştirme yapmasını mümkün kılar. Kullanıcılar, hazırlıkları ve seçilmiş veri kümelerini paylaşabilir ve veri hazırlıklarını canlı veri entegrasyon senaryolarına yerleştirebilir.
Talend, anlık veri zenginleştirme ve analiz işlerini tamamen yönetilen, yeniden kullanılabilir süreçlere dönüştürmenize olanak tanır. Her zaman en yeni veri kümelerini kullanarak Teradata, AWS, Salesforce ve Marketo dahil olmak üzere hemen hemen her veri kaynağından veri hazırlamayı operasyonel hale getirebilirsiniz.
Talend Data Preparation veri yönetişimini ayağınıza getirir. Rol bazlı erişim, iş kullanıcılarının yalnızca ihtiyaç duydukları verileri bulmasını sağlarken, maskeleme kuralları ve iş akışı tabanlı veri iyileştirme, kuruluş genelinde geniş veri erişimi sağlar.
Öncelikle bu modülün open source versiyonda olmadığını hatırlatalım. Data Preparation lisansı, alacağınız herhangi bir lisans platform pakedine Data Steward modülü ile birlikte ücretsiz olarak ekleniyor.
Eğer lisans konusunda bir engeliniz yoksa Data Preparation’ı kullanmak için yapmanız gereken tek şey TAC üzerinden yetkili bir kullanıcı oluşturmak. Sonrasında belirlediğiniz url üzerinden aşağıdaki gibi erişim sağlayabilirsiniz.
Giriş yaptığınızda ise sizi 3 menülü bir ana ekran karşılıyor. Preparation’larınızın, Dataset’lerinizin ve anlamsal kavramlarınızın olduğu bir menü sol tarafta yer alıyor. Ekranın geri kalanında ise seçiminize göre listeleniyor.
Klasör yapısı ile proje/çalışma bazlı klasörler oluşturup derli toplu bir çalışma ortamı hazırlayabilirsiniz. Var olan hazırlıklarınızı json formatında import edebilir yeni hazırlıklar oluşturabilirsiniz.
Var olan hazırlıklarınızın kim tarafından hazırlandığı oluşturulma ve düzenlenme tarihleri, hangi veri kümesini kullandığı ve kaç hazırlık aşamasından oluştuğu ana ekranda sizlere hızlıca gösterilir.
Bir hazırlık oluşturduğunuzda ise aşağıdaki görüntüyü elde edersiniz.
1- Hazırlık yapmak üzere kullanacağınız veri setiniz burada yer alır. Kolon adının hemen altında eklediğiniz anlamsal tiplerin keşfi bulunur. Anlamsal tipler veya veri tipleri için açılır menü üzerinden değişiklik yapabilirsiniz. Kolonları silebilir, oluşturabilir, yeniden adlandırabilirsiniz. Geçerli/geçersiz ya da null satırları hızlıca filtreleyebilirsiniz.
2- Kolon üzerinde uygulayacağınız işlemlere göre fonksiyonların bulunduğu menüden dilediğinizi seçebilirsiniz.
3- Seçtiğiniz kolona ait hızlıca veri profillendirmesinin yapıldığı ve sunulduğu alandır. Veri tipine göre uygun graik tipiyle görsel bir analiz sunar. Value sekmesinde satır sayısı, distinct-suplice satır sayısı gibi detay bilgiler yer alıt. Pattern sekmesinde ise verinizin desenini inceleyebilirsiniz.
4- Bu alanda verisetinize uyguladığınız işlemler adım adım gösterilir. Yeşil kutucuğa tıklayarak anlık olarak değişiklikleri kaldırıp verinizin bir önceki adımda nasıl göründüğüne bakabilirsiniz.
5- Verinizi filtrelediğinizde filtre değerlerinin göründüğü alandır.
6- Çalıştığınız veriseti ile ilgili ayarları (seperator, encoding..) yapabilir, join işlemi yapmak üzere ek bir sayfa açabilirsiniz.
7- Tüm veriyi ya da çalıştığınız örnek veriyi csv, excel, tableu tde, amazon s3 formatlarında export alabilirsiniz.
Dataset menüsüne geçtiğiniz hazırlıklarınızda kullanabileceğinizveri kümelerinin listesini görürsünüz. Veri kümelerini ekip arkadaşlarınızla paylaşabilir, favorilerinize ekleyebilir ve hatta “certify dataset” etiketi ile onaylı ve güncel bir veri kümesi olduğunu işaretleyebilirsiniz. Böylece ekip arkadaşlarınız da hangi veri kümesi ile çalışabilecekleri konusunda tereddüt etmezler!
Lokalinizdeki bir dosyayı (txt, csv..) hazırlık yapmak üzere ekleyebilirsiniz. Ek olarak herhangi bir veri tabanına ya da büyük veri ortamlarınıza bağlanabilir ve hatta Talend üzerinde bir entegrasyon işi sonucu oluşan dosyanın direkt olarak buraya aktarılmasını sağlayabilirsiniz.
Anlamsal tipler menüsünde ise kullandığınız iş terimlerini ya da TCKN, “TR telefon numarası” gibi terimleri tanımlayarak, yüklediğiniz veri setinde bunların otomatik olarak tanınmasını sağlayabilirsiniz.
Talend Data Preparation modülüne genel bir bakış sağladık. Veri üzerinde hangi işlemleri yapabiliriz, nasıl yapabiliriz gibi detayları anlatmak üzere bir sonraki yazımızda görüşmek üzere!