O wyzwaniach związanych z przetwarzaniem danych i uzyskiwaniem z nich korzyści dla organizacji opowiadali prelegenci konferencji Data Driven Innovation, zorganizowanej przez redakcję „Computerworlda”.
Dane już dziś są paliwem nowoczesnego biznesu. A biorąc pod uwagę, jak dużo danych generujemy i jak te ilości wzrosną w najbliższych latach – od jakości posiadanych danych, wydajności ich przetwarzania, trafności obieranych na tej podstawie strategii i podejmowanych decyzji będzie zależeć nie tyle przewaga konkurencyjna, co rynkowy byt.
O tempie przyrostu ilości danych generowanych przez ludzkość świadczą liczby i szacunki. Każdego dnia w internecie przybywa 500 mln tweetów, a na serwerach poczty elektronicznej zapisywanych jest ponad 290 miliardów nowych e-mali. Codziennie 430 milionów internautów publikuje na swoich profilach facebookowych treści o łącznej objętości czterech petabajtów, a internetowa wyszukiwarka Google przetwarza 3,5 mld zapytań. Do 2022 r. liczba urządzeń przyłączonych do sieci i wysyłających do niej dane może sięgnąć 29 mld, z czego 19 mld to sprzęt internetu rzeczy.
Zobacz również:
A według Światowego Forum Ekonomicznego do 2025 r. ludzkość będzie wytwarzać 463 eksabajty danych – codziennie.
Aby uzyskać z danych wartość biznesową, trzeba je jednak przetworzyć. Przetwarzanie danych polega na ich analizie, której efektem jest informacja i wiedza. Dane są surowcem, ale w przeciwieństwie do surowców napędzających rozwój gospodarki w epoce przemysłowej, są wielokrotnego użytku.
Firma napędzana przez dane
Pierwsza rzecz, na którą zwracali uwagę eksperci-uczestnicy konferencji Data Driven Innovation, to konieczność właściwego doboru źródeł danych do analizy. Nie wszystkie dane posiadane przez firmę nadają się bowiem do wykorzystania, dlatego trzeba je „odfiltrować”. Jak wskazywał Grzegorz Puchawski, Managing Director Data Science and Recommendation w Disney Streaming Services, można mieć pewność co do tego, że w każdym dużym zbiorze danych znajdują się błędy. I o ile – zgodnie z zasadą 4V – na wartość danych składają się cztery główne atrybuty (ang.: volume, variety, velocity, veracity, czyli objętość, różnorodność, szybkość gromadzenia, wiarygodność), to najistotniejszym z tych atrybutów pozostaje ostatni z wymienionych.
Zadanie odfiltrowywania danych na potrzeby dalszych analiz i wnioskowań to już robota dla systemów sztucznej inteligencji. Tyle, że budowa odpowiednich systemów IT, niezbędnych w strategii data-driven może być trudna i czasochłonna. Przykładowo, w firmie medycznej Roche tworzenie takiej platformy zarządzania wiedzą trwa od pięciu lat.
Proces ten opisał Bartłomiej Szubstarski, Principal IT Expert – zaczęto od wdrożenia platformy big data, potem dodano system indeksowania danych i rozpoczęto projekt porządkowania wiedzy. Dopiero po dwóch latach nastąpiło pierwsze wdrożenie rozwiązań sztucznej inteligencji bazujących na danych zaindeksowanych uprzednio z najważniejszych stosowanych w koncernie systemów. Dalsze kroki to m.in. stworzenie podstaw sieci semantycznej, digitalizacja zbiorów, automatyczna translacja dokumentów i analiza trendów na podstawie danych niestrukturalnych.
Dostęp do danych, jak mówił Szubstarski, ułatwiło zaadaptowanie ze świata nauki podejścia FAIR – to akronim od angielskich słów findable, accessible, interoperable i reusable. Zgodnie z nim dane powinny: być łatwe do znalezienia, opatrzone metadanymi, z unikatowymi, trwałymi identyfikatorami; dostępne dla wszystkich wg określonych warunków dostępu; dawać możliwość połączenia z innymi zbiorami danych, na przykład poprzez ustandaryzowane nazewnictwo; wreszcie – muszą nadawać się do ponownego użycia.
Wróżenie z… danych
Wszystkie firmy gromadzą dane, ale 4 na 10 ich nie przetwarza, a więc traci przewagę konkurencyjną – alarmuje Robert Paszkiewicz, wiceprezes OVHCloud na Europę Środkowo-Wschodnią.
„Tempo wzrostu biznesu zależy od obszaru działania, popytu na rozwiązania, ambicji… Ale decyzje podejmowane przez firmę powinny być oparte na danych, aby zwiększyć szansę efektywnej rywalizacji rynkowej”
– komentuje.
Procesy i narzędzia to dwa filary skutecznej firmy data-driven. Trzecim, jak przekonywał Łukasz Michalczyk, Chief Data Officer w Link4, są ludzie. Wygenerowanie korzyści z danych wymaga ścisłej współpracy ekspertów o kompetencjach analitycznych (specjaliści od data science i ekonometrii), technologicznych (inżynierowie danych, architekci IT) i biznesowych (eksperci biznesowi z wiedzą domenową).
Dane surowe powstają w wielu miejscach – źródłami danych ustrukturyzowanych mogą być bazy danych, systemy CRM czy dowolne inne aplikacje biznesowe stosowane w przedsiębiorstwie; źródłem danych nieustrukturyzowanych są logi z przeglądarek, dane z urządzeń IoT, itp. Przetwarzając je uzyskuje się dane zintegrowane, a następnie – analityczne, używane na potrzeby systemów uczenia maszynowego. Na tej podstawie można analizować zarówno zdarzenia z przeszłości, jak i wdrażać modele predykcyjne – co może się wydarzyć, a także: co zrobić, by dane zdarzenie miało miejsce.
Warto tylko pamiętać, że model predykcyjny musi być cały czas rozwijany; w pewnym momencie efektywność analizy predykcyjnej spada i trzeba przyuczać system ponownie – dostarczyć mu nowych danych do nauki.
Jak nie utonąć w powodzi danych
Odpowiedniego podejścia wymaga również zarządzanie danymi i ich przechowywanie. Bo chociaż ilość danych rośnie w postępie geometrycznym, urządzenia pamięci masowej mają określone fizyczne ograniczenia – zwracał uwagę Andrzej Niziołek, dyrektor regionalny Veeam Software na Europę Płn. i Płd.-Wsch.
Zgodnie z podstawową zasadą odpowiedzialnej polityki backupu i odzyskiwania danych, najcenniejsze firmowe zasoby należy przechowywać w trzech kopiach, na dwóch różnych urządzeniach, z których jedno jest poza siedzibą organizacji. Takie podejście sprawia jednak, że na wszystkie kopie danych o znaczeniu krytycznym potrzeba trzykrotnie więcej miejsca. Jeżeli uwzględnić w tym rachunku dodatkowe środowiska testowo-deweloperskie do użytku krótkoterminowego, liczba kopii danych jeszcze wzrasta. Tymczasem, jak wynika z badania przeprowadzonego przez Veeam, aż 45% firm nie wprowadziło odpowiednich polityk retencji danych, a połowa z tych, które je mają, nie przestrzega ich.
Inteligentne zarządzanie danymi to pełna kontrola nad nimi, a narzędzia do ochrony danych mają być w tym procesie wsparciem, a nie hamulcem – podkreślała Anna Rydel, Senior Sales Engineer w CommVault. Użytkownik musi mieć możliwość swobodnego przenoszenia danych między środowiskami, tym bardziej, że coraz częściej organizacje przechowują swoje zasoby poza lokalnym centrum danym, migrując je do chmury.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS