Co to jest Big Data w praktyce prawniczej

Każdego dnia tworzonych jest ponad 2,5 kwintonailiona bajtów danych, a stamtąd będzie rosnąć tylko z tego miejsca. Szacuje się, że do 2020 roku 1,7 MB danych będzie tworzone co sekundę dla każdej osoby na Ziemi

Pojęcie Big Data dotyczy rozbudowanych zestawów danych, do których obsługi intuicja oraz ludzkie zdolności analityczne mogą okazać się niewystarczające. Co więcej, często okazuje się, że odpowiednim potencjałem w tym zakresie nie dysponują nawet bardziej „klasyczne” narzędzia zarządzania bazami danych. Aby rekordy te mogły być użyteczne, muszą być analizowane za pomocą narzędzi specjalnie zaprojektowanych do masowego ich przetwarzania.


Ministerstwo Cyfryzacji rozpoczęło projekt, który dostarczać ma systemowych rozwiązań zwiększających dostępność i jakość danych publicznych oraz dawać możliwości ich przetwarzania


Ustawiczny wzrost ilości informacji na całym świecie wymaga projektowania nowych systemów ich przechowywania, organizowania, wymiany i analizy. Big Data otwiera wiele nowych perspektyw: analiza tak dużych ilości danych pozwala na tworzenie zaawansowanych statystyk i wyciąganie możliwie bliższych rzeczywistości wniosków.

Ministerstwo Cyfryzacji rozpoczęło projekt, który dostarczać ma systemowych rozwiązań zwiększających dostępność i jakość danych publicznych oraz dawać możliwości ich przetwarzania. Za pomocą interfejsu programowania aplikacji (API) zostanie zatem otwartych sześć rejestrów o dużym potencjale gospodarczym i społecznym. Rozbudowany portal dane.gov.pl ułatwi wyszukiwanie, analizę i wykorzystywanie danych. Powstały standardy otwartości danych w wymiarach: regulacji prawnych, bezpieczeństwa, technicznym i API. Standardy są upowszechniane w ramach szkoleń dla pracowników administracji.

Zmiany legislacyjne powinny sprzyjać tworzeniu realnych możliwości dla innowatorów w sektorze Legal Tech.

 

Prawna klasyfikacja danych

Dane osobowe

Dane zwane powszechnie osobowymi to informacje dotyczące zidentyfikowanych lub możliwych do zidentyfikowania osób fizycznych. Rozpoznania można dokonać pośrednio lub bezpośrednio, w szczególności poprzez odniesienie do konkretnych wyróżników (takich jak: nazwa, numer identyfikacyjny, dane dotyczące lokalizacji, identyfikator internetowy) lub do jednego, lub więcej elementów szczególnych dla tożsamości fizycznej, fizjologicznej, genetycznej, psychologicznej, ekonomicznej, kulturowej lub społecznej (art. 4. ogólnych przepisów o ochronie danych – GDPR).

 

Dane osobowe uznawane za wrażliwe

Wrażliwymi określa się dane osobowe mogące z różnego powodu budzić kontrowersje, a w szczególności te dotyczące obszarów: przynależności rasowej lub etnicznej, poglądów politycznych, filozoficznych lub religijnych, członkostwa w związkach zawodowych, zdrowia czy życia seksualnego i preferencji seksualnych. Zasadniczo dane szczególnie chronione mogą być gromadzone oraz wykorzystywane wyłącznie za wyraźną zgodą zainteresowanych osób.

 

Dane zagregowane i zglobalizowane

Jest to pewien dodatek lub średnia indywidualnych wartości uzyskanych w zbiorze danych osobowych. Agregacja i globalizacja umożliwiają uzyskanie informacji o grupach osób o określonych cechach wspólnych. Możliwe jest agregowanie danych według lokalizacji, charakterystyki lub czasu pobytu w poszczególnych miejscach.

 

Dane otwarte / Open Data

Otwarte dane to dane cyfrowe, do których dostęp i których wykorzystanie pozostawia się użytkownikom. Otwarte dane mogą być pochodzenia publicznego lub prywatnego, tworzone w szczególności przez władze lokalne, służby publiczne (ewentualnie delegowane) lub firmę. Są one dystrybuowane w sposób zorganizowany, zgodny z przyjętymi metodami i otwartą licencją, gwarantującą ich dostępność i bezpłatne ponowne wykorzystanie przez wszystkich, bez ograniczeń technicznych, prawnych czy finansowych.

 

W kontekście rozpowszechniania danych publicznych pojawia się jeszcze zagadnienie anonimizacji danych. Na przykład, orzeczenia sądowe udostępniane w ramach otwartych danych zawierają dużą ilość informacji i danych osobowych umożliwiających identyfikację osób, których dotyczy dana sprawa. W kwestii wyboru publikowanych danych osobowych należy określić elementy, które należy usunąć z decyzji sądu przed podaniem jej do wiadomości publicznej. Należy przestrzegać prawo do prywatności zainteresowanych stron, choć z drugiej strony poprzez anonimizację danych otwartych nie powinno się ich pozbawiać głównej istoty.

 

Jak wykorzystać dane, świadcząc usługi prawne?

Analiza dużych ilości danych jest krokiem milowym na drodze do tego, aby powszechniejsza w branży prawniczej stała się bardziej zaawansowana technologia. Kancelarie prawne i wewnętrzne departamenty — często krytykowane za powolną akceptację nowych technologii — wkrótce nie będą miały wyboru innego niż dostosowanie się i, podobnie jak ich konkurenci, próbowanie uzyskania przewagi z zakresu analityki prognostycznej, będącej powszechną w działach marketingu od lat.

Stale istnieje jednak krok poza analityki prognostyczne. W ramach International Business Machines Corporation (IBM), używając specjalistycznego oprogramowania Watson, opracowano już aplikację Ross. Jest to nic innego jak mechaniczny pracownik, zaimplementowany już przez takie kancelarie prawne jak BakerHostetler czy Latham & Watkins.

Obecnie Ross specjalizuje się w dziedzinie prawa upadłościowego. Z wykorzystaniem odpowiednich cytatów potrafi odpowiedzieć na proste pytania zadawane w języku angielskim. Ross nieustannie się też uczy — im więcej pytań zostanie mu zadanych, tym dokładniejsze stają się jego odpowiedzi. Co więcej, niestrudzony pracownik syntetyczny stale monitoruje zmiany w prawie i informuje prawników o potrzebie odpowiednich aktualizacji. Do swego funkcjonowania i polepszenia się, Ross analizuje i przetwarza gigantyczne ilości danych, często pochodzących z źródeł Open source lub zgromadzone przez twórców dane.


Dlatego też młodzi prawnicy mogą potrzebować znajomości nie tylko prawa, ale także techniczno-informatycznych, w tym zagadnień takich jak machine learing czy sieci neuronowe.


Technologie i rozwiązania pomagające adwokatom w wykonywaniu badań prawnych, zarządzaniu ich rozliczaniem i realizowaniu rutynowych zadań, stopniowo wprowadziły do kancelarii myślenie obecne w inżynierii oprogramowania od dekad — nawet najbardziej złożone zadania wykonywane dotychczas przez człowieka nie są dziś niemożliwe dla komputerów i sztucznej inteligencji.

W przemyśle technologicznym, przyszłość informatyki prawdopodobnie będzie wiązała się z mniej tradycyjnym kodowaniem i większym szkoleniem w zakresie sieci neuronowych. Ponieważ nauczanie maszynowe (ang. Machine Learning) staje się coraz bardziej powszechne i dostępne dla mas, prawdopodobnym może się okazać, iż będzie ono miało znaczący wpływ na niemal każdą branżę, w tym — prawniczą. Przegląd dokumentów, tradycyjnie przeprowadzany przez młodszych prawników i stażystów, już został w pełni bądź częściowo zautomatyzowany poprzez wykorzystania odpowiedniego oprogramowania wyszukującego słów kluczowych i zwrotów do oznaczania odpowiednich dokumentów. Młodszy współpracownik przyszłości może być odpowiedzialny za implementację danych do takiego oprogramowania i rozwoju jego algorytmów. Dlatego też młodzi prawnicy mogą potrzebować znajomości nie tylko prawa, ale także techniczno-informatycznych, w tym zagadnień takich jak machine learing czy sieci neuronowe.