Obrona 11-35

Ace your homework & exams now with Quizwiz!

19. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców

Metoda k-średnich: o Inicjalizacja: wybranie początkowego zbioru środka klastra o Przypisanie obserwacji do i-tego klastra, którego średnia jest najbliższa obserwacji. o Wyliczenie nowych średnich dla klastrów przy stałym przypisaniu obserwacji o Obliczenie SSE (sumy kwadratów błędów) o Powrót do kroku drugiego i zapętlenie, aż zostanie spełnione kryterium zbieżności • Algorytm dąży do minimalizacji SSE co jest problematyczne, ponieważ algorytm może być optymalizowany w ekstremum lokalnym, a nie globalnym. • Metoda jest bardzo wrażliwa na skalowanie zmiennych, należy używać danych o współmiernych jednostkach Drzewa decyzyjne: o Wierzchołek drzewa nazywany jest korzeniem drzewa o Kolejne rozgałęzienia, gdzie dokonywane są podziały nazywane są węzłami o Elementy końcowe, gdzie klasyfikacja ma miejsce to liście drzewa o Za pomocą algorytmu decyzyjnego tworzymy korzeń drzewa i rozdzielamy dane wg. Cechy mającej największy przyrost informacji o Poprzez wielokrotne iteracje możemy powtarzać operację rozdzielania danych w każdym następnym węźle, aż uzyskamy liście o Prowadzi to do dużych wielowęzłowych drzew, które nie pozwalają na wyciągnięcie reguł decyzyjnych zrozumiałych dla człowieka, dlatego często dokonuje się przycinania drzewa, określając jego wysokość. Regresja logistyczna Sztuczne sieci neuronowe (narzędzie obliczeniowe imitujące w sposób uproszczony działanie ludzkiego mózgu)

21. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego.

Metodologia CRISP-DM (Cross industry standard process for data mining). Składa się z 6 adaptowalnych faz co oznacza, że kolejne fazy zależą od wyniku poprzednich faz Fazy: • Zrozumienie uwarunkowań biznesowych/badawczych (Wyraźne określenie celów i wymagań projektu, Sformułowanie problemów eksploracji danych, Przygotowanie wstępnej strategii dla osiągnięcia tych celów) • Zrozumienie danych (Zebranie danych, Skorzystanie z eksploracyjnej analizy danych, w celu poznania danych i odkryć wstępne wzorce, Ocena jakości danych) • Przygotowanie danych (Transformacja danych do formy, która umożliwia modelowanie ich, Wybór zmiennych, które są odpowiednia dla analizy) • Modelowanie (Wybór i zastosowanie odpowiedniej techniki modelowania, Skalibrowanie ustawień modelu, aby zoptymalizować wyniki, Zastosowanie innej techniki w celu porównania modeli, Powrót do przygotowania danych, w celu przystosowanie do innej techniki) • Ocena (ewaluacja - Ocena modeli pod kątem jakości i skuteczności, Skonfrontowanie modeli z celami i wymaganiami projektu) • Wdrożenie (Użycie modeli zgodnie z celami biznesowymi) Metodologia SEMMA (SAMPLE, EXPLORE, MODIFY, MODEL, ASSES) • Próbkowanie danych • Eksploracja (Wizualizacje, Kategoryzacja) • Modyfikowanie (Selekcja zmiennych, Transformacja danych) • Modelowanie (Wybór modelu, Implemtentacja) • Ocena modelu (Jakość dopasowania, Ocena mocy predykcjnej, Interpretacja modelu)

14. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data

Na środowisko danych w big data składa się: - Źródło danych - stąd płynie strumień danych, które są dalej przetwarzane i analizowane - Proces i miejsce ładowania danych - definiowanie miejsca do którego będziemy ładować dane z systemów źródłowych. W tym etapie dane będą przechowywane, sortowane i klasyfikowane w określone tematy, tak aby komponentu z kolejnych warstw mogły je konsumować w zależności od swoich własnych potrzeb i wymagań. Narzędzia: Kafka, RabbitMQ - Przechowywanie danych - najniższa warstwa części analitycznej. Narzędzia z tej warstwy pozwalają na składowanie danych o różnych formatach i różnym przeznaczeniu. Narzędzia: S3, DynamoDB, Cassandra. - Bazy danych - tutaj definiujemy schematy i modele dla danych. OLAP (kostka - stuktura danych kóra pozwala na szybką analizę), OLTP. - Przetwarzanie danych - Przetwarzanie w czasie rzeczywistym - Każde zdarzenie jest procesowane indywidualnie. Informacja zwrotna jest przekazywana natychmiast Przetwarzanie wsadowe - Procesy są grupowane i przetwarzane jednocześnie. Przetwarzanie mikro-wsadowe - Hybryda dwóch powyższych - Analityka - Deskrypcyjna - badamy co się dzieje lub co się stało. Predykcyjna - chcemy wiedzieć co się wydarzy Diagnostyczna - szukamy odpowiedzi dlaczego to się stało - Wizualizacja - Wizualizacja samoobsługowa - Interfejs do tworzenia własnych raportów i wizualizacji. Wizualizacja wbudowana - Silnik wizualizacji wbudowany wewnątrz aplikacji. Wizualizacja własna - Dostarczanie wizualizacji na każde zapotrzebowanie użytkownika

26. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego.

Reprodukowalność odnosi się do zdolności badacza do powielania wyników wcześniejszych badaczy przy użyciu tych samych materiałów i procedur, które zostały zastosowane przez pierwotnego badacza Wymagania: o Dostęp do surowych danych, tzn. takich, które nie zostały poddane transformacji o Dostęp do plików zawierających kod, który umożliwia odtworzenie w taki sam sposób wszystkich elementów uprzednio zaimplementowanych ( wykresy, grafiki) o Szczegółowe informacje na temat zastosowanych technologii, dokładnych wersji użytych pakietów, bibliotek itp o Dostęp do pełnego zestawu instrukcji wyjaśniających wszystkie etapy przetwarzania i analizy danych

13. Omów kwestie etyczne związane z Big Data

- Duże zbiory danych jak każda technologia są etycznie neutralne, ich wykorzystanie może jednak neutralne nie być - Inteligentna ocena gigantycznych ilości danych pochodzących z różnych źródeł pozwala firmom uzyskać wgląd w zainteresowania i życie użytkowników - Firmy wykorzystują duże zbiory danych do śledzenia i oceniania klientów - Mogą ich podzielić na dobrych i złych, ustalać indywidualne ceny lub premie - Może to prowadzić do nadużyć, wykorzystywania do bogacenia się kosztem jednostek, które nie są świadome działań - Ochroną kliencką może być anonimizacja danych, jednak obecnie Big Data pozwala na coraz większą możliwość re-identyfikacji

15. Omów wybrany algorytm stosowany w analityce Big Data.

Algorytm - jest to skończony ciąg jasno zdefiniowanych czynności koniecznych do wykonania pewnego rodzaju zadań, sposób postępowania do rozwiązania problemu. Etapy algorytmu k-średnich: - Inicjalizacja: wybranie początkowego zbioru środka klastra - Przypisanie obserwacji do i-tego klastra, którego średnia jest najbliższa obserwacji. - Wyliczenie nowych średnich dla klastrów przy stałym przypisaniu obserwacji - Obliczenie SSE (sumy kwadratów błędów) - Powrót do kroku drugiego i zapętlenie, aż zostanie spełnione kryterium zbieżności Algorytm dąży do minimalizacji SSE co jest problematyczne, ponieważ algorytm może być optymalizowany w ekstremum lokalnym, a nie globalnym. Metoda jest bardzo wrażliwa na skalowanie zmiennych, należy używać danych o współmiernych jednostkach

18. Jakimi cechami charakteryzują się typowe problemy Big Data?

Biorąc pod uwagę cykl życia danych można wyróżnić trzy grupy problemów Problemy dotyczące: Danych ▪ Ilość - Skokowy wzrosty ilości danych ▪ Różnorodność - Ulepszanie technik pozyskiwania danych doprowadziło do wzrostu typów danych ▪ Prędkość - Wzrost danych doprowadza do problemu ich przenoszenia w odpowiedni szybki sposób ▪ Prawdziwość - Odnosi się do stronniczości, niepewności, nieprawdy i brakujących wartości w danych ▪ Zmienność - Oznacza czy dane są aktualne i jak długo powinniśmy je przechowywać ▪ Jakość - Mierzy czy dane są odpowiednie do wykorzystania w procesie podejmowania decyzji ▪ Dogmatyzm - Podejście eksperckie przy podejmowaniu decyzji na podstawie danych Procesu danych ▪ Gromadzenie i rejestrowanie danych, Filtracja niezbędnych danych oraz automatyczne generowanie metadanych ▪ Wydobywanie i czyszczenie informacji - Stworzenie odpowiedniego procesu ekstrakcji właściwych informacji ▪ Integracja i agregacja danych - Ustrukturyzowanie danych wejściowych do analizy ▪ Przetwarzanie zapytań, modelowanie i analiza danych - Opracowanie technik przetwarzania zapytań, które poradzą sobie ze złożonością skalowania ▪ Interpretacja - Przedstawienie interpretacji wyników zrozumiałej dla użytkownika końcowego Zarządzania danymi ▪ Prywatność - Obawa przed niewłaściwym wykorzystaniem danych ▪ Bezpieczeństwo - Stworzenie oraz zarządzanie bezpiecznej struktury zapobiegającej dostanie się zbiorów Big Data w niepożądane ręce

17. Co to jest Deep Learning, podaj przykład.

Deep learning stanowi część obszaru uczenia maszynowego, które z kolei jest częścią obszaru sztucznej inteligencji. Jest to technika, która polega na tworzeniu siedzi neuronowych, których głównym zadaniem jest doskonalenie technik rozpoznawania głosu i przetwarzania języka naturalnego. Proces uczenia jest głęboki, ponieważ struktura sztucznych sieci neuronowych składa się z wielu warstw danych wejściowych, ukrytych i wyjściowych. Przykład: o Konwoluncyjne sieci neuronowe o Sprawdzają się bardzo dobrze przy rozpoznawaniu obrazów lub dźwięków. Dzięki temu możemy zgrupować zdjęcia w folderach, np. na te z plaży, albo zdjęcia auta. Tesla - self driving car, albo w medycynie, o analizy zdjęć

11. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych.

HDFS (Hadoop distributed file system) - rozproszony system plików przeznaczony do pracy na sprzęcie komputerowym -używany do skalowania od pojedynczego klastra Apache Hadoop do nawet tysięcy węzłów - zapewnia szybkie odtwarzanie po awarii sprzętu, dostęp do danych przesyłany strumieniowo, przechowywanie dużych zbiorów danych, spójność, wydajność, poręczność- kompatybilność z innymi systemami HIVE -oprogramowanie magazynu danych Apache HIVE, które ułatwia odczytywanie, zapisywanie i zarządzanie dużymi zbiorami danych znajdującymi się w magazynach rozproszonych - zapytania składamy w języku HiveSQL - umożliwia łatwy dostęp do danych, ma mechanizm narzucania struktury na różne formaty danych, dostęp do plików przechowywanych bezpośrednio w HDFS, wbudowane złącze plików tekstowych z wartościami oddzielonymi przecinkami i tabulatorami - Hive nie jest przeznaczony do przetwarzania transakcji online CASSANDRA - rozproszona baza danych napisana w Java - obsługuje duże zbiory danych, odpowiada na zapytania SQL - współpraca z Hadoop i Spark, możliwość wykonywania algorytmów opartych na MapReduce -Automatyczna replikacja danych

24. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych.

Kolaboracja o Dzięki VCS wszyscy członkowie zespołu mogą pracować na dowolnej wersji pliku w dowolnym momencie. VCS pozwoli scalić wszystkie zmiany we wspólną wersję. Przechowywanie wersji o System kontroli wersji zapisuje wszelkie zmiany wprowadzone do programu i zapisuje je jako poszczególne wersje co pozwala odtworzyć projekt w dowolnym momencie Przywracanie poprzedniej wersji o Jeśli wprowadzone zmiany okażą się złe można przywrócić poprzednią wersje Zrozumienie zmian w projekcie o Każda zmiana w projekcie wymaga komentarza co przekazuje ogólną informacje co w danej wersji zostało poprawione/zaimplementowane/usunięte Tworzenie kopii zapasowej o VCS tworzy kopię zapasową, która jest przechowywana w lokalnych repozytoriach GIT

22.Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych.

Modele predykcyjne mają na celu przewidywanie zmiennych zależnych na podstawie zmiennych opisujących dany problem. Aby móc przystąpić do modelowania predykcyjnego należy spełnić założenia: o Zdefiniowane modelowanego problemu oraz zrozumienie go o Wymagana jest odpowiednio duża próba danych, aby móc na ich podstawie budować model o Dane włączane do modelu muszę być zapisane w odpowiedniej, ustrukturyzowanej formie

29. Wyjaśnij różnicę, pomiędzy wnioskowaniem obserwacyjnym, interwencyjnym i kontrfaktycznym.

Obserwacyjne o Polega na analizie danego zjawiska bez próby ingerowania w przyczyny, tzn. możemy wyciągać wnioski na temat przyczyn i skutków danego zjawiska tylko obserwując dane zdarzenie Interwencyjne o Polega na manipulowaniu poszczególnymi zdarzenia i sprawdzaniu jakie będą skutki Kontrfaktyczne o Polega na obserwacji danego zdarzenia i jego przyczyny o Sprawdzamy czy gdyby dana przyczyna nie byłaby obecna wpłynęła by na uzyskane skutki o Połączenie obserwacji z interwencją

32. Technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych

Serverless to model usług w chmurze, w którym programista/architekt skupia się wyłącznie na tworzeniu logiki biznesowej, a nie na infrastrukturze, na której ma być ona wykonana Przykładem architektury serverless jest: o FaaS w oparciu o AWS Lambda o FaaS należy do kategorii CCS (Cloud Computing Services), która zapewnia klientom platformę do tworzenia, uruchamiania i zarządzania aplikacjami o Ten model jest najczęściej używany do budowania mikroserwisów o AWS Lambda - Usługa obliczeniowa, która pozwala uruchamiać kod bez obsługi administracyjnej lub zarządzania serwerami. Wykonuje kod tylko w razie potrzeby i skaluje się automatycznie. Uruchamia kod w infrastrukturze obliczeniowej o wysokiej dostępności. Wykonuję całą administracje zasobami obliczeniowymi, w tym konserwacje serwera i systemu operacyjnego o Jak to działa? Przesłanie kodu do AWS Lambda lub napisanie w edytorze Lambda. Konfiguracja kodu, aby uruchamiał się z innych usług AWS, punktów http lub aktywności w aplikacji. Lambda uruchamia kod tylko kiedy zostanie wywołana usługa uruchamiająca kod. Opłata jest tylko za wykorzystany czas obliczeniowy

34. Skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB

Skalowanie bazy danych to rozbudowywanie serwera lub dodawanie nowych serwerów Wyróżniamy: - Pionowe - Dokładanie zasobów do istniejącego serwera - Poziome - Dokładanie serwerów, które przechowują kopie baz danych i obsługują część żądań Bazy danych typu noSql to: - Nierelacyjny typ baz danych, zwierający dane nieustrukturyzowane - Silniki noSql pozwalają przekazywać dowolne dane bez uprzednio przygotowanych schematów - W porównaniu do relacyjnych baz danych są bardziej elastyczne DynamoDB może obsługiwać tabele dowolnego rozmiaru - Może wykonywać 10 bilionów żądań dziennie, nawet przy 20 milionach żądań na sekundę - Globalne tabele DynamoDB automatycznie replikują dane w wybranych regionach AWS i skalują pojemność, dostosowując ją do obciążeń, dzięki czemu czas odczytu i zapisu zostaje skrócony - DynamoDB jest serverless, tzn. Automatycznie skaluje tabelę w górę i w dół, aby dostosowywać pojemność i utrzymywać wydajność

35. Skalowanie procesów analitycznych w chmurze

Skalowanie procesów w chmurze polega na dynamicznym przydzielaniu zasobów w celu dopasowania do wymagań dotyczących wydajności - Gdy rośnie ilość pracy zwiększane są zasoby niezbędne do utrzymania wymagań poziomu wydajności - Gdy zapotrzebowanie spada, dodatkowe zasoby nie są już potrzebne dlatego zostają wycofane, aby zminimalizować koszty - Skalowanie w pionie - Oznacza zmianę pojemności zasobu, może się to odbyć poprzez przeniesienie aplikacji na wirtualną maszynę o większym rozmiarze - Skalowanie w poziomie - Oznacza dodawanie lub usuwanie wystąpień zasobu - Strategia skalowania automatycznego w chmurze obejmuje: Instrumentację i monitorowanie systemów na poziomie aplikacji, usługi i infrastruktury, Logikę podejmowania decyzji na podstawie zdefiniowanych progów i harmonogramów, Składniki, które skalują system, Testowanie, monitorowanie i dostrajanie strategii skalowania

33. Metody przechowywania danych dużych rozmiarów w chmurze

Składowanie danych w chmurze: - Wirtualne dyski - Key object storage - Bazy danych SQL, noSQL Najpopularniejsi dostawcy serwerów w chmurze: - AWS S3 - Google Cloud Storage - Azure Storage Dla AWS S3 są to: - EBS - Elastic Block Storage - pamięć blokowa - EFS - Elastic File System - pamięć blokowa współdzielona pomiędzy innymi komputerami - S3 - Simple Storage Service - magazyn typu klucz - wartość, pozwala na przechowywanie dowolnych danych binarnych. Są to kontenery (buckety) tworzone w ramach regionu. Dane nigdy nie opuszczają swojego regionu, w ramach regionu są replikowane do wszystkich sfer dostępności. Dane cechują trwałość na poziomie 99.9999% - W ramach AWS mamy dostęp do bazy danych DynamoDB. Jest to w pełni zarządzana, zastrzeżona usługa bazy danych NoSql. Obsługuje struktury danych o kluczowej wartości i dokumentach Zastosowania S3: - Hostowanie stron www - Archiwizacja danych dowolnego rozmiaru - Import fizycznych dysków do chmury - Przechowywania danych dla analityki Big Data - Analityka danych w klastrach Hadoop/Spark

12. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data?

Volume - ilość danych, big data to duże zbiory danych cyfrowych, których celem przetwarzania jest zdobycie nowych informacji lub wiedzy Valocity - szybkość przepływu danych, wzrostowi ilości danych towarzyszy przyrost szybkości danych oraz ich wykorzystania Variety - różnorodność - dane przesyłane są w różnych formatach, ustrukturyzowanych i nieustrukturyzowanych Veracity - wiarygodność - big data odpowiada za zarządzanie wiarygodnością danych dla ich użytkowników Value - wartość - określa cel gromadzenia tak dużej ilości danych, a także znalezienie powiązań jawnych i ukrytych

23.Jak mierzymy jakość modelu prognostycznego?

W prognozowaniu najistotniejszym zagadnieniem jest skuteczność modelu, który powinien z możliwe jak najmniejszym błędem estymować zmienną celu Współczynnik determinacji R^2 o Jest to miara jakości dopasowania modelu do danych o Mówi o tym jaki procent zmienności zmiennej celu jest objaśniany poprzez predykatory o Informuje nas jaka część wariancji zmiennej zależnej w próbie jest wyjaśniana przez zmienne zawarte w modelu o Jest to stosunek sumy kwadratów różnic wartości wyestymowanych i wartości średniej arytmetycznej zaobserwowanych zmiennych celu do sumy kwadratów różnic zaobserwowanych wartości i wartości średniej arytmetycznej zaobserwowanych zmiennych o Współczynnik ten przyjmuje wartości od 0 do 1, gdzie 0 oznacza brak dopasowania, a 1 dopasowanie idealne Pierwiastek błędu średniokwadratowego o W porównaniu do współczynnika determinacji R^2 jest istotniejszy w przypadku porównywania kilku modeli. o Informuje jaki jest pierwiastek średniej kwadratów odchyleń pomiędzy wartością zaobserwowaną, a prognozowaną Średni błąd bezwzględny o Mierzy średnią wielkość błędu dla predykcji bez uwzględnienia kierunku błędu o Dla próbki testowej jest to średnia arytmetyczna bezwzględnych różnic pomiędzy wartością zaobserwowaną, a wartością estymowaną, gdzie poszczególne różnice mają te same wagi o Wartość błędu jest obojętna na kierunek oraz mieści się w zakresie od 0 do nieskończoność o Im niższa wartość tym lepiej

30. Wyjaśnij na czym polega paradoks Simpsona

o Jest to paradoks w którym trend statystyczny wydaje się być obecny, gdy dane są podzielone na odrębne grupy, ale zanika lub odwraca się, gdy dane są rozpatrywane jako całość o Paradoks jest związany z cechą danych zagregowanych, która może pojawiać się w sytuacji, gdy przyczynowe wnioski są wyciągane na różnych poziomach wyjaśnień: od populacji do podgrup lub podgrup do jednostek o Simpson wykazał, że statystyczny związek zaobserwowany w danej populacji - tj. zbiór podgrup lub jednostek może zostać odwrócony we wszystkich podgrupach składających się na tę populacjach

27. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji.

o Próg odcięcia stosuje się w modelach klasyfikacyjnych takich jak regresja logistyczna gdzie wynikiem są wartości ciągłe, do zdecydowania czy dany wynik należy do pewnej klasy lub nie. o Jeśli wynikiem modelu jest prawdopodobieństwo przynależności do pewnej klasy to próg można zastosować do uzyskania dyskretnego klasyfikatora: Jeśli wynik klasyfikatora jest powyżej ustalonego progu , klasyfikator generuje True, w przeciwnym razie False o Wybór optymalnego progu odcięcia będzie zależeć przede wszystkim od typu problemu, który chcemy rozwiązać ponieważ sklasyfikowanie wyniku do niepoprawnej klasy może skutkować wysokim kosztem (np. niezdiagnozowanie choroby) lub utracenia potencjalnych korzyści (np. nieudzielenie kredytu). W wyborze progu odcięcia istotna jest wartość relatywnego kosztu błędów o Bardzo często do wyboru optymalnego progu odcięcia w środowisku uczenia maszynowego stosuje się krzywe ROC, po części ze względu na fakt, że Accuracy jest słabym miernikiem do pomiaru wydajności modeli. o Wykres ROC przedstawia względne kompromisy między korzyściami (True Positive Rate) i kosztami (False Positive Rate)

25. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej.

o Reprodukowalność odnosi się do zdolności badacza do powielania wyników wcześniejszych badaczy przy użyciu tych samych materiałów i procedur, które zostały zastosowane przez pierwotnego badacza o Reprodukowalność prowadzi do szeregu korzyści: - Zwiększa prawdopodobieństwo, że przeprowadzone badania są prawidłowe. - Przestrzeganie zasad reprodukowalności pozwala w łatwy sposób odtworzyć badanie - Możliwość wykorzystania badań przez większą ilość badaczy może mieć pozytywny wpływ na rozwój - Pozwala na wykorzystywanie kodu w innych badaniach

31. Korzyści ekonomiczne z przetwarzania danych w chmurze

o Uniknięcie zakupu kosztownego sprzętu, oprogramowania oraz brak konieczności utrzymywania specjalistycznych pomieszczeń o Szybki dostęp do niezbędnych zasobów IT z dowolnego miejsca o Wysoka skalowalność i wydajność udostępnianych zasobów IT. Klient w zależności od potrzeb może w sposób automatyczny zwiększać lub ograniczać wykorzystywane zasoby co pozwala optymalizować koszty przedsiębiorstwa o Redukcja ryzyka inwestycyjnego w zakresie technologii IT o Relatywnie niższe koszty pozyskania, utrzymania i rozwoju zasobów IT o Większa przewidywalność kosztów IT. Cloud computing jest usługą pozwalającą na precyzyjne określenie kosztów związanych z jej użytkowaniem o Ograniczenie kadry IT o Przeniesienie odpowiedzialności za funkcjonowanie i rozwój zasobów IT na dostawcę.

16. Na czym polega MapReduce?

• Jest to framework do łatwego tworzenia programów przetwarzających duże zbiory danych • Pomaga w zwiększeniu wydajności dzięki przetwarzaniu strumieniowemu oraz tworzeniu pipelin'ow • Operacje są realizowane podczas dwóch kroków. Krok map - węzeł nadzorczy. Pobiera dane z wejścia i dzieli na mniejsze pod problemy po czym przesyła je do węzłów roboczych Krok reduce - główny program gromadzi wszystkie odpowiedzi i łączy je w jeden wynik

20. Na czym polega przetwarzanie rozproszone?

• Przetwarzanie rozproszone to dziedzina informatyki, która bada systemy rozproszone • System rozproszony to system, którego składniki znajdują się na różnych komputerach podłączonych do sieci, które komunikują się i koordynują swoje działania poprzez przekazywanie sobie nawzajem komunikatów • Głównym problemem jest łączenie danych odczytywanych z różnych źródeł • Problem jest rozwiązany przez Hadoopa, który jest otwartą platformą programistyczną przeznaczoną do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych • Łączenie danych odbywa się przez paradygmat MapReduce

28. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych.

• Regularyzacja to technika, która wprowadza niewielkie modyfikacje do procesu uczenia sieci, aby model uogólniał się lepiej i zachowywał podobnie na danych na których nie był trenowany • Regularyzacja pomaga jeśli złożoność modelu (liczba zmiennych objaśniających) jest duża relatywnie do liczby obserwacji • Do popularnych technik regularyzacji zaliczamy: Ridge Regression (gdy wielkość próbki danych jest stosunkowo niewielka, Ridge regression może poprawić wyniki otrzymane na zbiorze walidacyjnym poprzez zmniejszenie uzyskanej wariancji predykcji, dzięki zmniejszeniu wrażliwości prognoz na dane treningowe) Lasso Regression (Bardzo podobny do Ridge regression z tą różnicą, że zamiast podnosić szacowane parametry modelu do kwadratu, obliczamy ich wartości bezwzględne)


Related study sets

Exam 2: Native American Experience

View Set

Seizure/Sensory Perception ATI Q&A ***

View Set

chapter 8 - attitudes and persuasion

View Set