Pytania obrona Big Data 1-100
40. Modele przetwarzania danych w chmurze: IaaS (Infrastructure-as-a-Service), PaaS (Platform-as-a-Service) oraz SaaS (Software-as-a-Service
- IaaS - Infrastruktura jako usługa - Zawiera podstawowe elementy składowe IT w chmurze i zazwyczaj zapewnia dostęp do: funkcji sieciowych, komputerów (wirtualnych lub na dedykowanym sprzęcie), Przestrzeni do przechowywania danych. IaaS zapewnia: Najwyższy poziom elastyczności, Kontroli zarządzania zasobami IT - PaaS - platforma jako usługa - Eliminuje potrzebę zarządzania przez infrastrukturę bazową. Pozwala skupić się na wdrażaniu aplikacji i zarządzania nimi. Nie wymaga martwienia się o zakup zasobów, planowanie wydajności, konserwację oprogramowania lub inne zadania związane z uruchomieniem aplikacji - Saas - oprogramowanie jako usługa. Zapewnia gotowy produkt, który jest uruchamiany i zarządzany przez usługodawcę. Dzięki ofercie SaaS nie trzeba myśleć jak usługa jest utrzymywana i zarządzana, wystarczy pomyśleć jak oprogramowanie zostanie wykorzystane. Przykładem może być poczta e-mail
63. Interpretacja dopasowanego modelu regresji logistycznej.
- Interpretujemy zmienne dla których p-value (Pr >Chisq) jest mniejsze niż ustalony w modelu poziom ufności. Interpretujemy ilorazy szans np.: Exp(est) 1.975 ▪ Osoba, która ocenia, że przy obecnym dochodzie radzi sobie ma prawie dwukrotne wyższe szanse na pozytywną ocenę stanu zdrowia, niż osoby, które swój poziom życia oceniają gorzej, ceteris paribus. Możemy interpretować wyraz wolny ale musimy uważać na to jak skonstruowany jest model. Jeśli np. istotny jest wiek a zmienną celu preferencje polityczne to cieżko o interpretację wyrazu wolnego bo osoba nie mająca nawet roku, nie ma swoich preferencji politycznych. Wiek będzie tu nieodzownym czynnikiem jaki musi ulec interpretacji. Ocena surowa ponieważ bierzemy pod uwagę tylko jedna zmienna objaśniającą.
2. Omów mechanizmy łączenia danych z wielu tabel
- Join - jest poleceniem, które łączy wiersze z dwóch lub więcej tabel lub widoków. W Oracle Database wykonuje joina, kiedy tylko pojawia się kilka tabel w klauzuli FROM. SELECT wybiera jakiekolwiek kolumny z tych tabel. Jeśli dwie z tabel mają kolumnę o takiej samej nazwie to należy zdefiniować, o którą tabelę chodzi. Klauzula WHERE zwęża liczbę wierszy wyrzuconą przez zapytanie join. - Equijoin - jest joinem z warunkiem zawierającym znak równości. Equijoin łączy wiersze, które mają identyczne wartości dla danych kolumn. - Self Joins - Self join jest łączeniem tabeli samej ze sobą. Tabela pojawia się dwa razy w klauzuli FROM. - Iloczyn kartezjański - Jeśli dwie tabele w kwerendzie join nie mają warunku join, to Oracle Database zwraca iloczyn kartezjański. Łączy każdy wiersz z każdym. Na przykład, jeśli łączy się dwie tabele z 100 wierszami każda, to iloczyn kartezjański będzie miał 10 000 wierszy. - Inner Join - łączy część wspólną dwóch tabel. - Outer join - przeciwieństwo inner joina - łączone są wiersze wszystkie oprócz części wspólnej - Antijoin - zwraca wiersze z tabeli z lewej strony polecenia, które nie mają odpowiedników w wierszach tabeli po prawej stronie polecenia. Zwraca wiersze, które się nie dopasowują ( NOT IN). - Semijoin - zwraca wiersze, które spełniają EXIST, bez duplikowania wierszy z lewej strony warunku, kiedy wiele wierszy z prawej strony warunku spełnia kryteria.
3. Kiedy należy stosować funkcje działające na pojedynczych wierszach, a kiedy funkcje grupowe? Na jakich typach danych działają?
FUNKCJE DZIAŁAJĄCE NA POJEDYNCZYCH WIERSZACH Jeśli chodzi o funckje działające na pojedynczych wierszach to są to: - Funkcje numeryczne - działające na danych liczbowych, np. SIN, COS, SQRT, EXP, LOG. - Funckje znakowe - działające na funkcjach znakowych Jeśli argumentem wejściowym jest CHAR lub VARCHAR2, zwrócona wartość to VARCHAR2. Jeśli argumentem wejściowym jest NCHAR lub NVARCHAR2, zwrócona wartość to NVARCHAR2. - Funkcje znakowe zwracające wartości liczbowe to np. INSTR (pozycja jakiegoś znaku), LENGTH - Funkcje datowe - działają na wartościach tyou DATA78, np. funkcja NEXT_DAY, ADD_MONTHS, LAST_DAY, MONTHS_BETWEEN -działa na dacie ale zwraca wartość numeryczną - Funkcje XML (działają na lub zwracają dokumenty lub fragmenty XML) - Funkcje JSON - Funkcje JavaScript Object Notation (JSON) zwracają wartości z danych JSON. - Funkcje dużych obiektów - (Large Object Functions) Funkcje dużych obiektów działają na obiektach LOB. Są o funkcje: BFILENAME, EMPTY_BLOB, EMPTY_CLOB FUNKCJE GRUPOWE Funkcje, które zwracają jedną wartość obliczoną na podstawie przekazanego zbioru parametrów, nazywamy funkcjami grupującymi. Czasami chcemy pogrupować wiersze tabeli i uzyskać jakieś informacje na temat tych grup wierszy. Na przykład możemy chcieć uzyskać średnie ceny różnych typów produktów z tabeli products. - Funkcje agregujące - powszechnie używane z klauzulą GROUP BY, ORDER BY, czy HAVING. Oracle stosuje funkcje agregujące do każdej grupy wierszy i zwraca pojedynczy wiersz wyników dla każdej grupy. - Funckje analityczne - Różnią się od funkcji agregujących tym, że zwracają wiele wierszy dla każdej grupy. (np. po czasie) Funkcje analityczne są powszechnie używane do obliczania agregacji, przenoszenia, wyśrodkowania i raportowania agregatów. - Funkcje odwołań do obiektów - manipulują wartościami REF, które są odniesieniami do obiektów określonych typów obiektów. Funkcje odwołania do obiektu to: DAREF, MAKE_REF, REF - Funkcje OLAP - zwracają dane z obiektu wymiarowego w dwuwymiarowym formacie relacyjnym. Funkcja OLAP to CUBE_TABLE
36. Function as a service - model przetwarzania oparty o architekturę Lambda
FaaS należy do kategorii CCS (Cloud Computing Services), która zapewnia klientom platformę do tworzenia, uruchamiania i zarządzania aplikacjami. Budowanie aplikacji zgodnie z tym modelem jest sposobem na uzyskanie architektury serverless. Ten model jest najczęściej używany do budowania mikroserwisów. - AWS Lambda - Usługa obliczeniowa, która pozwala uruchamiać kod bez obsługi administracyjnej lub zarządzania serwerami. Wykonuje kod tylko w razie potrzeby i skaluje się automatycznie - Jak to działa? - 1. Przesłanie kodu do AWS Lambda lub napisanie w edytorze Lambda 2. Konfiguracja kodu, aby uruchamiał się z innych usług AWS, punktów http lub aktywności w aplikacji 3. Lambda uruchamia kod tylko kiedy zostanie wywołana usługa uruchamiająca kod 4. Opłata jest tylko za wykorzystany czas obliczeniowy
62.Estymacja modeli regresji logistycznej
Metoda największej wiarygodności polega na skonstruowaniu funkcji wiarygodności odpowiadającej zaobserwowanemu zdarzeniu, zależnej od szukanych (estymowanych) parametrów, a następnie na znalezieniu takich wartości tych parametrów, dla których funkcja ta osiąga największą wartość. Model regresji logitycznej: ● estymujemy metodą największej wiarygodności ● nieznane parametry beta szacujemy na podstawie obserwacji próby losowej ● budujemy funkcje wiarygodności L (p zaobserwowania danych jako f nieznanych beta) ● obserwacje statystycznie niezależne, każda ma rozkład zerojedynkowy ● szukamy takiej wartości parametrów, dla której L przyjmuje największą wartość (w wyniku losowania powinno zrealizować się zdarzenie o największym p) ● Wyznaczamy maksimum funkcji lnL (pochodne dla każdego b i przyrównanie do 0) ● metody rozwiązania do Fisher Score lub algorytm Newtona-Raphsona ● Pośród metod estymacji regresji logistycznej mamy metodę bezwarunkową (mała liczba parametrów vs obs) i warunkową (duża liczba parametrów vs obs) Dla przeciwieństwa model regresji liniowej: metoda najmniejszych kwadratów. Należą do jednej rodziny uogólnionych modeli liniowych.
22.Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych.
Modele predykcyjne mają na celu przewidywanie zmiennych zależnych na podstawie zmiennych opisujących dany problem. Aby móc przystąpić do modelowania predykcyjnego należy spełnić założenia: o Zdefiniowane modelowanego problemu oraz zrozumienie go o Wymagana jest odpowiednio duża próba danych, aby móc na ich podstawie budować model o Dane włączane do modelu muszę być zapisane w odpowiedniej, ustrukturyzowanej formie
91. Metody łączenia tabel w SAS i SQL.
SQL - Joiny, Union, używa się where, SAS - można wykorzystać bibliotekę PROC SQL, albo skorzystać z mergy
78. Podstawy teoretyczne -aplikacje -diagnostyka i interpretacja wyników modeli semiparametrycznych.
- Cox regression nie zakłada żadnego określonego rozkładu prawdopodobieństwa a tym samym rozkładu czasu przeżycia, zmienną zależną jest poziom hazardu. - Włącza zmienne zależne od czasu, czyli zmienne których wartość zmienia się w trakcie trwania obserwacji - model nieproporcjonalnych hazardów Coxa - Dopuszcza analizy warstwowe, które kontrolują zmienne zakłócające. - Ma zastosowanie zarówno dla ciągłego jak i dyskretnego czasu. - PROC PHREG ( Proportional Hazards Rergression - Maximum Partial Likelihood (Metoda Częściowej Największej Wiarygodności).
38. Zarządzanie bezpieczeństwem, użytkownikami i prawami dostępu w chmurze - użytkownicy, role, polityki i grupy.
- Definiowanie użytkowników - Możliwość tworzenia kont dla pracowników w celu korzystania ze wspólnych zasobów chmury. Pracownik otrzymuje ID konta AWS, login w obrębie firmy i hasło. - Polityki - Określają zbiór pozwoleń na używanie poszczególnych usług AWS. Np. read only czyli polityka pozwalająca na odczytywanie, bez prawa do usuwania, dodawania czy edytowanie danych. Polityke przypisuję się użytkownikowi - Rola - Zawiera co najmniej jedną politykę. Pozwala grupować polityki co automatyzuje ich przypisywanie użytkownikom - Grupa - Pozwala grupować role np. : programiści, administratorzy i przypisywać role do danych użytkowników
13. Omów kwestie etyczne związane z Big Data
- Duże zbiory danych jak każda technologia są etycznie neutralne, ich wykorzystanie może jednak neutralne nie być - Inteligentna ocena gigantycznych ilości danych pochodzących z różnych źródeł pozwala firmom uzyskać wgląd w zainteresowania i życie użytkowników - Firmy wykorzystują duże zbiory danych do śledzenia i oceniania klientów - Mogą ich podzielić na dobrych i złych, ustalać indywidualne ceny lub premie - Może to prowadzić do nadużyć, wykorzystywania do bogacenia się kosztem jednostek, które nie są świadome działań - Ochroną kliencką może być anonimizacja danych, jednak obecnie Big Data pozwala na coraz większą możliwość re-identyfikacji
72. Istota: filozofia -statystyka -matematyka ( w tym podstawowe pojęcia ) modelu pojedynczego epizodu AHZ.
- Epizod - okres między dwoma kolejnymi zdarzeniami - W przypadku modelu jednego epizodu jest to okres, jaki jednostka spędza między stanem wyjścia, a stanem przeznaczenia - można go określić jako czas oczekiwania na wystąpienie zdarzenia - Modele pojedynczego epizodu: Jeden stan wyjścia (origin state) i jeden stan przeznaczenia (destination state). Jeden stan wyjścia i wiele stanów przeznaczenia - są to modele ryzyka konkurencyjnego - Stan jest określony jako sytuacja w jakiej jest dana osoba - Zdarzenie - przejście pomiędzy stanami - Kariera - zdarzenia danej jednostki - Proces - zestaw stanów
49.Przedstaw metody grupowania danych.
- Grupowanie - Grupowanie polega na maksymalizacji podobieństwa obiektów wewnątrz klasowych oraz minimalizacji podobieństwa obiektów należących do innych grup - Grupowanie oparte na podziale - Algorytm k-średnich - Grupowanie hierarchiczne - W porównaniu do metody k-średnich nie wymaga zdefiniowania liczby klastrów (np. grupowanie aglomeracyjne - Opiera się na z góry przyjętych miarach odmienności między skupieniami, albo grupowanie rozdzielające)
84.Podaj i omów wybraną miarę mocy predykcyjnej modelu statystycznego.
- Macierz klasyfikacji -Krzywa ROC - wyznacza się miarę FPR (false positive rate) jako 1-TNR. Krzywa pokazuje zależność pomiędzy prawdopodobieństwem poprawnego sklasyfikowania jednostki, która doświadczyła zdarzenia (czułość) od prawdopodobieństwa niepoprawnego zaklasyfikowania obserwacji dla której zdarzenie nie zaszło (specyficzność). Interpretacji podlega najczęscie pole pod jej wykresem AUC (Area Under Curve). Im większe (bliżej 1) tym lepiej - AUC - Lift
67. Diagnostyka modelu regresji logistycznej.
- Macierz klasyfikacji - Krzywa ROC - AUC - Dewiancja, statystyka chi-kw Pearsona - Test Hosmera - Lemeshowa - Kryteria infromacyjne - AIC, Schwarza
66. Ocena Mocy Predykcyjnej Modelu Regresji Logistycznej
- Macierz klasyfikacji - Accuracy (% poprawnie sklasyfikowanych), error ratio (% blędnie sklasyfikowanych), TP= pozytywne przypadki poprawnie sklasyfikowane, TN=negatywnie przypadki poprawnie sklasyfikowane, FP, FN, czułość, specyficzność - Krzywa ROC - Gini - AUC - Krzywa Gain - Gains20=40% - 20% wszystkich klientów wywalam, a już 40% wyrzuca mi złych. - Krzywa Lift - lift10 - wybiorę 10 najlepszych klientów i ile razy jesteśmy lepsi od modelu losowego
79. Semiparametryczne modele ryzyk konkurencyjnych (porównanie modeli: Cox'a i Fine-Gray'a).
- Modele ryzyk konkurencyjnych dopuszczają występowanie więcej niż jednego ryzyka - Mając do czynienia z więcej niż jednym możliwym zdarzeniem obserwujemy czas do wystąpienia pierwszego z nich - Przyklady: Zgon pacjenta z powodu raka płuc i zgon z innego powodu, Wybór przez pracownika komunikacji miejskiej lub roweru jako środka transportu do pracy - Można użyć metody Fine i Gray do bezpośredniego modelowania funkcji skumulowanego ryzyka; alternatywnie można dopasować model proporcjonalnego hazardu Coxa dla funkcji zagrożeń specyficznych dla przyczyny. - model Coxa precyzyjniej odnosi się do poszczególnych zagrożeń, a model Fine i Graya warto wykorzystać kiedy nie segregujemy i nie hierarchizujemy tych zagrożeń.
81. Jakość danych w analizach biznesowych. Znaczenie i metody oceny
- Można sprowadzić do wiarygodności informacji zawartej w danych - Na jakość danych składa się kilka własności m.in. poprawność i kompletność Niska jakość danych ma negatywne skutki w postaci - zwiększenia czasu projektu, zmniejszenia czasu na analize, obniża zaufanie do wyników, prowadzi do błędnych decyzji - Ocena jakości danych dotyczy analizy: braków, wartości odstających (diagnostyka regułą 3 sigm, albo Z-score)
77. Podstawy teoretyczne -aplikacje -diagnostyka i interpretacja wyników modeli parametrycznych.
- O modelach parametrycznych dla zmiennej losowej mówimy wtedy, gdy jest określona postać analityczna gęstości rozkładu prawdopodobieństwa. (Weibull, Gamma, Log-normalny, Log-logistyczny) Wymagane jest, aby model parametryczny był dobrze dopasowany do danych. - Najczęściej wykorzystywaną metodą estymacji jest metoda największej wiarygodności - Prostą, a zarazem często stosowaną metodą, która rozstrzyga o wyborze modelu param jest metoda weryfikacji oparta na teście stosunku wiarygodności, np. test Walda, test punktowy -Metoda Największej Wiarygodności - W oprogramowaniu SAS modele parametryczne estymuje za pomocą procedury PROC Lifereg
41.Wymień i omów metodyki procesu eksploracji danych.
- Odkrywanie asocjacji - znajdowanie nieznanych zależności i/lub reguł pomiędzy występującymi elementami zbioru danych. Zastosowanie: Analiza koszyka kupionych produktów - Klasyfikacja - Metoda polega na tworzeniu modelu klasyfikacji obiektów na podstawie danych treningowych. Zbudowany model jest wykorzystywany do klasyfikacji nowych obiektów o nieznanej klasyfikacji. Zastosowanie: Wykrywanie nadużyć i oszustw finansowych, Diagnostyka chorób. Klasyfikacja obejmuje wiele technik, m.in.: drzewa decyzyjne, sieci neuronowe - Grupowanie -Metoda polega na tworzeniu podzbiorów (klas, grup) obiektów posiadających podobne cechy. Grupowanie polega na maksymalizacji podobieństwa obiektów wewnątrz klasowych oraz minimalizacji podobieństwa obiektów należących do innych grup - Odkrywanie sekwencji - Metoda polega na odkrywaniu wzorców zachowań na podstawie analizy danych zwierających informacje o zdarzeniach, które wystąpiły w określonym przedziale czasu. Zastosowanie: Odkrywanie wzorców zachowań użytkowników Internetu, Badanie notowań akcji i odkrywanie wzorców w celu ustalenia strategii inwestycyjnych
7. W jakim celu buduje się perspektywy? Omów możliwe klauzule polecenia do tworzenia perspektyw
- Perspektywa / widok - jest to sztucznie stworzona prezentacja danych zawartych w jednej, bądź wielu tabeli. Cele budowania perspektyw: - Umożliwienie umieszczenia złożonego zapytania w perspektywie, co pozwala ukryć złożoność przed użytkownikami. - Pozwalają na uniemożliwienie użytkownikom bezpośredniego wysyłania zapytań do tabel bazy danych, przyznając im dostęp jedynie do widoków. - Umożliwiają przyznanie perspektywie dostępu jedynie do określonych wierszy tabel bazowych, co pozwala na ukrywanie wierszy przed użytkownikami. Do tworzenia perspektyw służy instrukcja CREATE VIEW: np. CREATE VIEW cheap_products_view AS SELECT * FROM products WHERE price < 15; Czyli perspektywa prosta, ale można też tworzyć perspektywy złożone - tzn. z kilku tabel. Dodatkowe funkcje: - FORCE oznacza, że widok zostanie utworzony, nawet jeżeli tabele bazowe nie istnieją. - NOFORCE oznacza, że widok nie zostanie utworzony, jeżeli tabele bazowe nie istnieją. Jest to ustawienie domyślne. - WITH CHECK OPTION oznacza, że wstawiane, modyfikowane lub usuwane będą jedynie takie wiersze, które mogą być pobrane przez perspektywę. - WITH READ ONLY oznacza, że wiersze mogą być jedynie odczytywane z tabel podstawowych.
94. Co to jest biblioteka w systemie SAS?
- Pojęcie biblioteki jest podobne do pojęcia bazy danych w systemach zarządzania relacyjnymi bazami danych. - Podstawowy element Informacyjnej Bazy Danych. - Dane statystyczne są przechowywane w postaci tabel - Przechowuje obiekty różnych typów (Data, View, Catalog - obiekt niebędący tabelą, Program - skompilowana część kodu) - Właściowości bibliotek (zdefiniowana nazwa - max 8 znaków, wymaga fizycznego miejsca w systemie operacyjnym, biblioteka work kasowana na koniec sesji, biblioteki muszą być deklarowane przy każdym uruchomieniu sesji)
85. Omów wybraną technikę redukcji wymiaru danych, jej zalety i wady
- Redukcja wymiaru jest do proces przekształcający pierwotny zbiór danych w zbiór o mniejszej liczbie wymiarów zachowując przy tym informacje, które te dane ze sobą niosą. - Redukcja wymiaru to też proces zmniejszania liczby zmiennych branych pod uwagę podczas analizy. Redukcja wymiaru może polegać między innymi na: Selekcji cech - ograniczeniu zbioru zmiennych wedle jednej lub kilku reguł, - odrzucanie cech nadmiernie skorelowanych ze sobą, - odrzucanie cech nieistotnych statystycznie, - odrzucanie cech, które nie poprawiają wyników modeluodrzucanie cech według wiedzy eksperckiej Jedną z technik jest PCA (Analiza Głównych Składowych) - polega ona na rzutowaniu danych do przestrzeni o mniejszej liczbie wymiarów tak, aby jak najlepiej zachować strukturę danych. Analiza PCA opiera się o wyznaczanie osi zachowującej największą wartość wariancji zbioru uczącego. Do jej etapów należy wyliczanie średnich dla wierszy, wykonanie macierzy odchyleń lub wyznaczenie macierzy kowariancji. Główne składowe reprezentują nowy układ ortogonalnych współrzędnych.
79. Imputacja danych. Istota i znaczenie.
- Sztuczne wstawianie wartości do tabeli danych - Rozwiązanie problemu braków danych, które nie są akceptowane przez wiele metod statystycznych - Braki danych są wynikiem jakości gromadzenia danych, ale tez postawą respondentów - Skutki: obciążone wyniki, wzrost wariancji estymatorów, przeszacowanie lub niedoszacowanie - Metody imputacji - np. średnią, hot deck - do obiektu podobnego w zbiorze, cold deck - do obiektu podobnego w zewnętrznym zbiorze, imputacja wielokrotna, wykorzystanie sztucznych zmiennych. MCAR (completely at random), MAR (losowe ale zależy od innych cech niż Y), MNAR (nielosowe, prawd braku zależy od Y)
42.Omów dwie główne grupy metody eksploracji danych.
- Techniki predykcyjne - starają się na podstawie odkrytych wzorców dokonać uogólnienia i przewidywania wartości danej zmiennej. Pozwalają na przewidywanie wartości zmiennej wynikowej na podstawie wartości pozostałych zmiennych. W systemie wspomagania decyzji wykorzystywane są do przewidywania i szacowania np. zasobów niezbędnych do rozwiązywania postawionego problemu - Techniki deskrypcyjne - służą do formułowania uogólnień na temat badanych danych w celu uchwycenia ogólnych cech opisywanych obiektów oraz ich najważniejszych aspektów. W systemie wspomagania decyzji techniki te stosuje się do odkrywania grup i podgrup podobnych zdarzeń lub identyfikacji zdarzeń
56. Wymień i omów układy współrzędnych stosowane przy wizualizacji danych
- Układ współrzędnych kartezjańskich: prostoliniowy układ współrzędnych mający dwie prostopadłe osie, punkt początek współrzędnych to (0,0), Dwie pierwsze osie układu współrzędnych oznaczane jako oś odciętych X i oś rzędnych Y. - Układ współrzędnych biegunowych - układ współrzędnych na płaszczyźnie wyznaczony przez pewien punkt zwany biegunem oraz półprostą OS o początku w punkcie 0 zwaną osią biegunową. Każdemu punktowi P płaszczyzny przypisujemy jego współrzędne biegunowe, jak następuje: promień wodzący punktu P to jego odległość |OP| od bieguna i wartość kąta skierowanego pomiędzy półprostą OS a wektorem OP - układ współrzędnych geograficzny - na podstawie długości i szerokości geograficznej
74. Tradycyjne modele regresji versus modele regresji AHZ -podobieństwa i różnice w teorii, diagnostyce i obszarach zastosowań.
- W AHZ stosowane są modele stochastyczne, które nie są tak powszechne w typowych zastosowaniach statystycznych. - Dane statystyczne łącznie z różnymi typami obciętych informacji występują tylko w bardzo specjalistycznych badaniach - Stosowanie tych metod wymaga dużej wiedzy teoretycznej z obszaru metod i modeli statystycznych, jak również z zakresu badanego procesu i jego otoczenia. - Tradycyjne podejście - zebranie danych + analiza statystyczna - W AHZ - określenie istoty badanego procesu, podjęcie specjalistycznego badania, stosowanie odpowiednich metod analizy, właściwa interpretacja, wykorzystanie odpowiednich pakietów i programów
43.Omów metody selekcji zmiennych i obserwacji do modelowania data mining.
- forward - rozpoczynamy z modelem bez zmiennych, wyrazem wolnym i kolejno dodajemy zmienne najbardziej istotne, raz dodana zmienna z niego nie wychodzi. Kryterium stopu to moment, kiedy nie jesteśmy już w stanie poprawić modelu poprzez dodanie nowej zmiennej - backward - rozpoczynamy z modelem, zawierającym wszystkie zmienne. Potem kolejno odrzucamy najmniej istotne, aż do momentu, gdy każda zmienna spełnia zadany poziom istotności. Raz wyrzucona zmienna nie wraca do modelu. - stepwise - mieszanka dwóch poprzednich. W każdej iteracji testuje zarówno którą zmienną dodać oraz którą usunąć z modelu ze względu na jej istotność
80. Zaawansowane modele AHZ & modele CLTV. Predykcja na bazie modeli AHZ
.Model przeżycia jest opracowany na podstawie przeszłych zachowań i trendów klienckich, w celu obliczenia prawdopodobieństwo przeżycia klienta przez następne „n" lat. CLTV (Customer Lifetime Value) jest obliczany na podstawie historycznych, możliwych do wykorzystania CLTV każdego klienta. CLTV mierzy się poprzez przekształcenie historycznej rentowności klienta w prognozę rentowności klienta w odniesieniu do jego przyszłej kadencji. To jest suma zarówno historycznej CLTV jak i przyszłej CLTV. CLTV przypisuje każdemu klientowi pojedynczy wynik finansowy pozwalający na ocenę względnego „znaczenia" każdego klienta dla zysków organizacji. Model renty klienckiej - określona liczba okresów rozliczeniowych bez możliwości wcześniejszego rozwiązania Prosty model retencji - klienci mogą odstąpić przedterminowo, stopa retencji jest stała w czasie, przepływy niezależne Uogólniony model retencji - zakłąda że stopa retencji może się zmieniać w czasie, a wysokości opłat zależą od czasu odejścia. Jeden minus współczynnik rezygnacji to wskaźnik retencji.
82. Zdefiniuj i opisz proces modelowania predykcyjnego
1. Pozyskanie danych historycznych 2. Budowa analitycznej bazy danych (dane treningowe) 3. Modelowanie 4. Estymacja parametrów oceniających zależności zmiennej objaśnianej w stosunku do zmiennych objaśniających 5. Ocena mocy predykcyjnej modelu na podstawie danych walidacyjnych
19. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców
1. Uczenie pod nadzorem, kiedy określona jest zmienna celu. Przykładem mogą być drzewa decyzyjne, regresja logistyczna, sieci neuronowe, lasy losowe, gradient boosting czy bagging 2. Uczenie bez nadzoru, gdy nie ma określonej zmiennej celu. Przykładem może być tu metoda k-średnich. 3. Metody hierarchiczne, w których założeniem jest podział. Tutaj przykładem jest clustering, którego celem jest utworzenie klastrów, które są podobne do siebie wewnątrz i różne od siebie na zewnątrz. 4. Metody niehierarchiczne, gdzie brak jest podziału. Przykładem jest analiza skupień a celem jest wykrycie jakiś zależności w grupie.
1. Sposoby agregacji danych
Agregacja - polega na łączeniu danych z różnych źródeł w jedną całość. W efekcie agregacji powstaje nowa baza danych. Pobierane są dane z ich źródła, a następnie scalane w jedną bazę danych. Agregacja danych polega na wyliczeniu jednej lub wielu statystyk, takich jak średnia arytmetyczna, minimum, maksimum itp., dla grup obserwacji wyznaczonych przez kategorie zmiennych grupujących. W wyniku tej procedury powstaje nowa macierz danych, w której jedna obserwacja odpowiada jednej kategorii zmiennej grupującej, a wartości zmiennych są zastąpione wyliczonymi wartościami przyjętej statystyki dla poszczególnych grup. Funkcje agregujące są również czasami nazywane funkcjami grupującymi! Są to: COUNT(), MAX(), MIN(), AVG(), SUM()
15. Omów wybrany algorytm stosowany w analityce Big Data.
Algorytm - jest to skończony ciąg jasno zdefiniowanych czynności koniecznych do wykonania pewnego rodzaju zadań, sposób postępowania do rozwiązania problemu. MapReduce - Jest to framework do łatwego tworzenia programów przetwarzających duże zbiory danych • Pomaga w zwiększeniu wydajności dzięki przetwarzaniu strumieniowemu oraz tworzeniu pipelin'ow. Popularnym open-sourcowyn narzędziem map-reduce jest Apach Hadoop. • Operacje są realizowane podczas dwóch kroków 1. Krop map - węzeł nadzorczy. Pobiera dane z wejścia i dzieli na mniejsze pod problemy po czym przesyła je do węzłów roboczych. Przekształca obiekty w pary klucz-wartość. 2. Krok reduce - główny program gromadzi wszystkie odpowiedzi i łączy je w jeden wynik Map/mapping - zmniejszenie obserwacji np. policzenie wystąpień danego słowa Shuffling - druga faza mapowania służy konsolidacji = grupowania częstości występowania danego słowa Reducing - podsumowanie, agregacja danych np. zliczenie powtarzających się słów Np. policzenie średniej dla dużej liczby obserwacji, rozdzielenie to na mniejszą ilość map, agregują i sumują (reduce).
95.Przykłady procedur Base SAS i SAS/STAT.
BASE: - proc contents - Podsumowuje zawartość zestawu danych. Generuje raport z metadanymi dot. Tabel i zmiennych - proc delete - usuwa plik z danej biblioteki - proc means - Obliczanie i podsumowanie statystyk opisowych dla zmiennych - proc import - Import zewnętrznych plików do zestawu danych SAS/STAT - Proc freq - generuje tabele częstotliwości zmiennych - Proc surveyselect - zapewnia różnorodne metody wyboru losowych próbek opartych na prawdpodobieństwie - proc logistic/ proc reg
18. Jakimi cechami charakteryzują się typowe problemy Big Data?
Biorąc pod uwagę cykl życia danych można wyróżnić trzy grupy problemów Problemy dotyczące: Danych ▪ Ilość - Skokowy wzrosty ilości danych ▪ Różnorodność - Ulepszanie technik pozyskiwania danych doprowadziło do wzrostu typów danych ▪ Prędkość - Wzrost danych doprowadza do problemu ich przenoszenia w odpowiedni szybki sposób ▪ Prawdziwość - Odnosi się do stronniczości, niepewności, nieprawdy i brakujących wartości w danych ▪ Zmienność - Oznacza czy dane są aktualne i jak długo powinniśmy je przechowywać ▪ Jakość - Mierzy czy dane są odpowiednie do wykorzystania w procesie podejmowania decyzji ▪ Dogmatyzm - Podejście eksperckie przy podejmowaniu decyzji na podstawie danych Procesu danych ▪ Gromadzenie i rejestrowanie danych, Filtracja niezbędnych danych oraz automatyczne generowanie metadanych ▪ Wydobywanie i czyszczenie informacji - Stworzenie odpowiedniego procesu ekstrakcji właściwych informacji ▪ Integracja i agregacja danych - Ustrukturyzowanie danych wejściowych do analizy ▪ Przetwarzanie zapytań, modelowanie i analiza danych - Opracowanie technik przetwarzania zapytań, które poradzą sobie ze złożonością skalowania ▪ Interpretacja - Przedstawienie interpretacji wyników zrozumiałej dla użytkownika końcowego Zarządzania danymi ▪ Prywatność - Obawa przed niewłaściwym wykorzystaniem danych ▪ Bezpieczeństwo - Stworzenie oraz zarządzanie bezpiecznej struktury zapobiegającej dostanie się zbiorów Big Data w niepożądane ręce
57. Wymień i omów metody wizualizacji szeregów czasowych
Celem wizualizacji szeregów czasowych jest sprawdzenie co już się wydarzyło, co się zmieniło i o ile oraz co pozostało takie samo. Umożliwia także weryfikację czy powtarzający się na przestrzeni czasu schemat jest pozytywny czy negatywny, oczekiwany bądź nieoczekiwany. Metody: - wykres słupkowy, kropkowy, liniowy, hybrydy, bąbelkowy - jedna z osi musi przedstawiać czas. Np. zmiana stopy bezrobocia na prestrzeni lat, inflacja na przestrzeni lat, indeksy giełdowe.
69. Omów wielomianową regresję logistyczną
Czasem nie da się polączyć kilku kategorii zmiennej zależnej w dwie. Np. gdy szacujemy czy nowo zarejestrowani wyborcy zdecydują się głosować na demokratów, republikanów albo kandydatów niezależnych. W sasie do proc logistic trzeba dodać opcję link=glogit. W modelu regresji uporządkowanej estymowanych jest o wiele mniej parametrów, niż w regresji wielomianowej. Parametry beta przy zmiennych dla wszystkich równań są takie same, różnią się jedynie beta 0 - stałą (intercept). W przypadku modelu regresji wielomianowej, w każdym równaniu mamy inne wartości parametrów beta. W wielomianowej otrzymywane są jedynie pseudo-szanse, a nie szanse, jak w przypadku regresji uporządkowanej. Utrudniona jest także interpretacja modelu dla regresji wielomianowej. Model regresji uporządkowanej można zastosować, kiedy spełnione jest założenie o proporcjonalności szans - w przeciwnym przypadku należy zastosować regresję wielomianową.
96. Jakie statystyki opisowe są odporne na wartości nietypowe?
Często zmienne odstające biorą się z błędów pomiarowych lub pomyłek przy wprowadzaniu informacji do systemu/baz danych. Obserwacje nietypowe utrudniają, a czasami wręcz uniemożliwiają przeprowadzenie poprawnej analizy Miary w statystyce opisowej: - Klasyczne na podstawie wszystkich wartości (nie odporne) - np. średnia arytmetyczna, harmoniczna, geometryczna - Pozycyjne tylko na podstawie niektórych wartości cechy (odporne) np. Mediana - wartość środkowa lub Dominanta - w szeregu punktowym wariant cechy z największą liczebnością, przedziałowym przedział z największą liczebnością lub kwartyle - q1,q2,q3,q4
58. Wymień i omów metody wizualizacji proporcji.
Dane dotyczące proporcji są pogrupowane, ale nie według czasu, ale według kategorii, podkategorii i populacji. Chcemy sprawdzić minimin, makisimium oraz ogólne rozkłady, sprawdzić jaka wartość jest dominująca. Aby tego dokonać możemy posłużyć się: - wykresem słupkowym - im dłuższy słupek tym wyższa wartość, zdominowana kategoria - wykres kołowy - do prezentacji proporcji, w przypadku procentów wartości powinny sumować się do 100 - wykres z wyciętym kołem (donut chart) - wartości nie oceniamy pod kątem, ale dłuością łuku, oba wykresy mogą być słabo czytelne przy dużej liczbie kategorii - Skumulowany wykres słupkowy z kategoriami - Każdy słupek może informować o danej kategorii, który może być podzielony według podkategorii - wykres mozaikowy -Dwuwymiarowy wykres złożony z prostokątów, który pozwala także na prezentacje dodatkowych danych w trzecim wymiarze
50. Omów metody analizy danych transakcyjnych.
Dane używane przez modele reguł asocjacyjnych mogą mieć format transakcyjny. Dane transakcyjne są zapisywane w postaci osobnego rekordu dla każdej transakcji lub pozycji. Jeśli klient dokonuje kilku zakupów, każdy będzie zapisany w osobnym folderze, wraz z powiązanymi elementami dowiązanymi na podstawie id. klienta. Głównymi metodami analizy danych transakcyjnych jest analiza asocjacji - identyfikacji współzależności. Umożliwia to odkrycie reguł poprzez identyfikację pozycji, które występują razem. Np. reguła: jeżeli cecha A towarzyszy określonemu zdarzeniu, to cecha B towarzyszy temu zdarzeniu z określonym prawdopodobieństwem. - analiza koszykowa - prawidłowości, które z dużym prawdopodobieństwem opisują zależności między kupowanymi produktami - Analiza sekwencji - rozszerzenie analizy koszykowej, ponieważ uwzględnia czas wykrywanych prawidłowości, np. do nadużyć w bankach - analiza połączeń - do prezentacji graficznej wykrytych prawidłowości
11. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych.
Data Lake to repozytorium danych, które pozwala na niskokosztowe przechowywanie dużych zbiorów danych w ich naturalnym, surowym formacie i w dowolnej skali. Niezależnie czy dane są ustrukturyzowane czy nie, wczytywane i przechowywane są w natywnej postaci. Architektura przechowywania danych jest płaska. Hurtownia danych to rodzaj systemu zarządzania danymi, który został zaprojektowany w celu umożliwienia i wspierania działań Business Intelligence (BI), zwłaszcza analitycznych. Hurtownie danych są przeznaczone wyłącznie do wykonywania zapytań i analiz i często zawierają duże ilości danych historycznych. Dane te pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu. Hurtownia danych przechowuje informacje hierarchicznie w plikach i folderach. Data mart to podzbiór hurtowni danych skoncentrowany na określonej linii biznesowej, dziale lub obszarze tematycznym. Na przykład wiele firm może mieć data mart, która jest powiązana z określonym działem w firmie, takim jak finanse, sprzedaż lub marketing. Baza danych to zorganizowany zbiór usystematyzowanych informacji, czyli danych. Główna różnica polega na tym, że bazy danych są zorganizowanymi zbiorami przechowywanych danych. Hurtownie danych to systemy informatyczne zbudowane z wielu źródeł danych - służą do analizy danych. Hive, nazywany hurtownią danych przechowywanych na HDFS
17. Co to jest Deep Learning, podaj przykład.
Deep learning stanowi część obszaru uczenia maszynowego, które z kolei jest częścią obszaru sztucznej inteligencji. Jest to technika, która polega na tworzeniu siedzi neuronowych, których głównym zadaniem jest doskonalenie technik rozpoznawania głosu i przetwarzania języka naturalnego. Proces uczenia jest głęboki, ponieważ struktura sztucznych sieci neuronowych składa się z wielu warstw danych wejściowych, ukrytych i wyjściowych. Przykład: o Konwoluncyjne sieci neuronowe o Sprawdzają się bardzo dobrze przy rozpoznawaniu obrazów lub dźwięków. Dzięki temu możemy zgrupować zdjęcia w folderach, np. na te z plaży, albo zdjęcia auta. Tesla - self driving car, albo w medycynie, o analizy zdjęć
98.W jaki sposób można zweryfikować, czy dany rozkład jest zgodny z rozkładem normalnym?
Dla próbki powyżej 100: 1. Ocena wizualna - stworzenie histogramu 2. Test normalności: - test Kołmogorowa - Smirnowa - Jeżeli wartość prawd testowego jest mniejsza od przyjętego poziomu istotności, hipotezę zerową, że badany rozkład jest normalny należy odrzucić, powinien być stosowany w sytuacji, gdy znana jest wartość średnia i odchylenie standardowe dla populacji, z której pochodzi próba, próba powinna być liczna -test Shapiro-Wilka - Jeżeli wartość statystyki W jest istotna to hipotezę o zgodności z rozkładem normalnym należy odrzucić, ma dużą moc w porównaniu z innymi testami, jest preferowany - test Lillieforsa - K-S tylko bez znajomości parametrów średniej i odchylenia
75. Podstawowe procedury do estymacji modeli AHZ w SAS i dostępnym oprogramowaniu OPEN SOURCE.
Do estymacji modeli AHZ w SAS: - LIFETEST - modele nieparametryczne, np. Metoda Tradycyjna (SAS wyznacza warunkowe prawdopodobieństwo wystąpienia zdarzenia i błąd stand., funkcję dożycia, funkcję gęstości, wskaźnik hazardu, liczbę obserwacji ocenzurowanych i dla których wysąpiło zdarzenie, mediane pozostałego czasu przeżycia), Metoda Kaplana - Meiera (prawdopodobieństwo wystąpienia zdarzenia, funkcje dożycia i błąd st., średni czas trwania życia) - LIFEREG - modele parametryczne (pozwala na estymację różnych modeli - Weibulla, Gamma, Wykładniczy, Lognormalny, wyznacza liczbe obserwacji ocenzuroanych, wyestymowane parametry modeli i bł. st., informacje nt. modelu) - PHREG - modele semiparametryczne (wykorzystuje algorytmy estymacji Newtona-Raphsona, Breslowa, wyznacza liczbę obserwacji ocenzurowanych, liczbe wszystkich obserwacji, informacje nt. modelu, parametry modelu i bł. stand., warość hazard ratio, do oceny modelu Coxa-AIC, test stosunku wiarygodności)
65. Ocena Dobroci Dopasowania Modelu Regresji Logistycznej
Dobroć dopasowania modelu należy rozumieć jako stopień efektywności, w jakim model opisuje zmienną zależną. Dobroć dopasowania mogą przybliżyć statystyki tj.: - Statystyka chi-kw Pearsona i dewiancja - do badania różnic pomiędzy wartościami zaobserwowanymi a teoretycznymi. Hipoteza zerowa zakłada dobre dopasowanie modelu do danych. - Test Hosmera i Lemeshowa - p-value>0.05 oznacza dobre dopasowanie modelu do danych - Satystyki pseudo - R-kw, można na nie spojrzeć choć nie są one najlepszym wyznacznikiem, często dobre modele miewają niskie wartości - AUC - wykres ROC, czyli krzywa wizualizująca jakość klasyfikacji, pokazująca zależności wskaźników TPR (True Positive Rate) oraz FPR (False Positive Rate).
52. Na czym polega uwzględnienie kontekstu w analizie danych
Dwa podstawowe aspekty uwzględnienia kontekstu w analizie danych: - znaczenie danych - dane bez kontekstu nie mają znaczenia (np. liczba 42 bez opisu i kontekstu ma nieskończenie wiele znaczeń). Dlatego ważne jest zrozumienie genezy danych, procesu i sposobu ich zbierania. Dopiero potem interpretacja. - organizacyjny - otoczenie analizy danych. Trzeba określić elementy wejściowe analizy - dane, zasoby ludzkie, techniczne - i elementy wyjściowe - cel analizy.
93. Na czym polega makroprogramowaie w SAS?
Dzięki umiejętności pisania makr, użytkownik może zautomatyzować wiele procesów, uruchamiać programy warunkowo (np. kod generujący raport tygodniowy co piątek, a raport miesięczny w ostatni dzieo miesiąca), czy też dynamicznie tworzyd kod SAS-owy. CEL: - Automatyzacja procesu pisania kodu SAS-owego - Dynamiczne generowanie kodu - Warunkowe uruchamianie kodu - Parametryzacja kodu CHARAKTERYSTYKA MAKROPROGRAMÓW - Makra rozpoczynają się znakiem procenta (%), po którym występuje nazwa wyrażenia - Kończą się średnikiem (;) - Wykonywane są przez procesor makr, a nie zwykły procesor 4GL - Makrozmienne rozpoczynają się znakiem ampersand (&), po którym występuje ich nazwa
4. Omów klasyfikację funkcji działających na pojedynczych wierszach
Funkcje działające na pojedynczych wierszach zwracają jako swój wynik jeden rekord dla każdego wiersza z tabeli/widoku którego dotyczy zapytanie. Funkcje mogą znajdować się w klauzuli SELECT, warunkach WHERE, START WITH, CONNECT BY i HAVING. Funkcje działające na pojedynczych wierszach dzielimy na: - Funkcje znakowe - zwracają wartości znakowe, np. UPPER, LOWE, INTICAP (pierwsza duża, reszta małe litery) - Funkcje liczbowe - działają na wartościach liczbowych i zwracają w wyniku wartości liczbowe., ROUND, EXP, SIN - Funkcje znakowe zawierające wartości liczbowe , np. LENGTH - Funkcje datowe - ADD_MONTHS, NEXT, DAY, CURRENT_DATE, funkcje systemowe np. SYSDATE - Funkcje konwersji - konwertują wartość z jednego typu danych na inny. Np. TO_CHAR, TO_NUMBER, TO_TIMESTAMP - Ogólne funkcje porównania - np. GREATEST - zwraca największą z listy jednego lub więcej wyrażeń. LEAST - zwraca najmniejszą z listy jednego lub więcej wyrażeń. - Funkcje związane z NULL/polimorficzne - ułatwiają obsługę NULLI. Np COALESCE - zwraca pierwsze niepuste wyrażenie na liście wyrażeń.
37. Tworzenie i zarządzanie bezpieczeństwem środowisk analitycznych dla języków Python i R w chmurze.
Główne elementy proponowanego bezpieczeństwa Big Data są następujące: - Zarządzanie danymi - ustalenie pól priorytetowych do ochrony. - Odkrywanie danych - identyfikacja czy wrażliwe dane są obecne, gdzie się znajdują, a następnie uruchomienie środków ochrony danych, tj.: maskowanie, redakcja, tokenizacja, szyfrowanie, tagowanie danych - zidentyfikowanie wszystkich metod wprowadzania danych. - Zarządzanie tożsamością i dostępem - Uprawnienie użytkownika + pomiar danych - użytkownicy mają dostęp do danych poprzez centralne zarządzanie zasadami dostępu. Zarządzanie dostępem do danych według roli jaką posiada użytkownik. - Ochrona danych i prywatność. Kryptografia na poziomie aplikacji - tokenizacja, Szyfrowanie przezroczyste - pełne szyfrowanie dysku uniemożliwia dostęp za pośrednictwem nośnika pamięci, Maskowanie danych - usuwa dane osobowe umożliwiające identyfikację użytkownika - Bezpieczeństwo sieci - ochrona danych podczas transportu - uwierzytelnianie i zapewnianie prywatności komunikacji między węzłami - Bezpieczeństwo i integralność infrastruktury - Rejestrowanie/audyt - wszystkie zmiany muszą być kontrolowane przy zachowaniu dzienników kontroli
39. Systemy zarządzania relacyjną bazą danych w chmurze i ich zastosowania w analityce danych.
Głównymi dostawcami RDMS (system zarządzania relacyjną bazą danych) w chmurze są Amazon Web Services, Microsoft Azure, Oracle Cloud. RDMS w chmurze nie różnią się znacznie od tych dostępnych stacjonarnie. Posiadają natomiast przewagi jakie gwarantuje użycie chmury: dostępność, skalowalność, elastyczność, płatność za faktyczne użycie Amazon oferuje narzędzie, które pozwala na: - Łatwiejsze stworzenie, zarządzanie, skalowanie relacyjnej bazy danych w chmurze AWS - Dopasowanie rozmiaru zasobu dla relacyjnej bazy danych - Automatyczne zarzadzanie popularnymi zadaniami administracji baz danych - Wykorzystanie narzędzi tj.: MySql, PostgreSQL, Oracle, Microsoft SQL W Amazonie mamy też opcje wspomagające szybkie przetwarzanie danych (Aurora)
6. Jaką rolę pełni Data Dictionary (Słownik Danych) i jak się nim posługiwać?
Jednym z najważniejszych elementów bazy danych Oracle jest Słownik Danych (Data Dictionary). Jest to zbiór tabel read-only, który przechowuje informacje o bazie danych. Słownik Danych zawiera: - Definicje elementów bazy (tables, views, indexes, clusters, synonyms, sequences, -procedures, functions, packages, triggers, itp.) - Informacje o ilości wykorzystywanej pamięci - Domyślne wartości kolumn - Informacje o ograniczeniach integralności - Nazwy użytkowników Oracle oraz uprawnienia i role przyznawane użytkownikom - Informacje o zmianach wykonanych przez użytkowników, np. o aktualizacjach - Inne ogólne informacje o bazie danych Struktura Słownika Danych: - Base Tables - podstawowe tabele przechowujące informacje o relacjach w bazie danych. - User - Accessible Views - widoki zawierające podsumowania i informacje z podstawowych tabel. SYS - Owner of the Data Dictionary - użytkownik Oracle SYS posiada wszystkie tabele podstawowe i dostępne dla użytkownika widoki słownika danych.
87. Omów pojęcie obliczeń równoległych i podstawowe problemy, które pojawiają się przy obliczeniach równoległych.
Jednym ze sposobów przyspieszania algorytmów są obliczenia równoległe, które pozwalają jednocześnie wykonywać obliczenia należące do algorytmu na kilku procesorach. Obliczenia równoległe: - dwa lub więcej procesów (wątków) jednocześnie współpracuje (komunikując się wzajemnie) w celu rozwiązania pojedynczego zadania - problemy obliczeń równoległych są najczęściej związane z konkretnymi algorytmami - obliczenia równoległe są używane w celu lepszego wykorzystania sprzętu i w celu zwiększenia mocy obliczeniowej Problemy: - nie każdy problem da się przetworzyć w sposób równoległy, nie opłaca się inwestować w oprogramowanie i zaplecze - gdy algorytm operuje na pamięci współdzielonej - nie mamy tymczasowo dostępu do danych - zwiększony pobór prądu, z drugiej strony algorytmy wykonują się niewiarygodnie szybko - programy nie skalują się dobrze wraz ze wzrostem rozmiaru problemu
44. Metody klasyfikacji danych - przedstaw różnice i podobieństwa między nimi.
Klasyfikacja polega na tworzeniu modelu klasyfikacji obiektów na podstawie danych treningowych. Zbudowany model jest wykorzystywany do klasyfikacji nowych obiektów o nieznanej klasyfikacji. - Modele logitowe: Prosty i często stosowany algorytm uczenia, Łatwy do implementacji - Modele drzew decyzyjnych -Dobra dokładność predykcji, Odporność na wartości odstające, Łatwa skalowalność dla dużych zbiorów, Interpretacja intuicyjna dla człowieka, Wymaga dużej próby uczącej, Niemożliwość łatwego wychwycenia korelacji między atrybutami - Modele sztucznych sieci neuronowych - Duża odporność na niepełne lub błędne informacje, Wykorzystywana gdy nie jest wymagana znajomość reguł decyzyjnych, Duża dokładność
24. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych.
Kolaboracja o Dzięki VCS wszyscy członkowie zespołu mogą pracować na dowolnej wersji pliku w dowolnym momencie. VCS pozwoli scalić wszystkie zmiany we wspólną wersję. Przechowywanie wersji o System kontroli wersji zapisuje wszelkie zmiany wprowadzone do programu i zapisuje je jako poszczególne wersje co pozwala odtworzyć projekt w dowolnym momencie Przywracanie poprzedniej wersji o Jeśli wprowadzone zmiany okażą się złe można przywrócić poprzednią wersje Zrozumienie zmian w projekcie o Każda zmiana w projekcie wymaga komentarza co przekazuje ogólną informacje co w danej wersji zostało poprawione/zaimplementowane/usunięte Tworzenie kopii zapasowej o VCS tworzy kopię zapasową, która jest przechowywana w lokalnych repozytoriach GIT
73. Modele AHZ o czasie dyskretnym versus modele AHZ o czasie ciągłym ( w tym zasady konstrukcji baz danych do obu typów modeli).
Konstrukcja baz: zbiór musi zawierać zmienną mówiącą o czasie zajścia danego zjawiska lub o czasie kiedy nastąpiła ostatnia obserwacja (ocenzurowanie). Zbiór musi zawierać zmienną mówiącą o statusie danej osoby w czasie zarejestrowania zajścia zdarzenia. - Czas dyskretny: Każdą z badanych jednostek obserwuje się, począwszy od momentu czasu t=0, jednak czas obserwacji może przyjmować tylko wartości naturalne, aż do momentu końcowego. t=0,1,2,...,k - Czas ciągły - od momentu czasu t=0, aż do wystąpienia zdarzenia. Badanie może się zakończyć zanim wystąpi zdarzenie lub gdy jednostka znika z pola obserwacji (Obserwacja ocenzurowana). - Podobieństwa - prawdopodobieństwo, że zdarzenie wystąpi w czasie t, że nie wystąpi przed czasem, , skumulowana funkcja hazadu i funkcja wiarygodności - Różnice - funkcja hazardu ▪ Dla czasu ciągłego - Nie jest prawdopodobieństwem (może przyjmować wartości wyższe od 1) ▪ Dla czasu dyskretnego - Warunkowe prawdopodobieństwo wystąpienia zdarzenia o czasie t, przy założeniu, że zdarzenie nie wystąpiło do czasu t
46.Omów modele lasów losowych.
Lasy losowe są odpowiedzią na wady drzew decyzyjnych, tzn. nieumiejętność opisania złożonych zależności oraz niestabilność drzew decyzyjnych (nawet niewielka zmiana danych może skutkować zupełnie innym drzewem). Las losowy składa się z kilku drzew decyzyjnych, które nie są ze sobą skorelowane. Drzewa zostają zbudowane na różnych, losowo utworzonych próbach. Zalety lasów losowych: - Odporność na rozmaite problemy z danymi - Możliwość dokładniejszego odtworzenia złożonych zależności, niż są to w stanie zrobić drzewa decyzyjne - Stabilność - Możliwość wykrycia interakcji między zmiennymi - Możliwość określenia różnych kosztów błędnych klasyfikacji
48.Ocena mocy predykcyjnej modeli klasyfikacyjnych.
Macierz klasyfikacji - TP - pozytywne przypadki poprawnie sklasyfikowane, TN - negatywne przypadki poprawnie sklasyfikowane, FP - pozytywne przypadki niepoprawnie sklasyfikowane (błąd I rodzaju), FN - negatywne przypadki niepoprawnie sklasyfikowane (błąd II rodzaju). Na podstawie powyższych wartości możemy policzyć miary oceniające jakość klasyfikator: Accuracy (poprawnie sklasyfikowane do wszystkich), Error ratio (błędnie sklasyfikowane do wszystkich), Specifity - (TN/TN+FP) (pozytywnie negatywne do poprawnie negatywnych i niepoprawnie pozytywnych) - Krzywa ROC - Współczynnik Giniego - Miara AUC - losowy 0.5, idealny=1
55. Jakie znaczenie mają metadane w analizie danych
Metadane to inaczej "dane o danych". Powinny zawierać informację o rodzaju obiektów, ich położeniu, pochodzeniu a także dotyczące ich szczegółowości, standardów, praw własności i praw autorskich, cen jak również sposobach uzyskania dostępu do danych oraz warunkach użycia ich w określonym celu. Przykłady metadanych: - data i czas utworzenia pliku; - adres lub położenie geograficzne miejsca utworzenia pliku; - imię i nazwisko, nazwa firmy, nazwa komputera lub adres IP; - nazwy wszystkich współtwórców dokumentu lub dodane komentarze; - typ użytego aparatu i jego ustawienia podczas robienia zdjęcia; - typ użytego urządzenia rejestrującego audio lub wideo i jego ustawienia podczas nagrywania; - marka, model i operator smartfona". Rodzaje metadanych: - wyszukiwania - do wyboru zbioru - rozpoznania - więcej szczegółów o zbiorze dot. jakości, przydatności zbioru - stosowania - odczytania danych i interpretacji
21. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego.
Metodologia CRISP-DM (Cross industry standard process for data mining). Składa się z 6 adaptowalnych faz co oznacza, że kolejne fazy zależą od wyniku poprzednich faz Fazy: • Zrozumienie uwarunkowań biznesowych/badawczych (Wyraźne określenie celów i wymagań projektu, Sformułowanie problemów eksploracji danych, Przygotowanie wstępnej strategii dla osiągnięcia tych celów) • Zrozumienie danych (Zebranie danych, Skorzystanie z eksploracyjnej analizy danych, w celu poznania danych i odkryć wstępne wzorce, Ocena jakości danych) • Przygotowanie danych (Transformacja danych do formy, która umożliwia modelowanie ich, Wybór zmiennych, które są odpowiednia dla analizy) • Modelowanie (Wybór i zastosowanie odpowiedniej techniki modelowania, Skalibrowanie ustawień modelu, aby zoptymalizować wyniki, Zastosowanie innej techniki w celu porównania modeli, Powrót do przygotowania danych, w celu przystosowanie do innej techniki) • Ocena (ewaluacja - Ocena modeli pod kątem jakości i skuteczności, Skonfrontowanie modeli z celami i wymaganiami projektu) • Wdrożenie (Użycie modeli zgodnie z celami biznesowymi) Metodologia SEMMA (SAMPLE, EXPLORE, MODIFY, MODEL, ASSES) • Próbkowanie danych • Eksploracja (Wizualizacje, Kategoryzacja) • Modyfikowanie (Selekcja zmiennych, Transformacja danych) • Modelowanie (Wybór modelu, Implemtentacja) • Ocena modelu (Jakość dopasowania, Ocena mocy predykcjnej, Interpretacja modelu)
70. Porównaj model proporcjonalnych szans z modelem wielomianowej regresji logistycznej.
Model proporcjonalnych szans możemy zastosować, gdy spełnione jest założenie proporcjonalnych szans. Założenie weryfikuje się poprzez sprawdzenie hipotezy zerowej stanowiącej, iż wszystkie parametry β są równe oprócz stałej. Hipotezę weryfikuje się za pomocą testu punktowego. W przypadku niespełnienia założenia proporcjonalnych szans można skorzystać z modelu wielomianowego jednak ma to negatywny wpływ na efektywność estymatorów. - Podobieństwa: oba modele należą do uogólnionych modeli liniowych - mają liniowego predyktora, funkcje wiążącą, która jest monotoniczna i różniczkowalna, rozkład danych z rodziny wykładniczej. - Różnice - interpretacja paramerów - W modelu proporcjonalnych szans iloraz szans mówi ile razy wzrośnie lub zmaleje szansa osiągnięcia niższych kategorii zmiennej objaśnianej względem kategorii wyższych. W modelu wielomianowym iloraz szans mówi, ile razy wzrośnie/zmaleje szansa zdarzenia, którego dotyczy parametr, względem zdarzenia opisywanego przez kategorię referencyjną zmiennej objaśnianej. Interpretacja stałej - W modelu proporcjonalnych szans wartość funkcji wykładniczej od stałej oznacza szanse nieprzekroczenia przez tę zmienną tego poziomu względem jego przekroczenia. W modelu wielomianowym oznacza ona szanse zajścia zdarzenia, którego dana stała dotyczy, względem zdarzenia referencyjnego.
68. Omów model proporcjonalnych szans.
Model proporcjonalnych szans, czyli regresja logitowa ze zmiennymi porządkowymi. Zastosowanie: gdy zmienna wynikowa ma więcej niż dwie wartości (kategorie/klasy) i wartości te występują w skali porządkowej. Dla ustalonego j model jest modelem logistycznej regresji dla odpowiedzi binarnej 1 gdy {y <= j}, i 0 gdy {y > j}. Procedury: GENMOD w SAS i polr w R. Estymacja: przy użyciu metody największej wiarygodności. Ocena modelu: ROC, test Hosmera Lemeshowa, tablica klasyfikacji, test Walda, AIC
14. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data
Na środowisko danych w big data składa się: - Źródło danych - stąd płynie strumień danych, które są dalej przetwarzane i analizowane - Proces i miejsce ładowania danych - definiowanie miejsca do którego będziemy ładować dane z systemów źródłowych. W tym etapie dane będą przechowywane, sortowane i klasyfikowane w określone tematy, tak aby komponentu z kolejnych warstw mogły je konsumować w zależności od swoich własnych potrzeb i wymagań. Narzędzia: Kafka, RabbitMQ - Przechowywanie danych - najniższa warstwa części analitycznej. Narzędzia z tej warstwy pozwalają na składowanie danych o różnych formatach i różnym przeznaczeniu. Narzędzia: S3, DynamoDB, Cassandra. - Bazy danych - tutaj definiujemy schematy i modele dla danych. OLAP (kostka - stuktura danych kóra pozwala na szybką analizę), OLTP. - Przetwarzanie danych - Przetwarzanie w czasie rzeczywistym - Każde zdarzenie jest procesowane indywidualnie. Informacja zwrotna jest przekazywana natychmiast Przetwarzanie wsadowe - Procesy są grupowane i przetwarzane jednocześnie. Przetwarzanie mikro-wsadowe - Hybryda dwóch powyższych - Analityka - Deskrypcyjna - badamy co się dzieje lub co się stało. Predykcyjna - chcemy wiedzieć co się wydarzy Diagnostyczna - szukamy odpowiedzi dlaczego to się stało - Wizualizacja - Wizualizacja samoobsługowa - Interfejs do tworzenia własnych raportów i wizualizacji. Wizualizacja wbudowana - Silnik wizualizacji wbudowany wewnątrz aplikacji. Wizualizacja własna - Dostarczanie wizualizacji na każde zapotrzebowanie użytkownika
54. Na czym polega niepewność w analizie danych i jak można wpływać na jej wielkość
Niepewność w analizie danych oznacza sytuację, w której dane wartości poszczególnych zmiennych mogą spowodować różne wartości innych zmiennych (np. zmiennej, której wartość próbujemy przewidzieć na ich podstawie). Każda decyzja jest obarczona błędem, ponieważ jest podejmowana przez model w warunkach niepewności. Źródła niepewności: - błędy losowe - np. zaburzenia w rozkładach, tj. wartości odstające. Jeśli nie ma ich wiele - należy rozważyć ich usunięcie. - błędy systematyczne - błędy analityka, np. źle dobrana próba, np. brak osób po 40 roku życia, próba ma być reprezentatywna
60.Wymień i omów metody wizualizacji danych geolokalizacyjnych.
Niezbędnymi danymi do wizualizacji danych geolokalizacyjnych i mapowania punktów są długość i szerokość geograficzna. - Mapa z kropkami - kropki odpowiadają dł. i szer. geograficznej, można dodać trzeci wymiar - wykres bąbelkowy, w przypadku danychy może być nieczytelne - Mapa z liniami - połączenie kropek - może wskazywać na trasę przelotu towru - chloropleth - polega na kolorowaniu regionów za pomocą skali regionów - np. przedstawiając PKB krajów UE - animacje - zmiana skali kolorów w zależności od czasu i ilości kropek - np. rozwój sieci sklepów w czasie Narzędzia - bibliotek plotly w python, Power Bi, Tableau
76. Podstawy teoretyczne -aplikacje -diagnostyka i interpretacja wyników modeli nieparametrycznych.
O modelach nieparametrycznych dla zmiennej losowej mówimy wtedy, gdy NIE jest określona postać analityczna gęstości rozkładu prawdopodobieństwa • Rodzaje modeli nieparametrycznych o Metoda Kaplana-Meiera ▪ Dokładny pomiar, Mała liczba obserwacji i zdarzeń, Nie narzuca konieczności konstrukcji przedziałów klasowych dla zmiennej czasowej, Koniecznie jest uszeregowanie epizodów według długości czasów ich trwania, Tworzony jest zestaw ryzyka dla każdego punktu czasu, w którym wystąpiło przynajmniej jedno zdarzenie o Metoda tradycyjna tzw. Aktuarialna, Duża liczba obserwacji i zdarzeń, Dostarcza nieparametrycznej funkcji dożycia, funkcji gęstości, wskaźnika hazardu dla określonego przedziału czasu, Kaplan Meier, LIFETEST
99. Plusy i minusy struktur danych: analitycznej i transakcyjnej
OLAP, a OLTP - A - analitycal, przetwarzanie analityczne - T - transactional, przetwarzania transakcyjne OLTP - Operacje wykonywane w bieżących bazach danych przedsiębiorstwa - Systemy optymalizowane pod kątem maksymalnej wydajności transakcyjnej - Obsługa dużej liczby prostych zapytań - Wymagany natychmiastowy dostęp do aktualnych informacji Np. system bankowy obsługujący odczytywanie i modyfikację salda rachunków OLAP - Służy do tworzenia raportów - Przeznaczony dla kierownictwa, analityków, administratorów - Niewielka liczba zapytań ale dotycząca wielkich ilości danych - Nie zakłada pełnej aktualności informacji - Systemy te zasadniczo odczytują tylko informacje z bazy Np. system do tworzenia raportów dynamiki sprzedaży produktów w różnych krajach
29. Wyjaśnij różnicę, pomiędzy wnioskowaniem obserwacyjnym, interwencyjnym i kontrfaktycznym.
Obserwacyjne o Polega na analizie danego zjawiska bez próby ingerowania w przyczyny, tzn. możemy wyciągać wnioski na temat przyczyn i skutków danego zjawiska tylko obserwując dane zdarzenie Interwencyjne o Polega na manipulowaniu poszczególnymi zdarzenia i sprawdzaniu jakie będą skutki Kontrfaktyczne o Polega na obserwacji danego zdarzenia i jego przyczyny o Sprawdzamy czy gdyby dana przyczyna nie byłaby obecna wpłynęła by na uzyskane skutki o Połączenie obserwacji z interwencją
53. Na czym polega zmienność danych i jak ją uwzględnić w wizualizacji danych
Odpowiednie ujęcie danych i przedstawienie ich w określonym kontekście powoduje, że wnioski z badanego zjawiska nabierają większego sensu. Przykład wypadków samochodowych w USA, które zostały przedstawione poprzez punkty na mapie. Z tak przedstawionego grafu mało można wyczytać informacji istotnych dla badanego problemu, jakim są wypadki drogowe. W książce przedstawiono inne grafy z tego samego zbioru danych, które przedstawiają, jak zmienia się ilość wypadków drogowych w określonych okresach czasowych. Dzięki takiemu przedstawieniu danych można było zobaczyć, że najwięcej wypadków występuje w sierpniu, a w następnym miesiącu następuje niewielki względny spadek. Przedstawienie ilości wypadków z miesiąca na miesiąc podkreśliło sezonowość zjawiska.
5. Jakie znasz polecenia zmieniające zawartość tabeli? Jakie są ich skutki oraz zakres oddziaływania?
Operacje w relacyjnych bazach danych wykonywane są za pomocą języka zapytań złożonych określanego jako SQL (ang. Structured Query Language). Za manipulację danymi odpowiadają polecenia z grupy DML (ang. Data Manipulation Language - „język manipulacji danymi"),, służące do umieszczania rekordów w bazie, kasowania, oraz dokonywania zmian na istniejących danych. Poleceniami należącymi do tej grupy są: - INSERT - umieszczenie danych w bazie, (warto dodać, że dodajemy nowe wiersze) - UPDATE - modyfikacja danych, - Truncate - Usunięcie wszystkiego z tabeli - DELETE - usunięcie danych z bazy, (warto dodać, że usuwamy wybrane wiersze)
9. Operacje na zbiorach - omów składnię poleceń i znaczenie uzyskanych wyników
Operują zawsze, na wynikach całych kwerend (tabel wejściowych) i zwracają tabelę wynikową, będącą zbiorem identycznie określonym jak pierwsza tabela wejściowa (liczba i nazwy kolumn). - UNION ALL - zwraca wszystkie wiersze pobrane przez zapytania, łącznie z tymi powtarzającymi się. SELECT product_id, product_type_id, name FROM products UNION ALL SELECT prd_id, prd_type_id, name FROM more_products; UNION - zwraca jedynie niepowtarzające się wiersze zwrócone przez zapytania. SELECT product_id, product_type_id, name FROM products UNION SELECT prd_id, prd_type_id, name FROM more_products; INTERSECT - zwraca jedynie te wiersze, które zostały pobrane przez obydwa zapytania. SELECT product_id, product_type_id, name FROM products INTERSECT SELECT prd_id, prd_type_id, name FROM more_products; MINUS - zwraca wiersze powstałe po odjęciu tych pobranych przez drugie zapytanie od tych pobranych przez pierwsze zapytanie. SELECT product_id, product_type_id, name FROM products MINUS SELECT prd_id, prd_type_id, name FROM more_products; Warunki: podobna struktura tabel wejściowych, Liczba kolumn w każdym zbiorze musi być identyczna oraz typy danych poszczególnych kolumn, muszą do siebie pasować. Nazwy kolumn nie mają znaczenia.
100. Co to jest PDV i sekwencyjne przetwarzanie danych w SAS?
PDV, czyli struktura stworzona w trakcie kompilacji. Kolejność zmiennych w wektorze to kolejność ich występowania w trakcie odczytywania Zawiera zmienne ze zbiorów wejściowych, zmienne zadeklarowane oraz dwie zmienne automatyczne - _N - numer bieżącej iteracji pętli - _ERROR - zmienna 0/1 informująca o wystąpieniu błędu W fazie wykonania, zmienne wektora aktualizują się dla każdej obserwacji Sekwencyjne przetwarzanie danych - sposób przetwarzania danych w zadanej kolejności, najczęściej takiej, w jakiej są one przechowywane w tabeli
10. Podzapytania - typy, klauzule,w których mogą wystąpić, operatory
Podzapytanie (podkwerenda) to osadzenie jednej instrukcji w innej instrukcji. Podzapytanie może również zawierać inne podzapytanie. Wyróżniamy dwa podstawowe rodzaje podzapytań: - podzapytanie jednowierszowe - zwracają zero lub jeden wiersz. Podzapytanie możemy umieścić w klauzuli WHERE, klauzuli HAVING lub klauzuli FROM instrukcji SELECT. - podzapytanie wielowierszowe - zwracają do zewnętrznej instrukcji SQL co najmniej jeden wiersz. Zapytanie zewnętrzne może obsługiwać podzapytania zawierające wiele wierszy za pomocą operatorów IN, NOT IN, ANY , ALL, EXISTS. Wyróżniamy ponadto trzy rodzaje podzapytań, które mogą zwrócić jeden wiersz lub wiele wierszy: - podzapytania wielokolumnowe - zwracają do zewnętrznej instrukcji SQL więcej niż jedną kolumnę. - podzapytania skorelowane - w podzapytaniu odwołujemy się do tej samej tabeli i kolumny co zapytanie główne, przez co musimy nadać jej inny alias- dodatkowo występuje w podzapytaniu warunek np where - podzapytania zagnieżdżone - są umieszczone wewnątrz innego podzapytania (można zagnieździć do 255 poziomów podkwerend).
51. Omów cechy danych istotne w procesie analizy danych
Przed podjęciem analizy danych, zbiór należy ocenić pod kątem: - prawdziwości - jednoznaczności - identyfikalności - kompletności - aktualności w przyszłości - kosztu zebrania i opracowania - porównywalności Dane powinny być dokładne, kompletne, indywidualne, zgodne z rzeczywistością, możliwie jak najczystsze i najnowsze, a także dostępne z odpowiednio długiego okresu, aby zawierały dane istotne dla problemu.
59. Wymień i omów metody wizualizacji relacji.
Przy wizualizacji zmiennych można wykorzystać ich korelację lub rozkłady i na ich podstawie stworzyć m.in.: - wykres punktowy - dobry do 2/3 zmiennych opisanych na osiach X i Y, przy dużej liczbie obserwacji może być nieczytelny - histogram - wykres liniowy - heat mapa - mapa kolorów - im ciemniejszy tym mocniejsza relacja - np. do korelacji pearsona zmiennych - wykres radarowy - Przedstawienie danych poprzez modyfikowanie długości osi o wspólnym początku, przypomina sieć pajęczą
26. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego.
Reprodukowalność odnosi się do zdolności badacza do powielania wyników wcześniejszych badaczy przy użyciu tych samych materiałów i procedur, które zostały zastosowane przez pierwotnego badacza Wymagania: o Dostęp do surowych danych, tzn. takich, które nie zostały poddane transformacji o Dostęp do plików zawierających kod, który umożliwia odtworzenie w taki sam sposób wszystkich elementów uprzednio zaimplementowanych ( wykresy, grafiki) o Szczegółowe informacje na temat zastosowanych technologii, dokładnych wersji użytych pakietów, bibliotek itp o Dostęp do pełnego zestawu instrukcji wyjaśniających wszystkie etapy przetwarzania i analizy danych
92.Plusy i minusy przetwarzania danych w SAS i SQL.
SAS to oprogramowanie, które: - jest produktem komercyjnym - wykorzystanieje dane z różnych źródeł oraz dane o różnych formatach - jest łatwy w użytkowaniu - współpracuje z istniejącymi protokołami sieciowymi - Niezależność sprzętowa (ta sama zasada działania na różnych komputerach) - Budowa modułowa SQL natomiast jest zaprojektowany do pracy z relacyjnymi bazami danych, pozwala na tworzenie i definiowanie struktur oraz wykonywanie zapytań Zalety: - Składnia zbliżona do naturalnego języka ang - Charakter deklaratywny (opisujemy co chcemy osiągnąć) zamiast ( jak to osiągnąć) - Solidne podstawy matematyczne - Optymalizacja zapytań - Standaryzacja Wady: - Nie przestrzeganie standardu przez dostawców. Nadal istnieją różnice w wersjach języka SQL biorąc pod uwagę różnych producentów. - Brak rekurencji i iteracji - Operowanie jedynie na strukturach tablicowych
32. Technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych
Serverless to model usług w chmurze, w którym programista/architekt skupia się wyłącznie na tworzeniu logiki biznesowej, a nie na infrastrukturze, na której ma być ona wykonana Przykładem architektury serverless jest: o FaaS w oparciu o AWS Lambda o FaaS należy do kategorii CCS (Cloud Computing Services), która zapewnia klientom platformę do tworzenia, uruchamiania i zarządzania aplikacjami o Ten model jest najczęściej używany do budowania mikroserwisów o AWS Lambda - Usługa obliczeniowa, która pozwala uruchamiać kod bez obsługi administracyjnej lub zarządzania serwerami. Wykonuje kod tylko w razie potrzeby i skaluje się automatycznie. Uruchamia kod w infrastrukturze obliczeniowej o wysokiej dostępności. Wykonuję całą administracje zasobami obliczeniowymi, w tym konserwacje serwera i systemu operacyjnego o Jak to działa? Przesłanie kodu do AWS Lambda lub napisanie w edytorze Lambda. Konfiguracja kodu, aby uruchamiał się z innych usług AWS, punktów http lub aktywności w aplikacji. Lambda uruchamia kod tylko kiedy zostanie wywołana usługa uruchamiająca kod. Opłata jest tylko za wykorzystany czas obliczeniowy
86. Omów modele sztucznych sieci neuronowych na przykładzie wybranej topologii sieci neuronowej.
Sieci neuronowe są modelami działającymi w sposób przypominający układ nerwowy.Zwykle sieć neuronowa składa się z trzech części:- Warstwa wejściowa z jednostkami reprezentującymi zmienne wejściowe- Co najmniej jedna warstwa ukryta- Warstwa wyjściowa z jednostkami reprezentującymi zmienne przewidywane.Wartości z pierwszej warstwy są przekazywane do wszystkich neuronów w kolejnej warstwie, aż do uzyskania wynikówZe względu na sposób połączenia neuronów oraz kierunek przepływu sygnałów, sieci neuronowe dzielimy na:- Jednokierunkowe- Rekurencyjne - występuje sprzężenie zwrotne- Komórkowe - sprzężenia wzajemne. MultiLayer Perception
34. Skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB
Skalowanie bazy danych to rozbudowywanie serwera lub dodawanie nowych serwerów Wyróżniamy: - Pionowe - Dokładanie zasobów do istniejącego serwera - Poziome - Dokładanie serwerów, które przechowują kopie baz danych i obsługują część żądań Bazy danych typu noSql to: - Nierelacyjny typ baz danych, zwierający dane nieustrukturyzowane - Silniki noSql pozwalają przekazywać dowolne dane bez uprzednio przygotowanych schematów - W porównaniu do relacyjnych baz danych są bardziej elastyczne DynamoDB może obsługiwać tabele dowolnego rozmiaru - Może wykonywać 10 bilionów żądań dziennie, nawet przy 20 milionach żądań na sekundę - Globalne tabele DynamoDB automatycznie replikują dane w wybranych regionach AWS i skalują pojemność, dostosowując ją do obciążeń, dzięki czemu czas odczytu i zapisu zostaje skrócony - DynamoDB jest serverless, tzn. Automatycznie skaluje tabelę w górę i w dół, aby dostosowywać pojemność i utrzymywać wydajność
35. Skalowanie procesów analitycznych w chmurze
Skalowanie procesów w chmurze polega na dynamicznym przydzielaniu zasobów w celu dopasowania do wymagań dotyczących wydajności - Gdy rośnie ilość pracy zwiększane są zasoby niezbędne do utrzymania wymagań poziomu wydajności - Gdy zapotrzebowanie spada, dodatkowe zasoby nie są już potrzebne dlatego zostają wycofane, aby zminimalizować koszty - Skalowanie w pionie - Oznacza zmianę pojemności zasobu, może się to odbyć poprzez przeniesienie aplikacji na wirtualną maszynę o większym rozmiarze - Skalowanie w poziomie - Oznacza dodawanie lub usuwanie wystąpień zasobu - Strategia skalowania automatycznego w chmurze obejmuje: Instrumentację i monitorowanie systemów na poziomie aplikacji, usługi i infrastruktury, Logikę podejmowania decyzji na podstawie zdefiniowanych progów i harmonogramów, Składniki, które skalują system, Testowanie, monitorowanie i dostrajanie strategii skalowania
33. Metody przechowywania danych dużych rozmiarów w chmurze
Składowanie danych w chmurze: - Wirtualne dyski - Key object storage - Bazy danych SQL, noSQL Najpopularniejsi dostawcy serwerów w chmurze: - AWS S3 - Google Cloud Storage - Azure Storage Dla AWS S3 są to: - EBS - Elastic Block Storage - pamięć blokowa - EFS - Elastic File System - pamięć blokowa współdzielona pomiędzy innymi komputerami - S3 - Simple Storage Service - magazyn typu klucz - wartość, pozwala na przechowywanie dowolnych danych binarnych. Są to kontenery (buckety) tworzone w ramach regionu. Dane nigdy nie opuszczają swojego regionu, w ramach regionu są replikowane do wszystkich sfer dostępności. Dane cechują trwałość na poziomie 99.9999% - W ramach AWS mamy dostęp do bazy danych DynamoDB. Jest to w pełni zarządzana, zastrzeżona usługa bazy danych NoSql. Obsługuje struktury danych o kluczowej wartości i dokumentach Zastosowania S3: - Hostowanie stron www - Archiwizacja danych dowolnego rozmiaru - Import fizycznych dysków do chmury - Przechowywania danych dla analityki Big Data - Analityka danych w klastrach Hadoop/Spark
84. Wyjaśnij co to jest system kontroli wersji na przykładzie systemu Git i zaproponuj typowy workflow.
System kontroli wersji (ang. version control system) - oprogramowanie służące do śledzenia zmian głównie w kodzie źródłowym oraz pomocy programistom w łączeniu zmian dokonanych w plikach przez wiele osób w różnym czasie. Architektura: - scentralizowane (oparte na architekturze klient - serwer np. CVS - centralize version control system) - jedno centrum (każdy pobiera z centrum pliki). Wszystko może być stracone, bo wszystko w 1 pliku. - rozproszone (oparte na architekturze P2P np. BitKeeper) Git - rozproszony system kontroli wersji, który pozwala na prowadzenie równoprawnych, niezależnych gałęzi, które można dobrowolnie synchronizować ze sobą. Stworzony przez Linux. Pobieram całą historię kodu, robi się snapshot - zrzuty aktualnego stanu (tworzenie plików) commit. Tworzenie kolejnych zdjęć programu (pobieranie u siebie lokalnie). Cechy Git: - wsparcie dla rozgałęzionego procesu - praca off - line - efektywna praca z dużymi projektami
47. Przedstaw modele sztucznych sieci neuronowych.
Są modelami działającymi w sposób przypominający układ nerwowy.Zwykle sieć neuronowa składa się z trzech części: - Warstwa wejściowa z jednostkami reprezentującymi zmienne wejściowe - Co najmniej jedna warstwa ukryta - Warstwa wyjściowa z jednostkami reprezentującymi zmienne przewidywane. Wartości z pierwszej warstwy są przekazywane do wszystkich neuronów w kolejnej warstwie, aż do uzyskania wyników Ze względu na sposób połączenia neuronów oraz kierunek przepływu sygnałów, sieci neuronowe dzielimy na: - Jednokierunkowe - Rekurencyjne - występuje sprzężenie zwrotne - Komórkowe - sprzężenia wzajemne
61.Czy modele regresji logistycznej należą do klasy uogólnionych modeli liniowych?
Uogólnione modele liniowe to klasa modeli, w których zmienna objaśniana ma rozkład należący do rodziny wykładniczej. Rozkład dwumianowy i wielomianowy, opisujący odpowiednio rozkład zmiennych binarnych i wielomianowych należą do tej rodziny. Na tej podstawie możemy stwierdzić, iż model regresji logistycznej należy do uogólnionych modeli liniowych
100. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data?
Volume - ilość danych, big data to duże zbiory danych cyfrowych, których celem przetwarzania jest zdobycie nowych informacji lub wiedzy Valocity - szybkość przepływu danych, wzrostowi ilości danych towarzyszy przyrost szybkości danych oraz ich wykorzystania Variety - różnorodność - dane przesyłane są w różnych formatach, ustrukturyzowanych i nieustrukturyzowanych Veracity - wiarygodność - big data odpowiada za zarządzanie wiarygodnością danych dla ich użytkowników Value - wartość - określa cel gromadzenia tak dużej ilości danych, a także znalezienie powiązań jawnych i ukrytych
71. Korzyściekonomiczne, biznesowe z analityki z wykorzyst aniem modeli AHZ ( modeli analizy przeżycia)
W porównaniu z tradycyjnymi badaniami typu poprzecznego lub badaniami panelowymi zaletą jest to, że dostarczają informacji o dynamice badanego procesu. Metody są stosowane w wiely dyscyplinach: - Medycyna - proces dożycia określonego stanu po zabiegu operacyjnym - Ekonomii - sytuacji na rynku pracy (okres aktywności zawodowej, bezrobocia, bierności) - Polityka - czas pobytu na scenie politycznej - Psychologii - czas reakcji na określone testy - Marketing - czas życia produktu - Demografii - intensywności migracji, cyklu życia jednostki, rodziny - Naukach technicznych - czasu bezawaryjnej pracy urządzeń - Finansach - badania ryzyka kredytowego
23.Jak mierzymy jakość modelu prognostycznego?
W prognozowaniu najistotniejszym zagadnieniem jest skuteczność modelu, który powinien z możliwe jak najmniejszym błędem estymować zmienną celu Współczynnik determinacji R^2 o Jest to miara jakości dopasowania modelu do danych o Mówi o tym jaki procent zmienności zmiennej celu jest objaśniany poprzez predykatory o Informuje nas jaka część wariancji zmiennej zależnej w próbie jest wyjaśniana przez zmienne zawarte w modelu o Jest to stosunek sumy kwadratów różnic wartości wyestymowanych i wartości średniej arytmetycznej zaobserwowanych zmiennych celu do sumy kwadratów różnic zaobserwowanych wartości i wartości średniej arytmetycznej zaobserwowanych zmiennych o Współczynnik ten przyjmuje wartości od 0 do 1, gdzie 0 oznacza brak dopasowania, a 1 dopasowanie idealne Pierwiastek błędu średniokwadratowego o W porównaniu do współczynnika determinacji R^2 jest istotniejszy w przypadku porównywania kilku modeli. o Informuje jaki jest pierwiastek średniej kwadratów odchyleń pomiędzy wartością zaobserwowaną, a prognozowaną Średni błąd bezwzględny o Mierzy średnią wielkość błędu dla predykcji bez uwzględnienia kierunku błędu o Dla próbki testowej jest to średnia arytmetyczna bezwzględnych różnic pomiędzy wartością zaobserwowaną, a wartością estymowaną, gdzie poszczególne różnice mają te same wagi o Wartość błędu jest obojętna na kierunek oraz mieści się w zakresie od 0 do nieskończoność o Im niższa wartość tym lepiej
88. Omów pojęcie estymatora odpornego na wybranych przykładzie.
W przypadkach, gdy mamy do czynienia w danych z wartościami odstającymi, średnia czy odchylenie standardowe nie jest efektywnym estymatorem zmienności, a wyznaczenie wartości tej opcji jest obarczone błędem. Głównym celem stosowania metod odpornych jest poprawa wyników estymacji parametrów służących do budowy modelu. Do badania odporności estymatorów na pewne odstępstwa od złożonego modelu wykorzystuje się np. funkcje wpływu, czyli lokalną odporność estymatora na zaburzenia w próbie. Statystyki przy wartościach odstających: mediana, dominanta, korelacja rang Spearmana
60.Wymień obiekty bazy danych i omów ich przeznaczenie
W ramach schematu baz danych, w szczególności w systemie Oracle, wyróżniamy między innymi następujące obiekty: - Tabela - jest to podstawowa jednostka służąca do przechowywania danych w bazie danych. Dane przechowywane są w rzędach i kolumnach, zaś sama tabela definiowana jest poprzez jej nazwę jak i poszczególne kolumny. - Perspektywa / widok - jest to sztucznie stworzona prezentacja danych zawartych w jednej, bądź wielu tabeli. Perspektywy są szczególnie wykorzystywane w przypadakch potrzeby ograniczenia ilości informacji. - Widok zmaterializowany - obiekt służący do podsumowania, replikowania i przetwarzania danych. Ważną cechą jest możliwość odświeżania. Stosuje się je najczęściej przy wyliczaniu agregatów - tam gdzie wyliczenie wyniku zajmuje dużo czasu, a dane źródłowe nie zmieniają się zbyt często. - Synonim - jest to innymi słowy alias nadawany innym obiektom i elementom baz danych, takim jak tabela, perspektywa, procedura, fukcja czy obiektom stworzonym przez użytkownika.
97. Które statystyki opisowe są właściwsze dla rozkładów, które nie są normalne?
W sytuacji gdy dane nie podlegają rozkładowi normalnemu, obliczanie standardowych statystyk opisowych (np. średniej, odchylenia standardowego) nie jest najlepszym sposobem zbiorczego przedstawienia danych. Dla zmiennych ilościowych możemy mówić o takich statystykach opisowych jak: - Mediana zamiast średniej arytmetycznej - Rozstęp kwartylowy zamiast odchylenia standardowego - Korelacja (rang) Spearmana zamiast Pearsona - to analiza pozwalająca korelować ze sobą zmienne na skali porządkowej oraz ilościowym nieposiadające rozkładu normalnego. Można powiedzieć o dominancie, jednak ona jest niezależna od rozkładu - dla obu rozkładów jest dobra, nie ważne czy rozkład jest normalny czy nie. Dominanta odnosi się zarówno do zmiennej jakościowej jak i ilościowej. Dla zmiennych jakościowych nie można mówić o rozkładzie normalnym.
64.Wnioskowanie statystyczne w regresji logistycznej.
Wnioskowanie statystyczne dotyczy: testowania hipotez, tworzenia przedziałów ufności. Można w tym celu wykorzystać: - testu wskaźnika wiarygodności (statystyka chi - kw) - bada łączną istotność wszystkich szacowanych parametrów - test walda - badanie istotności modelu, łącznej istotności zmiennych, istotności pojedynczego parametru Wnioskowanie statystyczne dokonywane jest na podstawie interpretacji ilorazów szans.
30. Wyjaśnij na czym polega paradoks Simpsona
o Jest to paradoks w którym trend statystyczny wydaje się być obecny, gdy dane są podzielone na odrębne grupy, ale zanika lub odwraca się, gdy dane są rozpatrywane jako całość o Paradoks jest związany z cechą danych zagregowanych, która może pojawiać się w sytuacji, gdy przyczynowe wnioski są wyciągane na różnych poziomach wyjaśnień: od populacji do podgrup lub podgrup do jednostek o Simpson wykazał, że statystyczny związek zaobserwowany w danej populacji - tj. zbiór podgrup lub jednostek może zostać odwrócony we wszystkich podgrupach składających się na tę populacjach
27. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji.
o Próg odcięcia stosuje się w modelach klasyfikacyjnych takich jak regresja logistyczna gdzie wynikiem są wartości ciągłe, do zdecydowania czy dany wynik należy do pewnej klasy lub nie. o Jeśli wynikiem modelu jest prawdopodobieństwo przynależności do pewnej klasy to próg można zastosować do uzyskania dyskretnego klasyfikatora: Jeśli wynik klasyfikatora jest powyżej ustalonego progu , klasyfikator generuje True, w przeciwnym razie False o Wybór optymalnego progu odcięcia będzie zależeć przede wszystkim od typu problemu, który chcemy rozwiązać ponieważ sklasyfikowanie wyniku do niepoprawnej klasy może skutkować wysokim kosztem (np. niezdiagnozowanie choroby) lub utracenia potencjalnych korzyści (np. nieudzielenie kredytu). W wyborze progu odcięcia istotna jest wartość relatywnego kosztu błędów o Bardzo często do wyboru optymalnego progu odcięcia w środowisku uczenia maszynowego stosuje się krzywe ROC, po części ze względu na fakt, że Accuracy jest słabym miernikiem do pomiaru wydajności modeli. o Wykres ROC przedstawia względne kompromisy między korzyściami (True Positive Rate) i kosztami (False Positive Rate)
25. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej.
o Reprodukowalność odnosi się do zdolności badacza do powielania wyników wcześniejszych badaczy przy użyciu tych samych materiałów i procedur, które zostały zastosowane przez pierwotnego badacza o Reprodukowalność prowadzi do szeregu korzyści: - Zwiększa prawdopodobieństwo, że przeprowadzone badania są prawidłowe. - Przestrzeganie zasad reprodukowalności pozwala w łatwy sposób odtworzyć badanie - Możliwość wykorzystania badań przez większą ilość badaczy może mieć pozytywny wpływ na rozwój - Pozwala na wykorzystywanie kodu w innych badaniach
31. Korzyści ekonomiczne z przetwarzania danych w chmurze
o Uniknięcie zakupu kosztownego sprzętu, oprogramowania oraz brak konieczności utrzymywania specjalistycznych pomieszczeń o Szybki dostęp do niezbędnych zasobów IT z dowolnego miejsca o Wysoka skalowalność i wydajność udostępnianych zasobów IT. Klient w zależności od potrzeb może w sposób automatyczny zwiększać lub ograniczać wykorzystywane zasoby co pozwala optymalizować koszty przedsiębiorstwa o Redukcja ryzyka inwestycyjnego w zakresie technologii IT o Relatywnie niższe koszty pozyskania, utrzymania i rozwoju zasobów IT o Większa przewidywalność kosztów IT. Cloud computing jest usługą pozwalającą na precyzyjne określenie kosztów związanych z jej użytkowaniem o Ograniczenie kadry IT o Przeniesienie odpowiedzialności za funkcjonowanie i rozwój zasobów IT na dostawcę.
45. Przedstaw model drzewa decyzyjnego.
• Drzewa decyzyjne znajdują zastosowanie w problemach dotyczących klasyfikacji • Wierzchołek drzewa nazywany jest korzeniem drzewa • Kolejne rozgałęzienia, gdzie dokonywane są podziały nazywane są węzłami • Elementy końcowe, gdzie klasyfikacja ma miejsce to liście drzewa • Za pomocą algorytmu decyzyjnego tworzymy korzeń drzewa i rozdzielamy dane wg. Cechy mającej największy przyrost informacji • Poprzez wielokrotne iteracje możemy powtarzać operację rozdzielania danych w każdym następnym węźle, aż uzyskamy liście •Często dokonuje się przycinania drzewa, określając jego wysokość.
16. Na czym polega MapReduce?
• Jest to framework do łatwego tworzenia programów przetwarzających duże zbiory danych • Pomaga w zwiększeniu wydajności dzięki przetwarzaniu strumieniowemu oraz tworzeniu pipelin'ow • Operacje są realizowane podczas dwóch kroków. Krok map - węzeł nadzorczy. Pobiera dane z wejścia i dzieli na mniejsze pod problemy po czym przesyła je do węzłów roboczych Krok reduce - główny program gromadzi wszystkie odpowiedzi i łączy je w jeden wynik
20. Na czym polega przetwarzanie rozproszone?
• Przetwarzanie rozproszone to dziedzina informatyki, która bada systemy rozproszone • System rozproszony to system, którego składniki znajdują się na różnych komputerach podłączonych do sieci, które komunikują się i koordynują swoje działania poprzez przekazywanie sobie nawzajem komunikatów • Głównym problemem jest łączenie danych odczytywanych z różnych źródeł • Problem jest rozwiązany przez Hadoopa, który jest otwartą platformą programistyczną przeznaczoną do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych • Łączenie danych odbywa się przez paradygmat MapReduce
28. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych.
• Regularyzacja to technika, która wprowadza niewielkie modyfikacje do procesu uczenia modelu, aby ten lepiej uogólniał i zachowywał się podobnie na danych na których nie był trenowany, danych walidacyjnych. Regularyzacja ma na celu kontrolowanie wariancji poprzez dodanie parametru strojenia lambda. • Regularyzacja pomaga jeśli złożoność modelu (liczba zmiennych objaśniających) jest duża relatywnie do liczby obserwacji. Nie usuwa nieistotnych cech ale minimalizuje ich wpływ. • Do popularnych technik regularyzacji zaliczamy: Ridge Regression (gdy wielkość próbki danych jest stosunkowo niewielka, Ridge regression może poprawić wyniki otrzymane na zbiorze walidacyjnym poprzez zmniejszenie uzyskanej wariancji predykcji, dzięki zmniejszeniu wrażliwości prognoz na dane treningowe) - podnosimy parametry do kwadratu Lasso Regression (Bardzo podobny do Ridge regression z tą różnicą, że zamiast podnosić szacowane parametry modelu do kwadratu, obliczamy ich wartości bezwzględne)