Zpracování informací a znalostí - Teorie
?<!
negativní lookbehind
- centroid
Co NESOUVISÍ s algoritmy pro rozhodovací stromy? - centroid - C4.5 - míra dobroty - poměrný informační zisk
- pomlčka
Co není v regexu kvantifikátor? - otazník - pomlčka - plus - hvězdička
Totožná s maticí S
Jakou bude vypadat Google matice při dumping faktoru 1?
- *\w{3,5}
Jaký regex je chybný? - \\ - a(\^2)? - *\w{3,5} - [^1-3]
menších nebo rovno 1
Normalizovaná term frekvence může nabývat hodnot?
- 10
Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0. Kolik je celkem zaindexovaných dokumentů? - 10 - log10 - 10*10 - žádná z předchozích
domain
Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární výraz rozpozná v textu: [email protected]? - name@domain - žádné z uvedených - domain - domain
- \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}
Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu, upravte tak, aby třetí byte byl vždy stejný jako druhý? - \d{1,3}\.(\d{1,3})\.\1\.\d{1,3} - (\d{1,3}\.){2}\d{1,3}\.\d{1,3} - (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3} - (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}
- algoritmus může provádět "backtracking" (pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu může vrátit a změnit ho)
Co neplatí o algoritmu ID3? - algoritmus vybere jako kořenový uzel stromu atribut s nejpříznivější hodnotou použité míry dobroty (goodness) - algoritmus negarantuje nalezení optimálního řešení - algoritmus je postaven na žravém principu, pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu již nemůže vrátit a změnit ho - algoritmus může provádět "backtracking" (pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu může vrátit a změnit ho)
- Predikát tvrzení musí být identifikován pomocí URL adresy. - Subjekt tvrzení musí být identifikován pomocí URL adresy. - Předmět tvrzení může být identifikován pomocí URL adresy.
Co platí o tvrzeních v jazyce RDF? - Predikát tvrzení musí být identifikován pomocí URL adresy. - RDF tvrzení se sestávají ze subjektu, objektu a předmětu. - Subjekt tvrzení musí být identifikován pomocí URL adresy. - Předmět tvrzení může být identifikován pomocí URL adresy.
- konec řádku
Co rozpozná regex výraz $ pokud je aktivován režim multiline? - konec řádku - začátek řádku - konec řetězce - začátek řetězce
- začátek řádku
Co rozpozná regex výraz ^ pokud je aktivován režim multiline? - konec řádku - začátek řádku - konec řetězce - začátek řetězce
01000
Co rozpozná regulární výraz 00*?10+ v řetězci 1010001001? - celý řetězec - 01000 - 01001 - 101000
- informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má normalizační cosi, který to řeší
Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od informačního zisku ID3? - informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má normalizační cosi, který to řeší - umožňuje zpracovat spojité atributy - zaručuje optimální řešení - poměr informačního zisku kořenového a cílového atributu
- všechny uvedené hodnoty jsou pro JSON validní
Jaká JSON hodnota je nevalidní? - 1.5 - 1500 - ["a","b","c"] - všechny uvedené hodnoty jsou pro JSON validní
[1,2,3,4,5]
Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON? - [1,2,3,4,5] - (1,2,3,4,5) - <1,2,3,4,5> - {1,2,3,4,5}
- prázdný element <email/>
Jaká z následujících syntaxí je v XML povolena: - prázdný element <email/> - vyhrazené znaky uvnitř element, např.? <text> < </text> -křížení tagů, např. <pane><text></pane></text> - neuzavřené tagy, např. <br>
- výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů
Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je NEPRAVDIVÉ? - výsledkem algoritmu je přiřazení do právě 1 shluku - na začátku výpočtu je nutné zvolit počet clusterů - výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů - žádná z předchozích
- výsledek je vždy jednoznačný - nezávisí na volbě počátečních centroidů
Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé: - výsledkem algoritmu je přiřazení každé instance do právě jednoho z k shluků - na začátku výpočtu je nutné zvolit počet clusterů - výsledek je vždy jednoznačný - nezávisí na volbě počátečních centroidů - žádná z předchozích možností
- pozitivní lookahead
Jaký je název pro syntaktický konstrukt (?=b)? - atomické seskupování - pozitivní lookbehind - pozitivní lookahead - posesivní kvatifikátor
- .(abc)
Jaký regex je totožný s (?>.)abc - .(abc) - .abc - .?abc - (.?:)abc
- k definici vizuální reprezentace informací obsažených v XML doku
K čemu NESLOUŽÍ jazyk XML Schema? - k popsání struktury XML doku - k definici vizuální reprezentace informací obsažených v XML doku - k definici omezení na obsah elementů v XML doku - k definici povolených elementů v XML dokumentu
- obsahuje záznamy, jeden záznam může být na více řádcích
Které tvrzení o formátu CSV není pravdivé? - každý záznam obsahuje stejné pole ve stejném pořadí - je možno použít libovolné kódování - obsahuje záznamy, jeden záznam může být na více řádcích - není možné vyjádřit relace mezi záznamy
- všechna níže uvedená tvrzení jsou pravdivá
Které tvrzení o přeučení není pravdivé: - všechna níže uvedená tvrzení jsou pravdivá - při prořezávání na zadržených (hold out) datech se pro prořezávání stromu nepoužívají trénovací data - jedním z algoritmů pro prořezávání je Reduced Error Pruning - "Resubstition error" je zvýšení chyby stromu na trénovacích datech
- Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšı́ho spádu. //nedohledala jsem, jestli to je 100% správně
Které tvrzení vztahující se k logistické regresi JE pravdivé? Asi - Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními proměnnými, ale pro využití takových proměnných lze využít transformaci na dummy proměnné. - Logistická regrese nepracuje přímo s vícehodnotovými numerickými proměnnými, ale pro využití takových proměnných lze využít transformaci na dummy proměnné. - Parametry modelu logistické regrese je možné získat pomocı́ metody nejmenších čtverců (normální rovnice). - Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšı́ho spádu.
- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol //preferovaným formátem propojených dat je jinak RDF
Které z uvedených patří mezi zásady pro zveřejňování propojených dat? - Preferovaným formátem pro propojená data je XML Schema. - Preferovaným formátem pro propojená data je JSON. - Preferovaným formátem pro propojená data je CSV. - Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol
matice incidence
Který z následujících termínů NESOUVISÍ s problematikou PageRanku? - matice incidence - konvergenční kritérium - rank sink - náhodný surfař - žádná z předchozích
- "id", "produkt" "1","káva""super"
Který z uvedených CSV dokumentů je syntakticky správně? - "id", "produkt" "1","káva\"super" - "id", "produkt" "1","káva"super" - id, produkt 1,káva"super - "id", "produkt" "1","káva""super"
- Strom má malou hloubku
Který z uvedených popisů necharakterizuje přeučený rozhodovací strom? - Strom má velký počet listových uzlů - Strom má velkou hloubku - Strom má malou hloubku - Strom klasifikuje trénovací instance s výrazně menší chybou než testovací instance
- cdeabcXabc
Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná? - cdeabcXabc - cdeabcXabcabc - abc - výraz selže
- baaa
Máme regex b?(aaa)+? co rozpozná v aabaaaaa? - nic - aa za béčkem - baaa - aa na začátku
- Matice G je hustší než matice H
Označme symbolem G matici celého Internetu, symbolem H příslušnou matici H pro celý Internet. Jaké z uvedených tvrzení je pravdivé? - Matice G je hustší než matice H - Matice G může být v některých případech řidší než matice H, v jiných případech hustší - Matice G je řidší než matice H - Matice G je stejně hustá jako matice H
- odstranění tvrdosti booleovských operací patří mezi důvody rozšiřování //*pozn. zbytek tam patří, toto ne
Pro rozšiřování Booleovského modelu vyhledávání dokumentů platí? - řazení vybraných dokumentů podle důležitosti nepatří mezi důvody rozšiřování Booleovského modelu - rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody rozšiřování Booleovského modelu - odstranění tvrdosti booleovských operací patří mezi důvody rozšiřování Booleovského modelu - žádná z předchozích
- minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové
Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že? - minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové - žádná z předchozích - maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové - maximalizují vnitroshlukové vzdálenosti i mezishlukové
- 5. w?w
Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý? - 9. 9a1 - žádný z uvedených - 5. w?w - 8.klk
- žádná z předchozích
Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude centroid? - [12,15,9] - [4,4,0] - žádná z předchozích
- nejméně 1x
Uvažujte element "produkt", který je definován v XML Schema pomocí xs:element. V definici je uvedena hodnota atributu maxOccurs "unbounded" a hodnota atributu minOccurs není uvedena. Kolikrát se element produkt musí dle této definice na patřičném místě dokumentu vyskytnout? - nejméně 0x - nejvíce 1x - právě jednou - nejméně 1x
Pokud jsou všechny hodnoty T(ANO) nebo všechny hodnoty F(NE)
V jakém případě je entropie rovna 0?
Pokud jsou hodnoty ANO a NE přesně v poměru 1:1
V jakém případě je entropie rovna 1?
V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kategoriální.
Vyberte jen jednu z následujících možných odpovědí? - V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kvantitativní. - V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kategoriální. - V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je výstupní proměnná kategoriální. - V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je výstupní proměnná kvantiativní.
?!
negativní lookahead
?=
pozitivní lookahead
?<=
pozitivní lookbehind
nulové řádky jsou nahrazeny vektorem 1/n*eT, kde n je počet řádků/sloupců matice
úprava matice H na matici S
G = α*S + ( 1 - α ) * 1/n α = damping faktor
úprava matice S na matici G
- žádná z předchozích možností
Geometrické rozšíření booleovského modelu vyhledávání dokumentů neumožňuje: - řadit vybrané dokumenty podle důležitosti - rozlišit důležitost deskriptorů dotazu - odstranit tvrdost booleovských operací - žádná z předchozích možností
- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je první ve výsledcích
Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz byl algoritmus PageRank navržen? - Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je první ve výsledcích - Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score - Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance stránky na daný dotaz - Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je poslední ve výsledích