Zpracování informací a znalostí - Teorie

Ace your homework & exams now with Quizwiz!

?<!

negativní lookbehind

- centroid

Co NESOUVISÍ s algoritmy pro rozhodovací stromy? - centroid - C4.5 - míra dobroty - poměrný informační zisk

- pomlčka

Co není v regexu kvantifikátor? - otazník - pomlčka - plus - hvězdička

Totožná s maticí S

Jakou bude vypadat Google matice při dumping faktoru 1?

- *\w{3,5}

Jaký regex je chybný? - \\ - a(\^2)? - *\w{3,5} - [^1-3]

menších nebo rovno 1

Normalizovaná term frekvence může nabývat hodnot?

- 10

Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0. Kolik je celkem zaindexovaných dokumentů? - 10 - log10 - 10*10 - žádná z předchozích

domain

Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární výraz rozpozná v textu: [email protected]? - name@domain - žádné z uvedených - domain - domain

- \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}

Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu, upravte tak, aby třetí byte byl vždy stejný jako druhý? - \d{1,3}\.(\d{1,3})\.\1\.\d{1,3} - (\d{1,3}\.){2}\d{1,3}\.\d{1,3} - (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3} - (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}

- algoritmus může provádět "backtracking" (pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu může vrátit a změnit ho)

Co neplatí o algoritmu ID3? - algoritmus vybere jako kořenový uzel stromu atribut s nejpříznivější hodnotou použité míry dobroty (goodness) - algoritmus negarantuje nalezení optimálního řešení - algoritmus je postaven na žravém principu, pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu již nemůže vrátit a změnit ho - algoritmus může provádět "backtracking" (pokud je jednou do stromu přidán atribut jako rozhodovací uzel, algoritmus se k němu může vrátit a změnit ho)

- Predikát tvrzení musí být identifikován pomocí URL adresy. - Subjekt tvrzení musí být identifikován pomocí URL adresy. - Předmět tvrzení může být identifikován pomocí URL adresy.

Co platí o tvrzeních v jazyce RDF? - Predikát tvrzení musí být identifikován pomocí URL adresy. - RDF tvrzení se sestávají ze subjektu, objektu a předmětu. - Subjekt tvrzení musí být identifikován pomocí URL adresy. - Předmět tvrzení může být identifikován pomocí URL adresy.

- konec řádku

Co rozpozná regex výraz $ pokud je aktivován režim multiline? - konec řádku - začátek řádku - konec řetězce - začátek řetězce

- začátek řádku

Co rozpozná regex výraz ^ pokud je aktivován režim multiline? - konec řádku - začátek řádku - konec řetězce - začátek řetězce

01000

Co rozpozná regulární výraz 00*?10+ v řetězci 1010001001? - celý řetězec - 01000 - 01001 - 101000

- informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má normalizační cosi, který to řeší

Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od informačního zisku ID3? - informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má normalizační cosi, který to řeší - umožňuje zpracovat spojité atributy - zaručuje optimální řešení - poměr informačního zisku kořenového a cílového atributu

- všechny uvedené hodnoty jsou pro JSON validní

Jaká JSON hodnota je nevalidní? - 1.5 - 1500 - ["a","b","c"] - všechny uvedené hodnoty jsou pro JSON validní

[1,2,3,4,5]

Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON? - [1,2,3,4,5] - (1,2,3,4,5) - <1,2,3,4,5> - {1,2,3,4,5}

- prázdný element <email/>

Jaká z následujících syntaxí je v XML povolena: - prázdný element <email/> - vyhrazené znaky uvnitř element, např.? <text> < </text> -křížení tagů, např. <pane><text></pane></text> - neuzavřené tagy, např. <br>

- výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů

Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je NEPRAVDIVÉ? - výsledkem algoritmu je přiřazení do právě 1 shluku - na začátku výpočtu je nutné zvolit počet clusterů - výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů - žádná z předchozích

- výsledek je vždy jednoznačný - nezávisí na volbě počátečních centroidů

Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé: - výsledkem algoritmu je přiřazení každé instance do právě jednoho z k shluků - na začátku výpočtu je nutné zvolit počet clusterů - výsledek je vždy jednoznačný - nezávisí na volbě počátečních centroidů - žádná z předchozích možností

- pozitivní lookahead

Jaký je název pro syntaktický konstrukt (?=b)? - atomické seskupování - pozitivní lookbehind - pozitivní lookahead - posesivní kvatifikátor

- .(abc)

Jaký regex je totožný s (?>.)abc - .(abc) - .abc - .?abc - (.?:)abc

- k definici vizuální reprezentace informací obsažených v XML doku

K čemu NESLOUŽÍ jazyk XML Schema? - k popsání struktury XML doku - k definici vizuální reprezentace informací obsažených v XML doku - k definici omezení na obsah elementů v XML doku - k definici povolených elementů v XML dokumentu

- obsahuje záznamy, jeden záznam může být na více řádcích

Které tvrzení o formátu CSV není pravdivé? - každý záznam obsahuje stejné pole ve stejném pořadí - je možno použít libovolné kódování - obsahuje záznamy, jeden záznam může být na více řádcích - není možné vyjádřit relace mezi záznamy

- všechna níže uvedená tvrzení jsou pravdivá

Které tvrzení o přeučení není pravdivé: - všechna níže uvedená tvrzení jsou pravdivá - při prořezávání na zadržených (hold out) datech se pro prořezávání stromu nepoužívají trénovací data - jedním z algoritmů pro prořezávání je Reduced Error Pruning - "Resubstition error" je zvýšení chyby stromu na trénovacích datech

- Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšı́ho spádu. //nedohledala jsem, jestli to je 100% správně

Které tvrzení vztahující se k logistické regresi JE pravdivé? Asi - Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními proměnnými, ale pro využití takových proměnných lze využít transformaci na dummy proměnné. - Logistická regrese nepracuje přímo s vícehodnotovými numerickými proměnnými, ale pro využití takových proměnných lze využít transformaci na dummy proměnné. - Parametry modelu logistické regrese je možné získat pomocı́ metody nejmenších čtverců (normální rovnice). - Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšı́ho spádu.

- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol //preferovaným formátem propojených dat je jinak RDF

Které z uvedených patří mezi zásady pro zveřejňování propojených dat? - Preferovaným formátem pro propojená data je XML Schema. - Preferovaným formátem pro propojená data je JSON. - Preferovaným formátem pro propojená data je CSV. - Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol

matice incidence

Který z následujících termínů NESOUVISÍ s problematikou PageRanku? - matice incidence - konvergenční kritérium - rank sink - náhodný surfař - žádná z předchozích

- "id", "produkt" "1","káva""super"

Který z uvedených CSV dokumentů je syntakticky správně? - "id", "produkt" "1","káva\"super" - "id", "produkt" "1","káva"super" - id, produkt 1,káva"super - "id", "produkt" "1","káva""super"

- Strom má malou hloubku

Který z uvedených popisů necharakterizuje přeučený rozhodovací strom? - Strom má velký počet listových uzlů - Strom má velkou hloubku - Strom má malou hloubku - Strom klasifikuje trénovací instance s výrazně menší chybou než testovací instance

- cdeabcXabc

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná? - cdeabcXabc - cdeabcXabcabc - abc - výraz selže

- baaa

Máme regex b?(aaa)+? co rozpozná v aabaaaaa? - nic - aa za béčkem - baaa - aa na začátku

- Matice G je hustší než matice H

Označme symbolem G matici celého Internetu, symbolem H příslušnou matici H pro celý Internet. Jaké z uvedených tvrzení je pravdivé? - Matice G je hustší než matice H - Matice G může být v některých případech řidší než matice H, v jiných případech hustší - Matice G je řidší než matice H - Matice G je stejně hustá jako matice H

- odstranění tvrdosti booleovských operací patří mezi důvody rozšiřování //*pozn. zbytek tam patří, toto ne

Pro rozšiřování Booleovského modelu vyhledávání dokumentů platí? - řazení vybraných dokumentů podle důležitosti nepatří mezi důvody rozšiřování Booleovského modelu - rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody rozšiřování Booleovského modelu - odstranění tvrdosti booleovských operací patří mezi důvody rozšiřování Booleovského modelu - žádná z předchozích

- minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové

Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že? - minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové - žádná z předchozích - maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové - maximalizují vnitroshlukové vzdálenosti i mezishlukové

- 5. w?w

Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý? - 9. 9a1 - žádný z uvedených - 5. w?w - 8.klk

- žádná z předchozích

Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude centroid? - [12,15,9] - [4,4,0] - žádná z předchozích

- nejméně 1x

Uvažujte element "produkt", který je definován v XML Schema pomocí xs:element. V definici je uvedena hodnota atributu maxOccurs "unbounded" a hodnota atributu minOccurs není uvedena. Kolikrát se element produkt musí dle této definice na patřičném místě dokumentu vyskytnout? - nejméně 0x - nejvíce 1x - právě jednou - nejméně 1x

Pokud jsou všechny hodnoty T(ANO) nebo všechny hodnoty F(NE)

V jakém případě je entropie rovna 0?

Pokud jsou hodnoty ANO a NE přesně v poměru 1:1

V jakém případě je entropie rovna 1?

V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kategoriální.

Vyberte jen jednu z následujících možných odpovědí? - V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kvantitativní. - V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je výstupní proměnná kategoriální. - V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je výstupní proměnná kategoriální. - V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je výstupní proměnná kvantiativní.

?!

negativní lookahead

?=

pozitivní lookahead

?<=

pozitivní lookbehind

nulové řádky jsou nahrazeny vektorem 1/n*eT, kde n je počet řádků/sloupců matice

úprava matice H na matici S

G = α*S + ( 1 - α ) * 1/n α = damping faktor

úprava matice S na matici G

- žádná z předchozích možností

Geometrické rozšíření booleovského modelu vyhledávání dokumentů neumožňuje: - řadit vybrané dokumenty podle důležitosti - rozlišit důležitost deskriptorů dotazu - odstranit tvrdost booleovských operací - žádná z předchozích možností

- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je první ve výsledcích

Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz byl algoritmus PageRank navržen? - Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je první ve výsledcích - Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score - Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance stránky na daný dotaz - Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je poslední ve výsledích


Related study sets

Micro Chapter 13: Labor Markets, Poverty, & Income Distribution

View Set

Unit 4 AP Classroom Questions APUSH

View Set

Astronomy Test 2 Flashcards Ch. 1.3-2.7

View Set

جميع دول العالم وعواصمها حسب القارات

View Set

musculoskeletal, breast Pathology

View Set

final study guide cset i study guide

View Set