AI parcial2

Ace your homework & exams now with Quizwiz!

¿Qué significa resolver un juego?.

- Encontrar un valoración para el nodo inicial. - Determinar una estrategia ganadora para MAX o para MIN.

Sobreajuste (overfitting)

A encontrar "regularidades" poco significativas en los datos. Se dice que una hipótesis h se sobreajusta al conjunto de entrenamiento si existe alguna otra hipótesis h' tal que el error de h es menor que el de h' sobre el conjunto de entrenamiento, pero es mayor sobre la distribución completa de ejemplos del problema (entrenamiento + test).

La simulación de procesos naturales es un campo de investigación muy amplio en Inteligencia Artificial. Ejemplos;

Algoritmos genéticos. Algoritmos basados en Colonias de Hormigas. Algoritmos basados en inteligencia de enjambres.

Ejemplo de juego; El dilema del prisionero

Es un juego bipersonales con información imperfecta. Dos individuos son detenidos por la policía. Si ninguno confiesa, ambos irán a la cárcel por 2 años, pero si uno delata a su compañero y el otro no, entonces al que confiesa le absuelven y al otro le encierran por 10 años. Si ambos confesasen, entonces la pena se repartiría y ambos irían a prisión por 5 años.

¿Qué es una función heurística? ¿Para qué se usa?

Las funciones heurísticas son la forma más común de transmitir el conocimiento adicional del problema al algoritmo de búsqueda. Se utilizan para intentar minimizar el número de nodos expandidos para llegar a la solución cuando se utiliza un conocimiento extra sobre el problema además de su planteamiento.

An heuristic technique

Las heurísticas son criterios, métodos o principios para decidir cuál de entre varias acciones promete ser la mejor para alcanzar una determinada meta. An approach to problemsolving not guaranteed to be optimal but sufficient for reaching an immediate goal. Una heurística puede devolver siempre soluciones óptimas bajo ciertas condiciones

Un algoritmo genético como forma los hijos

Los estados sucesores se generan combinando dos estados padres, más que modificar un solo estado.

Describe bajo que condiciones enfriamiento simulado väljer att byta till estado peor

När den är på ett maximum så byter den enligt sannolikheten; P = e^deltaE/T. Alltså skillnaden i energi mellan noderna och tiden som gått. ju högre tid som har gått (högre energi) och desto lägre skillnaden är i energi desto större är chansen att man stannar.

Algoritmo de enfriamiento simulado (simulated annealing)

Optimazation heuristic. Hay diferentes metodos para obtener la solución inicial (por ejemplo Greedy), el T (por ejemplo T = 1/(1+k), k = número de iteraciones), o el número de vecinos a generar. Tanto la temperatura inicial como la temperatura final Ti y Tf son parámetros de entrada al algoritmo. Es difícil asignar un valor concreto a Tf, por lo que la condición de parada se suele sustituir por un número específico de iteraciones a realizar.

función ponderada lineal,

una clase de función de evaluación donde cada wi es un peso y cada fi es una característica de la posición. Para el ajedrez, los fi podrían ser los números de cada clase de piezas sobre el tablero

Aprendizaje supervisado vs no supervisado

- Aprendizaje supervisado: Aprender una función a partir de ejemplos de sus entradas y salidas. - Aprendizaje no supervisado: Aprender a partir de patrones de entradas para los que no se especifican los valores de su salidas.

Componentes de un juego

- Estado inicial - Función sucesor - Test minimal (que determina si se ha llegado a un estado terminal.) - Función de utilidad/evaluación ( da un valor numérico a los estados terminales.)

Ejemplo T,P,E; Aprendizaje de reconocimiento de caracteres de escritos a mano

- T: reconocer y clasificar palabras escritas a mano a través de imágenes. - P: % de palabras correctamente clasificadas. - E: una base de datos de palabras escritas a mano con su correspondiente clasificación.

múltiples maneras a crear el árbol

- Trivial: se crea una ruta del árbol por cada instancia de entrenamiento. (grande, no funcionan bien con instancias nuevas.) - Optimo: el árbol más pequeño posible compatible con todas las instancias (navaja de Ockham). - Pseudooptimo (heurístico): selección del atributo en cada nivel del árbol en función de la calidad de la división que produce.

how measure complexity of game

- state-space complexity of a game is the number of legal game positions reachable from the initial position of the game - Search depth

¿Qué relación hay entre el árbol del juego y un árbol Y/O?

And-or trees can also be used to represent the search spaces for two-person games. MAX-nodes (i.e. maximizing player to move) are represented as OR nodes, MIN-nodes map to AND nodes.

Aprendizaje inductivo / de ejemplos

Aprendizaje supervisado. El objetivo es aprender la función f. (hitta en funktion för sambandet tex) Problema: encontrar una hipótesis h tal que h=f sobre los conjuntos del ejemplos de entrenamiento. h(n) = c1x1(n) + c2x2(n)

hur många nodos sparas som mest i ; BFS DFS Descanso Iterativo Retroactivo

BFS; alla, m^d +1 DFS; m*d +1 Descanso iterativo; m*d +1 Retroactivo; En memoria sólo guardamos un hijo de cada estado. annars som dfs.

Describe cómo se debe codificar un estado si usamos un algoritmo genético

Comienzan con un conjunto de k estados generados aletaoriamente, llamados población. Cada estado, o individuo, está representado como una cadena de números.

¿Cómo podemos establecer un algoritmo para saber si un jugador podrá o no ganar un juego a partir de una situación inicial dada?

Con el minimax. MAX: primer jugador MIN: segundo jugador Los nodos terminales se etiquetan con V, D o E desde el punto de vista de MAX Idea básica: explorar suficientes nodos para poder llegar a una decisión aceptable.

Función de valoración (función de utilidad);

Devuelve un valor numérico para estados terminales. Ajedrez (V,D,E o +1, -1, 0). En otros juegos hay variedad de posibles resultados (por ejemplo puntos ganados...).

Juegos como problema de búsqueda; Función sucesor

Devuelve una lista de pares (movimiento, estado), cada una indicando un movimiento legal y el estado resultante.

Juegos como problema de búsqueda; Estado inicial

Donde se representa la posición inicial del tablero y se identifica el jugador que mueve.

Ejemplo Árboles de decisión

El conjunto de ejemplos completo se denomina conjunto de entrenamiento.

hur jobbade deep blue

El corazón de la máquina es una búsqueda alfa-beta estándar de profundidad iterativa. använde mängder av exempel från tidigare matcher och tusentales variabler i funcion evaluacion

Àrbol del juego

El estado inicial más todos los movimientos legales forman un árbol de juego.

Ejemplos de juegos bipersonales con información perfecta.

El juego de los palillos (tändstickor), ajedrez, go.

peeking

El motivo es que la hipótesis ha sido seleccionada tomando como base su calidad sobre el conjunto de test, por lo tanto, se ha filtrado información sobre el conjunto de test en el algoritmo de aprendizaje. algoritmen har testat sig själv på just testdatat. Alltså kan den redan datan, den borde testa sig själv på ny data.

Como las heurísticas son usados en AI?

En IA, implementaremos heurísticas como funciones que devuelven un valor numérico, cuya maximización o minimización guiará al proceso de búsqueda a la solución. (I bilden vill antalet rutor på fel plats förminskas)

¿En qué consiste el aprendizaje por refuerzo?

En el aprendizaje por refuerzo los objetivos se expresan mediante una función de recompensa que asigna valores enteros a las acciones que ejecuta el agente. Los valores positivos informan al agente de que ha ejecutado una acción buena, mientras que los negativos le informan de lo contrario. Mediante este proceso, el agente aprende qué acciones son las buenas y cuáles las malas.

Describe el proceso de validación cruzada

En el proceso de la validación cruzada dividimos los datos en particiones de tamaño k, elegimos una partición cómo test y las restantes como ejemplos, obtenemos la valoración que nos devuelve y vamos rotando las particiones test y ejemplo.

Juegos de suma nula (zero-sum games):

En la situación final el beneficio de un jugador es total y la pérdida del oponente es total, o hay empate (tie). Es decir las valoraciones de los estados finales del juego son iguales o opuestas. Hay situaciones finales en las que se distribuyen las pérdidas y ganancias. (schack matt)

Inconvenientes con algoritmo de enfriamiento simulado.

Encontrar la temperatura inicial Ti, el método de actualización de temperatura α, el número de vecinos a generar en cada estado y el número de iteraciones óptimo es una tarea que requiere de muchas pruebas de ensayo y error hasta que ajustamos los parámetros óptimos.

Hay dos tipos de entornos multiagentes

Entorno cooperativo; agentes trabajan para alcanzar un objetivo común Entorno competitivo; el objetivo de cada agente entra en conflicto con los del resto.

Un juego de información perfecta

Es aquel en los jugadores tienen a su disposición toda la información de la situación del juego.

Minimax; El valor V(J) de un nodo J de la frontera de búsqueda es igual al;

Es igual al de su evaluación estática; Si J es un nodo MAX, entonces su valor V(J) es igual al máximo de los valores de sus nodos sucesores. Si J es un nodo MIN, entonces su valor V(J) es igual al mínimo de los valores de sus nodos sucesores.

Juegos como problema de búsqueda; Test terminal

Función que determina cuándo un juego ha finalizado. Los estados donde el juego finaliza se llaman estados terminales.

Grafo Y

För att slutföra A, så måste B och C slutföras först. B*C -> A

Grafo O

För att slutföra A, så måste antingen B eller C slutföras först. B + C -> A

Algoritmo de escalada por la máxima pendiente

Greedy, undersöker alla riktningar och går åt hållet med högst lutning. rápido y útil si la función es monótona (de)creciente.

Metodos para búsqueda con información

Heurísticas Métodos de escalada Búsqueda primero el mejor

Grafo Y/O

Kombination av grafer Y / O vilka bestämmer ordningen av las tareas. Para seleccionar el orden de resolución de nodos hijos, se puede utilizar alguna medida de estimación del coste de resolución.

¿En qué consiste la búsqueda dirigida?

La búsqueda dirigida es un tipo de búsqueda del tipo A* en la que se especifica un factor de ramificación K, de modo que se limita el número de nodos vecinos que se expande en cada nivel seleccionando los n mejores.

La ganancia de información

La ganancia de información del atributo de test es la diferencia entre la necesidad de información original y la nueva necesidad de información:

hipótesis consistente

La hipótesis se dice consistente ya que satisface a todos los datos.

Árboles de decisión

La inducción con árboles de decisión es uno de los métodos más sencillos y con más éxito para construir algoritmos de aprendizaje. Un árbol de decisión toma como entrada un objeto o una situación descrita a través de un conjunto de atributos y devuelve una "decisión". • Atributos: discreto o continuos. • Salida: - Discreta: clasificación. - Continua: regresión.

¿Qué caracteriza a los algoritmos genéticos como métodos de escalada? Detalla las características comunes y las que los hacen diferentes del resto.

Mainly, hill climbers and other local optimization algorithms like simulated annealing find paths and locally-best solutions. Genetic algorithms can search the entire space and jump between places (via mutación and crossover(cruce), allowing them to find global solutions. A genetic search is a random search, whereas the hill-climber search is not. One of the tradeoffs of using a genetic search is that it could arguably be more resistant to getting trapped in a local extremum, at the cost of potentially failing to even find a maximum or minimum if it doesn't go through enough iterations.

Vad för svårigheter finns det?

Man har inte alltid tillräckligt information från omgivningen, man har inte alltid tillräcklig information om effekterna av sina aktioner, kan finnas andra agenter. Omvärlden kan förändras under bearbetningen av info. Minnet kan vara för litet för att kunna söka allt man vill söka.

Aprendizaje supervisado, Métodos basados en instancias:

Métodos basados en instancias: construyen hipótesis directamente a partir de las propias instancias de entrenamiento. Cuantos más datos tengamos, más compleja puede ser la hipótesis. - El resultado es un método de acceso/asociación entre las nuevas entradas y los ejemplos ya conocidos.

¿Cómo elegir entre múltiples hipótesis consistentes?

Navaja de Ockham: elegir la hipótesis más simple consistente con los datos. Todos los posibles funciones sa llaman Espacio de hipótesis.

Tidskomplexitet Alpha beta

O(n^d), om ingenting kan pruneas. Samma tidskomplexitet för minimax.

La regla minimax

Om du har en nodo hoja J och vill få fram värdet på den under sökprocessen. Då är V(J) = evaluación estática. Es decir. Om de är en maxnod så är värdet lika med maximala värdet av dess barn. Om det är en minnod så är värdet lika med minimala värdet av dess barn.

Algorithm A*

One of the best and popular technique used in path-finding and graph traversals. Välj nod från abiertos med lägst f. f = totala uppskattade kostnaden från start till mål genom nod.

algoritmos genético, ejemplo; Cromosoma que codifica una solución a un problema.

Población = conjunto de soluciones.

Juegos (en este contexto)

Problemas de búsqueda en entornos multiagente competitivos.

Que es aprendizaje automático

Programas que mejoran su comportamiento con la experiencia. Formellt; Un programa de ordenador se dice que aprende de la experiencia E con respecto a alguna clase de tareas T y a alguna medida de comportamiento P, si su comportamiento en tareas de T, medido a través de P, mejora con la experiencia E.

En algoritm STATUS(J) som säger om en nod är vinst eller ej

Si J es un nodo MAX no terminal, entonces STATUS(J) = - V si alguno de los sucesores de J tiene STATUS V - D si todos los sucesores de J tienen STATUS D - E en otro caso

Que son algoritmos genéticos?

Son algoritmos de optimización basados en el proceso de la evolución natural de Darwin. Su objetivo es encontrar una solución cuyo valor de función objetivo sea óptimo.

¿Qué son los valores perdidos en un problema de aprendizaje inductivo?

Son atributos de nuestros ejemplos de los cuales no poseemos información. Por ejemplo en la ficha de un paciente no tenemos información de su sexo.

Algoritmen Poda Alfa-Beta explained in english

The algorithm maintains two values, alpha and beta, which represent the minimum score that the maximizing player is assured of and the maximum score that the minimizing player is assured of respectively. Initially, alpha is negative infinity and beta is positive infinity, i.e. both players start with their worst possible score. Whenever the maximum score that the minimizing player (i.e. the "beta" player) is assured of becomes less than the minimum score that the maximizing player (i.e., the "alpha" player) is assured of (i.e. beta ≤ alpha), the maximizing player need not consider further descendants of this node, as they will never be reached in the actual play.

Porque usa los algoritmos A*?

To approximate the shortest path in situations where there can be many hindrances. Smarter than other conventional algorithms.

Que juegos tienen solución?

Todo juego con información perfecta tiene solución.

Algoritmen Poda Alfa-Beta beskriven

Tre steg. 1. Si J es un nodo terminal, devolver V(J)=f(J). En otro caso, sean J1,...,Jk,...,Jb los sucesores de J. 2 (om max). 2.1. Hacer alfa <- max(alfa, V(Jk,alfa,beta)). 2.2. Si alfa >= beta devolver beta (¡criterio de poda!); si no, continuar 2.3. Si k=b, devolver alfa; si no, hacer k <- k+1 y volver al paso 2. 3 (om min). 3.1. Hacer beta <- min(beta, V(Jk,alfa,beta)). 3.2. Si beta <= alfa devolver alfa (¡criterio de poda!); si no, continuar 3.3. Si k=b, devolver beta; si no, hacer k <- k+1 y volver al paso 5.

¿Cuál es la definición de heurística admisible?

Una heurística es admisible si nunca sobreestima el costo de alcanzar el objetivo, o sea, que en el punto actual la estimación del costo de alcanzar el objetivo nunca es mayor que el menor costo posible.

Algoritmo de escalada simple

Undersöker en riktning i taget, ifall undersökt riktning har bättre värde så går den dit, tar ej hänsyn till att kan finnas grannar med högre lutning.

Algoritmos genéticos; mutación.

Uno o más genes de un individuo pueden mutar para generar una nueva solución. En la población, hay una probabilidad dada a priori de que un individuo pueda mutar.

El efecto horizonte

When evaluating a large game tree using techniques such as minimax with alpha-beta pruning, search depth is limited for feasibility reasons. However, evaluating a partial tree may give a misleading result. When a significant change exists just over the horizon of the search depth, the computational device falls victim to the horizon effect.

When is Algoritmo de enfriamiento simulado (simulated annealing) used?

When having to find to maxi/minimize function with n variables (more than possible to calculate by hand)

It is impossible in some games to explore the entire tree down to the terminating nodes. How to resolve this?

With the use of heuristics

realizable / irrelizable

aprendizaje es realizable si el espacio de hipótesis contiene a la función verdadera; en otro caso, se dice que es irrealizable.

Diferencia entre árbol de búsqueda del juego y árbol teórico de juego.

árbol teórico de juego är alla möjliga spelmöjligheter från din punkt tills spelet är slut, det är för stort för att simulera så det man faktiskt räknar fram i memoria kallas árbol de búsqueda del juego och är ett delträd av det teoretiska.

hur ser ett spelträd ut när även chans är inblandat (typ ett tärningskast)

blir som en tredje spelare

Atributos multivaluados

cuando un atributo tiene muchos valores posibles, la ganancia de información proporciona una indicación inapropiada de su utilidad. En el caso extremo, se podría utilizar un atributo, como NombreRestaurante, que tenga un valor diferente para cada ejemplo. En este caso, cada subconjunto de ejemplos tendrá un único elemento con una única clasificación, por lo tanto la medida de ganancia de información tendrá su máximo valor para este atributo.

Ruido

dos o más ejemplos con la misma descripción (en términos de atributos) pero diferentes clasificaciones.

Juegos con incertidumbre

ett spel där det inte finns perfekt information. för att anpassa minimax för detta räkna med sannolikhet också.

A* algoritm

exakt som uniform cost search fast man räknar även med heuristiken h. Dvs säga välj den i abiertos med lägst f = g + h.

poda hacia delante

för att kunna öka depthen, podamos inmediatamente algunos movimientos de un nodo. Claramente, la mayoría de la gente que juega al ajedrez sólo considera unos pocos movimientos de cada posición

Algorithm A*; define g and h.

g = the movement cost to move from the starting point to a given square on the grid, following the path generated to get there. h = the estimated movement cost to move from that given square on the grid to the final destination. Calculated by an heuristic usually since exact calculations are time-consuming. f = g + h.

tabla de transposición

man sparar estados man redan har vart i för att undivka upprepning, likt cerrados i annan busqueda

olika sätt att uppskatta h

manhattan distance (i bilden) eller tillexempel euclidian distance (tvärsöver)gy

La solución de un juego

permite indicar a cada jugador qué resultado puede esperar y cómo alcanzarlo.

How make a great elección de atributos

un buen atributo debería dividir el conjunto de ejemplos en subconjuntos que sean o "todos positivos" o "todos negativos".

is the A* optimal?

yes, since the heuristic is optimistic and underestimates the costs. Que la heurística utilizada sea admisible, es decir, el coste estimado debe de ser menor o igual que el menor coste posible, pero en ningún caso mayor y que el coste por arco sea siempre positivo Its is complete, since it uses a node queue which add the children it will eventually explore all nodes if no solution is found.

Algunas variaciones estocásticas

• Algoritmo de escalada estocástico • Algoritmo de escalada de primera opción • Algoritmo de escalada de reinicio aleatorio • Enfriamiento simulado Kallas stokastiska algoritmer för att man introducerar chans, man byter från en bättre lösning till en sämre i syfte att undvika lokal extrempunkt, i förmån för ett värde närmare global optimum. Los algoritmos pueden proporcionar soluciones mucho mejores que utilizando algoritmos no probabilísticos.

Métodos de escalada

• Algoritmo de escalada simple • Algoritmo de escalada por la máxima pendiente • Algunas variaciones estocásticas • Algoritmos genéticos Går ut på att hitta lokala maximum och "nöja sig".

Estrategias de aprendizaje

• Aprendizaje memorístico • Aprendizaje a través de consejos • Aprendizaje en la resolución de problemas • Aprendizaje a partir de ejemplos: inducción • Aprendizaje basado en explicaciones • Aprendizaje a través de descubrimiento

Distintos heurísticas sobre el proceso de búsqueda

• Búsqueda orientada a subobjetivos • Búsqueda con horizonte • Búsqueda jerárquica

Methodology of testing a machine learning algorithm

• Recolectar un conjunto de ejemplos grande. • Dividir el conjunto de ejemplos en dos conjuntos: el conjunto de entrenamiento y el conjunto de test. • Aplicar el algoritmo de aprendizaje al conjunto de entrenamiento, generando la hipótesis h. • Medir el porcentaje de ejemplos del conjunto de test que h clasifica correctamente.


Related study sets

AST 201 Ch. 6, Ch. 7, Ch. 8, Ch. 9, Ch. 10, Ch. 11

View Set

Introduction to Insurance Questions (Unit 1)

View Set

HTML Coding - Lesson 20 - HTML JavaScript

View Set

Pharmacology: Chapter 35: Hypothalamic and Pituitary Agents

View Set

Ch 30 Nursing Care of a Family with a Toddler

View Set

Normal Interview Questions (Geared Towards Helpdesk)

View Set

Yr 12 Topic 1, Ch 1, Internal economic integration

View Set