AI parcial2

Réussis tes devoirs et examens dès maintenant avec Quizwiz!

¿Qué significa resolver un juego?.

- Encontrar un valoración para el nodo inicial. - Determinar una estrategia ganadora para MAX o para MIN.

Sobreajuste (overfitting)

A encontrar "regularidades" poco significativas en los datos. Se dice que una hipótesis h se sobreajusta al conjunto de entrenamiento si existe alguna otra hipótesis h' tal que el error de h es menor que el de h' sobre el conjunto de entrenamiento, pero es mayor sobre la distribución completa de ejemplos del problema (entrenamiento + test).

La simulación de procesos naturales es un campo de investigación muy amplio en Inteligencia Artificial. Ejemplos;

Algoritmos genéticos. Algoritmos basados en Colonias de Hormigas. Algoritmos basados en inteligencia de enjambres.

Ejemplo de juego; El dilema del prisionero

Es un juego bipersonales con información imperfecta. Dos individuos son detenidos por la policía. Si ninguno confiesa, ambos irán a la cárcel por 2 años, pero si uno delata a su compañero y el otro no, entonces al que confiesa le absuelven y al otro le encierran por 10 años. Si ambos confesasen, entonces la pena se repartiría y ambos irían a prisión por 5 años.

¿Qué es una función heurística? ¿Para qué se usa?

Las funciones heurísticas son la forma más común de transmitir el conocimiento adicional del problema al algoritmo de búsqueda. Se utilizan para intentar minimizar el número de nodos expandidos para llegar a la solución cuando se utiliza un conocimiento extra sobre el problema además de su planteamiento.

An heuristic technique

Las heurísticas son criterios, métodos o principios para decidir cuál de entre varias acciones promete ser la mejor para alcanzar una determinada meta. An approach to problemsolving not guaranteed to be optimal but sufficient for reaching an immediate goal. Una heurística puede devolver siempre soluciones óptimas bajo ciertas condiciones

Un algoritmo genético como forma los hijos

Los estados sucesores se generan combinando dos estados padres, más que modificar un solo estado.

Describe bajo que condiciones enfriamiento simulado väljer att byta till estado peor

När den är på ett maximum så byter den enligt sannolikheten; P = e^deltaE/T. Alltså skillnaden i energi mellan noderna och tiden som gått. ju högre tid som har gått (högre energi) och desto lägre skillnaden är i energi desto större är chansen att man stannar.

Algoritmo de enfriamiento simulado (simulated annealing)

Optimazation heuristic. Hay diferentes metodos para obtener la solución inicial (por ejemplo Greedy), el T (por ejemplo T = 1/(1+k), k = número de iteraciones), o el número de vecinos a generar. Tanto la temperatura inicial como la temperatura final Ti y Tf son parámetros de entrada al algoritmo. Es difícil asignar un valor concreto a Tf, por lo que la condición de parada se suele sustituir por un número específico de iteraciones a realizar.

función ponderada lineal,

una clase de función de evaluación donde cada wi es un peso y cada fi es una característica de la posición. Para el ajedrez, los fi podrían ser los números de cada clase de piezas sobre el tablero

Aprendizaje supervisado vs no supervisado

- Aprendizaje supervisado: Aprender una función a partir de ejemplos de sus entradas y salidas. - Aprendizaje no supervisado: Aprender a partir de patrones de entradas para los que no se especifican los valores de su salidas.

Componentes de un juego

- Estado inicial - Función sucesor - Test minimal (que determina si se ha llegado a un estado terminal.) - Función de utilidad/evaluación ( da un valor numérico a los estados terminales.)

Ejemplo T,P,E; Aprendizaje de reconocimiento de caracteres de escritos a mano

- T: reconocer y clasificar palabras escritas a mano a través de imágenes. - P: % de palabras correctamente clasificadas. - E: una base de datos de palabras escritas a mano con su correspondiente clasificación.

múltiples maneras a crear el árbol

- Trivial: se crea una ruta del árbol por cada instancia de entrenamiento. (grande, no funcionan bien con instancias nuevas.) - Optimo: el árbol más pequeño posible compatible con todas las instancias (navaja de Ockham). - Pseudooptimo (heurístico): selección del atributo en cada nivel del árbol en función de la calidad de la división que produce.

how measure complexity of game

- state-space complexity of a game is the number of legal game positions reachable from the initial position of the game - Search depth

¿Qué relación hay entre el árbol del juego y un árbol Y/O?

And-or trees can also be used to represent the search spaces for two-person games. MAX-nodes (i.e. maximizing player to move) are represented as OR nodes, MIN-nodes map to AND nodes.

Aprendizaje inductivo / de ejemplos

Aprendizaje supervisado. El objetivo es aprender la función f. (hitta en funktion för sambandet tex) Problema: encontrar una hipótesis h tal que h=f sobre los conjuntos del ejemplos de entrenamiento. h(n) = c1x1(n) + c2x2(n)

hur många nodos sparas som mest i ; BFS DFS Descanso Iterativo Retroactivo

BFS; alla, m^d +1 DFS; m*d +1 Descanso iterativo; m*d +1 Retroactivo; En memoria sólo guardamos un hijo de cada estado. annars som dfs.

Describe cómo se debe codificar un estado si usamos un algoritmo genético

Comienzan con un conjunto de k estados generados aletaoriamente, llamados población. Cada estado, o individuo, está representado como una cadena de números.

¿Cómo podemos establecer un algoritmo para saber si un jugador podrá o no ganar un juego a partir de una situación inicial dada?

Con el minimax. MAX: primer jugador MIN: segundo jugador Los nodos terminales se etiquetan con V, D o E desde el punto de vista de MAX Idea básica: explorar suficientes nodos para poder llegar a una decisión aceptable.

Función de valoración (función de utilidad);

Devuelve un valor numérico para estados terminales. Ajedrez (V,D,E o +1, -1, 0). En otros juegos hay variedad de posibles resultados (por ejemplo puntos ganados...).

Juegos como problema de búsqueda; Función sucesor

Devuelve una lista de pares (movimiento, estado), cada una indicando un movimiento legal y el estado resultante.

Juegos como problema de búsqueda; Estado inicial

Donde se representa la posición inicial del tablero y se identifica el jugador que mueve.

Ejemplo Árboles de decisión

El conjunto de ejemplos completo se denomina conjunto de entrenamiento.

hur jobbade deep blue

El corazón de la máquina es una búsqueda alfa-beta estándar de profundidad iterativa. använde mängder av exempel från tidigare matcher och tusentales variabler i funcion evaluacion

Àrbol del juego

El estado inicial más todos los movimientos legales forman un árbol de juego.

Ejemplos de juegos bipersonales con información perfecta.

El juego de los palillos (tändstickor), ajedrez, go.

peeking

El motivo es que la hipótesis ha sido seleccionada tomando como base su calidad sobre el conjunto de test, por lo tanto, se ha filtrado información sobre el conjunto de test en el algoritmo de aprendizaje. algoritmen har testat sig själv på just testdatat. Alltså kan den redan datan, den borde testa sig själv på ny data.

Como las heurísticas son usados en AI?

En IA, implementaremos heurísticas como funciones que devuelven un valor numérico, cuya maximización o minimización guiará al proceso de búsqueda a la solución. (I bilden vill antalet rutor på fel plats förminskas)

¿En qué consiste el aprendizaje por refuerzo?

En el aprendizaje por refuerzo los objetivos se expresan mediante una función de recompensa que asigna valores enteros a las acciones que ejecuta el agente. Los valores positivos informan al agente de que ha ejecutado una acción buena, mientras que los negativos le informan de lo contrario. Mediante este proceso, el agente aprende qué acciones son las buenas y cuáles las malas.

Describe el proceso de validación cruzada

En el proceso de la validación cruzada dividimos los datos en particiones de tamaño k, elegimos una partición cómo test y las restantes como ejemplos, obtenemos la valoración que nos devuelve y vamos rotando las particiones test y ejemplo.

Juegos de suma nula (zero-sum games):

En la situación final el beneficio de un jugador es total y la pérdida del oponente es total, o hay empate (tie). Es decir las valoraciones de los estados finales del juego son iguales o opuestas. Hay situaciones finales en las que se distribuyen las pérdidas y ganancias. (schack matt)

Inconvenientes con algoritmo de enfriamiento simulado.

Encontrar la temperatura inicial Ti, el método de actualización de temperatura α, el número de vecinos a generar en cada estado y el número de iteraciones óptimo es una tarea que requiere de muchas pruebas de ensayo y error hasta que ajustamos los parámetros óptimos.

Hay dos tipos de entornos multiagentes

Entorno cooperativo; agentes trabajan para alcanzar un objetivo común Entorno competitivo; el objetivo de cada agente entra en conflicto con los del resto.

Un juego de información perfecta

Es aquel en los jugadores tienen a su disposición toda la información de la situación del juego.

Minimax; El valor V(J) de un nodo J de la frontera de búsqueda es igual al;

Es igual al de su evaluación estática; Si J es un nodo MAX, entonces su valor V(J) es igual al máximo de los valores de sus nodos sucesores. Si J es un nodo MIN, entonces su valor V(J) es igual al mínimo de los valores de sus nodos sucesores.

Juegos como problema de búsqueda; Test terminal

Función que determina cuándo un juego ha finalizado. Los estados donde el juego finaliza se llaman estados terminales.

Grafo Y

För att slutföra A, så måste B och C slutföras först. B*C -> A

Grafo O

För att slutföra A, så måste antingen B eller C slutföras först. B + C -> A

Algoritmo de escalada por la máxima pendiente

Greedy, undersöker alla riktningar och går åt hållet med högst lutning. rápido y útil si la función es monótona (de)creciente.

Metodos para búsqueda con información

Heurísticas Métodos de escalada Búsqueda primero el mejor

Grafo Y/O

Kombination av grafer Y / O vilka bestämmer ordningen av las tareas. Para seleccionar el orden de resolución de nodos hijos, se puede utilizar alguna medida de estimación del coste de resolución.

¿En qué consiste la búsqueda dirigida?

La búsqueda dirigida es un tipo de búsqueda del tipo A* en la que se especifica un factor de ramificación K, de modo que se limita el número de nodos vecinos que se expande en cada nivel seleccionando los n mejores.

La ganancia de información

La ganancia de información del atributo de test es la diferencia entre la necesidad de información original y la nueva necesidad de información:

hipótesis consistente

La hipótesis se dice consistente ya que satisface a todos los datos.

Árboles de decisión

La inducción con árboles de decisión es uno de los métodos más sencillos y con más éxito para construir algoritmos de aprendizaje. Un árbol de decisión toma como entrada un objeto o una situación descrita a través de un conjunto de atributos y devuelve una "decisión". • Atributos: discreto o continuos. • Salida: - Discreta: clasificación. - Continua: regresión.

¿Qué caracteriza a los algoritmos genéticos como métodos de escalada? Detalla las características comunes y las que los hacen diferentes del resto.

Mainly, hill climbers and other local optimization algorithms like simulated annealing find paths and locally-best solutions. Genetic algorithms can search the entire space and jump between places (via mutación and crossover(cruce), allowing them to find global solutions. A genetic search is a random search, whereas the hill-climber search is not. One of the tradeoffs of using a genetic search is that it could arguably be more resistant to getting trapped in a local extremum, at the cost of potentially failing to even find a maximum or minimum if it doesn't go through enough iterations.

Vad för svårigheter finns det?

Man har inte alltid tillräckligt information från omgivningen, man har inte alltid tillräcklig information om effekterna av sina aktioner, kan finnas andra agenter. Omvärlden kan förändras under bearbetningen av info. Minnet kan vara för litet för att kunna söka allt man vill söka.

Aprendizaje supervisado, Métodos basados en instancias:

Métodos basados en instancias: construyen hipótesis directamente a partir de las propias instancias de entrenamiento. Cuantos más datos tengamos, más compleja puede ser la hipótesis. - El resultado es un método de acceso/asociación entre las nuevas entradas y los ejemplos ya conocidos.

¿Cómo elegir entre múltiples hipótesis consistentes?

Navaja de Ockham: elegir la hipótesis más simple consistente con los datos. Todos los posibles funciones sa llaman Espacio de hipótesis.

Tidskomplexitet Alpha beta

O(n^d), om ingenting kan pruneas. Samma tidskomplexitet för minimax.

La regla minimax

Om du har en nodo hoja J och vill få fram värdet på den under sökprocessen. Då är V(J) = evaluación estática. Es decir. Om de är en maxnod så är värdet lika med maximala värdet av dess barn. Om det är en minnod så är värdet lika med minimala värdet av dess barn.

Algorithm A*

One of the best and popular technique used in path-finding and graph traversals. Välj nod från abiertos med lägst f. f = totala uppskattade kostnaden från start till mål genom nod.

algoritmos genético, ejemplo; Cromosoma que codifica una solución a un problema.

Población = conjunto de soluciones.

Juegos (en este contexto)

Problemas de búsqueda en entornos multiagente competitivos.

Que es aprendizaje automático

Programas que mejoran su comportamiento con la experiencia. Formellt; Un programa de ordenador se dice que aprende de la experiencia E con respecto a alguna clase de tareas T y a alguna medida de comportamiento P, si su comportamiento en tareas de T, medido a través de P, mejora con la experiencia E.

En algoritm STATUS(J) som säger om en nod är vinst eller ej

Si J es un nodo MAX no terminal, entonces STATUS(J) = - V si alguno de los sucesores de J tiene STATUS V - D si todos los sucesores de J tienen STATUS D - E en otro caso

Que son algoritmos genéticos?

Son algoritmos de optimización basados en el proceso de la evolución natural de Darwin. Su objetivo es encontrar una solución cuyo valor de función objetivo sea óptimo.

¿Qué son los valores perdidos en un problema de aprendizaje inductivo?

Son atributos de nuestros ejemplos de los cuales no poseemos información. Por ejemplo en la ficha de un paciente no tenemos información de su sexo.

Algoritmen Poda Alfa-Beta explained in english

The algorithm maintains two values, alpha and beta, which represent the minimum score that the maximizing player is assured of and the maximum score that the minimizing player is assured of respectively. Initially, alpha is negative infinity and beta is positive infinity, i.e. both players start with their worst possible score. Whenever the maximum score that the minimizing player (i.e. the "beta" player) is assured of becomes less than the minimum score that the maximizing player (i.e., the "alpha" player) is assured of (i.e. beta ≤ alpha), the maximizing player need not consider further descendants of this node, as they will never be reached in the actual play.

Porque usa los algoritmos A*?

To approximate the shortest path in situations where there can be many hindrances. Smarter than other conventional algorithms.

Que juegos tienen solución?

Todo juego con información perfecta tiene solución.

Algoritmen Poda Alfa-Beta beskriven

Tre steg. 1. Si J es un nodo terminal, devolver V(J)=f(J). En otro caso, sean J1,...,Jk,...,Jb los sucesores de J. 2 (om max). 2.1. Hacer alfa <- max(alfa, V(Jk,alfa,beta)). 2.2. Si alfa >= beta devolver beta (¡criterio de poda!); si no, continuar 2.3. Si k=b, devolver alfa; si no, hacer k <- k+1 y volver al paso 2. 3 (om min). 3.1. Hacer beta <- min(beta, V(Jk,alfa,beta)). 3.2. Si beta <= alfa devolver alfa (¡criterio de poda!); si no, continuar 3.3. Si k=b, devolver beta; si no, hacer k <- k+1 y volver al paso 5.

¿Cuál es la definición de heurística admisible?

Una heurística es admisible si nunca sobreestima el costo de alcanzar el objetivo, o sea, que en el punto actual la estimación del costo de alcanzar el objetivo nunca es mayor que el menor costo posible.

Algoritmo de escalada simple

Undersöker en riktning i taget, ifall undersökt riktning har bättre värde så går den dit, tar ej hänsyn till att kan finnas grannar med högre lutning.

Algoritmos genéticos; mutación.

Uno o más genes de un individuo pueden mutar para generar una nueva solución. En la población, hay una probabilidad dada a priori de que un individuo pueda mutar.

El efecto horizonte

When evaluating a large game tree using techniques such as minimax with alpha-beta pruning, search depth is limited for feasibility reasons. However, evaluating a partial tree may give a misleading result. When a significant change exists just over the horizon of the search depth, the computational device falls victim to the horizon effect.

When is Algoritmo de enfriamiento simulado (simulated annealing) used?

When having to find to maxi/minimize function with n variables (more than possible to calculate by hand)

It is impossible in some games to explore the entire tree down to the terminating nodes. How to resolve this?

With the use of heuristics

realizable / irrelizable

aprendizaje es realizable si el espacio de hipótesis contiene a la función verdadera; en otro caso, se dice que es irrealizable.

Diferencia entre árbol de búsqueda del juego y árbol teórico de juego.

árbol teórico de juego är alla möjliga spelmöjligheter från din punkt tills spelet är slut, det är för stort för att simulera så det man faktiskt räknar fram i memoria kallas árbol de búsqueda del juego och är ett delträd av det teoretiska.

hur ser ett spelträd ut när även chans är inblandat (typ ett tärningskast)

blir som en tredje spelare

Atributos multivaluados

cuando un atributo tiene muchos valores posibles, la ganancia de información proporciona una indicación inapropiada de su utilidad. En el caso extremo, se podría utilizar un atributo, como NombreRestaurante, que tenga un valor diferente para cada ejemplo. En este caso, cada subconjunto de ejemplos tendrá un único elemento con una única clasificación, por lo tanto la medida de ganancia de información tendrá su máximo valor para este atributo.

Ruido

dos o más ejemplos con la misma descripción (en términos de atributos) pero diferentes clasificaciones.

Juegos con incertidumbre

ett spel där det inte finns perfekt information. för att anpassa minimax för detta räkna med sannolikhet också.

A* algoritm

exakt som uniform cost search fast man räknar även med heuristiken h. Dvs säga välj den i abiertos med lägst f = g + h.

poda hacia delante

för att kunna öka depthen, podamos inmediatamente algunos movimientos de un nodo. Claramente, la mayoría de la gente que juega al ajedrez sólo considera unos pocos movimientos de cada posición

Algorithm A*; define g and h.

g = the movement cost to move from the starting point to a given square on the grid, following the path generated to get there. h = the estimated movement cost to move from that given square on the grid to the final destination. Calculated by an heuristic usually since exact calculations are time-consuming. f = g + h.

tabla de transposición

man sparar estados man redan har vart i för att undivka upprepning, likt cerrados i annan busqueda

olika sätt att uppskatta h

manhattan distance (i bilden) eller tillexempel euclidian distance (tvärsöver)gy

La solución de un juego

permite indicar a cada jugador qué resultado puede esperar y cómo alcanzarlo.

How make a great elección de atributos

un buen atributo debería dividir el conjunto de ejemplos en subconjuntos que sean o "todos positivos" o "todos negativos".

is the A* optimal?

yes, since the heuristic is optimistic and underestimates the costs. Que la heurística utilizada sea admisible, es decir, el coste estimado debe de ser menor o igual que el menor coste posible, pero en ningún caso mayor y que el coste por arco sea siempre positivo Its is complete, since it uses a node queue which add the children it will eventually explore all nodes if no solution is found.

Algunas variaciones estocásticas

• Algoritmo de escalada estocástico • Algoritmo de escalada de primera opción • Algoritmo de escalada de reinicio aleatorio • Enfriamiento simulado Kallas stokastiska algoritmer för att man introducerar chans, man byter från en bättre lösning till en sämre i syfte att undvika lokal extrempunkt, i förmån för ett värde närmare global optimum. Los algoritmos pueden proporcionar soluciones mucho mejores que utilizando algoritmos no probabilísticos.

Métodos de escalada

• Algoritmo de escalada simple • Algoritmo de escalada por la máxima pendiente • Algunas variaciones estocásticas • Algoritmos genéticos Går ut på att hitta lokala maximum och "nöja sig".

Estrategias de aprendizaje

• Aprendizaje memorístico • Aprendizaje a través de consejos • Aprendizaje en la resolución de problemas • Aprendizaje a partir de ejemplos: inducción • Aprendizaje basado en explicaciones • Aprendizaje a través de descubrimiento

Distintos heurísticas sobre el proceso de búsqueda

• Búsqueda orientada a subobjetivos • Búsqueda con horizonte • Búsqueda jerárquica

Methodology of testing a machine learning algorithm

• Recolectar un conjunto de ejemplos grande. • Dividir el conjunto de ejemplos en dos conjuntos: el conjunto de entrenamiento y el conjunto de test. • Aplicar el algoritmo de aprendizaje al conjunto de entrenamiento, generando la hipótesis h. • Medir el porcentaje de ejemplos del conjunto de test que h clasifica correctamente.

AI parcial2

Ensembles d'études connexes

Chapter 18

AST 201 Ch. 6, Ch. 7, Ch. 8, Ch. 9, Ch. 10, Ch. 11

Intro to Nutrition Chapter 5

10. Data Management

Introduction to Insurance Questions (Unit 1)

Nutrition 319 chapter 1-6

PLT 7 - 12 Practice Test

HTML Coding - Lesson 20 - HTML JavaScript

Pharmacology: Chapter 35: Hypothalamic and Pituitary Agents

AP psych unit 1 test

Ch 30 Nursing Care of a Family with a Toddler

Acct 2301 Chapter 5

Normal Interview Questions (Geared Towards Helpdesk)

Marieb Ch. 24

Management Exam 1

Ch. 5 Multiple Choice

Cost Accounting

SS8H3 Tset Review

Chapter 13 - PPE

Yr 12 Topic 1, Ch 1, Internal economic integration