Ejemplo mínimo
Q-learning es una variante del aprendizaje de refuerzo sin modelo. En Q-learning queremos que el agente estime qué tan bueno es un par (estado, acción) para que pueda elegir buenas acciones en cada estado. Esto se hace aproximando una función de acción-valor (Q) que se ajusta en la siguiente ecuación:
Donde s y a son estado y acción en el paso de tiempo actual. R es la recompensa inmediata y Es factor de descuento. Y, s ' es el siguiente estado observado.
A medida que el agente interactúa con el entorno, ve un estado en el que se encuentra, realiza una acción, obtiene la recompensa y observa el nuevo estado al que se ha movido. Este ciclo continúa hasta que el agente alcanza un estado de terminación. Dado que Q-learning es un método fuera de política, podemos guardar cada (estado, acción, recompensa, estado siguiente) como una experiencia en un búfer de reproducción. Estas experiencias se muestrean en cada iteración de entrenamiento y se utilizan para mejorar nuestra estimación de Q. A continuación se muestra cómo:
- Desde
calcule el valor Q para el siguiente paso suponiendo que el agente elige con avidez una acción en ese estado, por lo tanto, elnp.max(next_state_value)
en el código a continuación. - El valor Q del siguiente paso se descuenta y se agrega a la recompensa inmediata observada por el agente: (estado, acción, recompensa , estado)
- Si un estado-acción resulta en la terminación del episodio, usamos
Q = reward
lugar de los pasos 1 y 2 anteriores (aprendizaje episódico). Por lo tanto, también tenemos que agregar un indicador de terminación a cada experiencia que se agrega al búfer: (estado, acción, recompensa, estado siguiente, terminado) - En este punto, tenemos un valor de Q calculado a partir de la
y elnext_state
y también tenemos otro valor de Q que es el resultado del aproximador de la función de red q. Al cambiar los parámetros del aproximador de la función de la red q utilizando el gradiente descendente y minimizar la diferencia entre estos dos valores de acción, el aproximador de la función Q converge hacia los valores de la acción real.
Aquí hay una implementación de la red Q profunda.
import tensorflow as tf
import gym
import numpy as np
def fullyConnected(name, input_layer, output_dim, activation=None):
Adds a fully connected layer after the `input_layer`. `output_dim` is
the size of next layer. `activation` is the optional activation
function for the next layer.
initializer = tf.random_uniform_initializer(minval=-.003, maxval=.003)
input_dims = input_layer.get_shape().as_list()[1:]
weight = tf.get_variable(name + "_w", shape=[*input_dims, output_dim],
dtype=tf.float32, initializer=initializer)
bias = tf.get_variable(name + "_b", shape=output_dim, dtype=tf.float32,
next_layer = tf.matmul(input_layer, weight) + bias
if activation:
next_layer = activation(next_layer, name=name + "_activated")
return next_layer
class Memory(object):
Saves experiences as (state, action, reward, next_action,
termination). It only supports discrete action spaces.
def __init__(self, size, state_dims):
self.length = size
self.states = np.empty([size, state_dims], dtype=float)
self.actions = np.empty(size, dtype=int)
self.rewards = np.empty((size, 1), dtype=float)
self.states_next = np.empty([size, state_dims], dtype=float)
self.terminations = np.zeros((size, 1), dtype=bool)
self.memory = [self.states, self.actions,
self.rewards, self.states_next, self.terminations]
self.pointer = 0
self.count = 0
def add(self, state, action, reward, next_state, termination):
self.states[self.pointer] = state
self.actions[self.pointer] = action
self.rewards[self.pointer] = reward
self.states_next[self.pointer] = next_state
self.terminations[self.pointer] = termination
self.pointer = (self.pointer + 1) % self.length
self.count += 1
def sample(self, batch_size):
index = np.random.randint(
min(self.count, self.length), size=(batch_size))
return (self.states[index], self.actions[index],
self.rewards[index], self.states_next[index],
class DQN(object):
Deep Q network agent.
def __init__(self, state_dim, action_dim, memory_size, layer_dims,
self.action_dim = action_dim
self.state = tf.placeholder(
tf.float32, [None, state_dim], "states")
self.action_ph = tf.placeholder(tf.int32, [None], "actions")
self.action_value_ph = tf.placeholder(
tf.float32, [None], "action_values")
self.memory = Memory(memory_size, state_dim)
def _make():
flow = self.state
for i, size in enumerate(layer_dims):
flow = fullyConnected(
"layer%i" % i, flow, size, tf.nn.relu)
return fullyConnected(
"output_layer", flow, self.action_dim)
# generate the learner network
with tf.variable_scope('learner'):
self.action_value = _make()
# generate the target network
with tf.variable_scope('target'):
self.target_action_value = _make()
# get parameters for learner and target networks
from_list = tf.get_collection(
tf.GraphKeys.TRAINABLE_VARIABLES, scope='learner')
target_list = tf.get_collection(
tf.GraphKeys.TRAINABLE_VARIABLES, scope='target')
# create a copy operation from parameters of learner
# to parameters of target network
from_list = sorted(from_list, key=lambda v: v.name)
target_list = sorted(target_list, key=lambda v: v.name)
self.update_target_network = []
for i in range(len(from_list)):
# gather the action-values of the performed actions
row = tf.range(0, tf.shape(self.action_value)[0])
indexes = tf.stack([row, self.action_ph], axis=1)
action_value = tf.gather_nd(self.action_value, indexes)
# calculate loss of Q network
self.single_loss = tf.square(action_value - self.action_value_ph)
self._loss = tf.reduce_mean(self.single_loss)
self.train_op = optimizer.minimize(self._loss)
def train(self, session, batch=None, discount=.97):
states, actions, rewards, next_states, terminals =\
next_state_value = session.run(
self.target_action_value, {self.state: next_states})
observed_value = rewards + discount * \
np.max(next_state_value, 1, keepdims=True)
observed_value[terminals] = rewards[terminals]
_, batch_loss = session.run([self.train_op, self._loss], {
self.state: states, self.action_ph: actions,
self.action_value_ph: observed_value[:, 0]})
return batch_loss
def policy(self, session, state):
return session.run(self.action_value, {self.state: [state]})[0]
def memorize(self, state, action, reward, next_state, terminal):
self.memory.add(state, action, reward, next_state, terminal)
def update(self, session):
En la red Q profunda , se utilizan pocos mecanismos para mejorar la convergencia del agente. Uno es el énfasis en el muestreo aleatorio de las experiencias del búfer de reproducción para evitar cualquier relación temporal entre las experiencias muestreadas. Otro mecanismo es utilizar la red de destino en la evaluación del valor Q para next_state
. La red de destino es similar a la red de aprendizaje, pero sus parámetros se modifican con mucha menos frecuencia. Además, el descenso del degradado no actualiza la red de destino, sino que, de vez en cuando, sus parámetros se copian de la red de aprendizaje.
El código a continuación, es un ejemplo de este agente aprendiendo a realizar acciones en un entorno de cartpole .
ENVIRONMENT = 'CartPole-v1' # environment name from `OpenAI`.
MEMORY_SIZE = 50000 # how many of recent time steps should be saved in agent's memory
LEARNING_RATE = .01 # learning rate for Adam optimizer
BATCH_SIZE = 8 # number of experiences to sample in each training step
EPSILON = .1 # how often an action should be chosen randomly. This encourages exploration
EPXILON_DECAY = .99 # the rate of decaying `EPSILON`
NETWORK_ARCHITECTURE = [100] # shape of the q network. Each element is one layer
TOTAL_EPISODES = 500 # number of total episodes
MAX_STEPS = 200 # maximum number of steps in each episode
REPORT_STEP = 10 # how many episodes to run before printing a summary
env = gym.make(ENVIRONMENT) # initialize environment
state_dim = env.observation_space.shape[
0] # dimensions of observation space
action_dim = env.action_space.n
optimizer = tf.train.AdamOptimizer(LEARNING_RATE)
agent = DQN(state_dim, action_dim, MEMORY_SIZE,
eps = [EPSILON]
def runEpisode(env, session):
state = env.reset()
total_l = 0.
total_reward = 0.
for i in range(MAX_STEPS):
if np.random.uniform() < eps[0]:
action = np.random.randint(action_dim)
action_values = agent.policy(session, state)
action = np.argmax(action_values)
next_state, reward, terminated, _ = env.step(action)
if terminated:
reward = -1
total_reward += reward
agent.memorize(state, action, reward, next_state, terminated)
state = next_state
total_l += agent.train(session, BATCH_SIZE)
if terminated:
i += 1
return i, total_reward / i, total_l / i
session = tf.InteractiveSession()
for i in range(1, TOTAL_EPISODES + 1):
leng, reward, loss = runEpisode(env, session)
if i % REPORT_STEP == 0:
print(("Episode: %4i " +
"| Episod Length: %3i " +
"| Avg Reward: %+.3f " +
"| Avg Loss: %6.3f " +
"| Epsilon: %.3f") %
(i, leng, reward, loss, eps[0]))