Initial commit: stable RL sweep runner, legacy and new scripts, full docs included

2026-04-12 22:57:50 -04:00 · 2026-04-12 22:57:50 -04:00 · 2cadd1a78a
commit 2cadd1a78a
40 changed files with 5922 additions and 0 deletions
--- a/agent/README.md
+++ b/agent/README.md
@ -0,0 +1,84 @@
+# DonkeyCar RL Batch Automation and Setup Guide
+
+## System Requirements
+- Windows 10/11 machine (with DonkeyCar Unity Simulator installed)
+- WSL2 with Ubuntu (Python 3.x installed)
+- DonkeyCar Unity Simulator running in Windows, Remote Control enabled
+
+---
+
+## 1. **WSL (Linux) Setup**
+
+### A. Install Python, pip, and core packages
+```bash
+sudo apt update && sudo apt install -y python3-pip git
+pip3 install --upgrade pip
+pip3 install stable-baselines3 gymnasium gym-donkeycar numpy matplotlib
+# If pip install gym-donkeycar fails, use:
+pip3 install git+https://github.com/tawnkramer/gym-donkeycar.git
+```
+
+### B. Place scripts
+Copy these into `/home/paulh/.pi/agent/`:
+- `donkeycar_sb3_runner.py`
+- `manual_multiepisode_batch.sh` (and make executable)
+- Any grid/outer loop script (`donkeycar_outer_loop.py`, as needed)
+
+---
+
+## 2. **Unity DonkeyCar Simulator Setup (Windows)**
+- Download/install Unity DonkeyCar sim (from DonkeyCar/tawnkramer Github or releases page)
+- Open simulator, select "Donkey Generated Track" and enable Remote (SocketAPI) mode
+- Ensure port 9091 is listening (default); leave sim running and visible
+
+---
+
+## 3. **Running Robust Batches (Best Practice)**
+
+### Clean multi-episode approach:
+**Do NOT rapidly kill/restart agents.** Use scripts that:
+- Open one connection, run multiple episodes using `env.reset()` in a loop
+- Cleanly call `env.close()`
+- Batch script launches process, waits a couple seconds, repeats
+
+#### Sample batch script (`manual_multiepisode_batch.sh`):
+```bash
+#!/bin/bash
+for i in {1..20}; do
+  echo "===== RUN $i ===== $(date)" | tee -a manual-multiepisode-batch.log
+  python3 donkeycar_sb3_runner.py >> manual-multiepisode-batch.log 2>&1
+  echo "===== END RUN $i ===== $(date)" | tee -a manual-multiepisode-batch.log
+  sleep 2
+done
+```
+
+Make executable:
+```bash
+chmod +x manual_multiepisode_batch.sh
+```
+Run in background:
+```bash
+nohup ./manual_multiepisode_batch.sh &
+```
+
+---
+
+## 4. **Debugging/Recovery**
+- If sim blanks/hangs, first check for stuck agent processes: `ps aux | grep donkeycar_sb3_runner`
+- Always allow scripts to call `env.close()`
+- If hang persists: restart Unity DonkeyCar Sim in Windows
+
+---
+
+## 5. **Automation Flow Summary**
+| Step        | Where     | Details                                   |
+|-------------|-----------|-------------------------------------------|
+| Install     | WSL/Linux | pip install ...                           |
+| Prepare     | WSL/Linux | Place scripts, ensure Python dependencies  |
+| Sim start   | Windows   | Start DonkeyCar Unity Sim                 |
+| Run batch   | WSL/Linux | nohup ./manual_multiepisode_batch.sh ...  |
+| Monitor     | Both      | Car resets, batch log grows, check hangs  |
+
+---
+
+See included Python scripts for reusable RL runner and grid search outer loop logic.
--- a/agent/SETUP_QUICKSTART.md
+++ b/agent/SETUP_QUICKSTART.md
@ -0,0 +1,15 @@
+# SETUP QUICKSTART: DonkeyCar WSL RL Batch
+
+1. Start Unity DonkeyCar Simulator in Windows, ensure Remote/SocketAPI mode.
+2. In WSL:
+  - Install dependencies (pip install stable-baselines3 gymnasium gym-donkeycar numpy matplotlib)
+  - Copy scripts (donkeycar_sb3_runner.py, manual_multiepisode_batch.sh) to ~/path
+3. Make batch script executable:  
+   chmod +x manual_multiepisode_batch.sh
+4. Run batch:
+   nohup ./manual_multiepisode_batch.sh &
+5. Tail log for progress:
+   tail -f manual-multiepisode-batch.log
+6. If sim hangs, restart Unity DonkeyCar Simulator and resume batch job.
+
+**See README.md for full details and troubleshooting.**
--- a/agent/TROUBLESHOOT.md
+++ b/agent/TROUBLESHOOT.md
@ -0,0 +1,21 @@
+# DonkeyCar RL Automation Troubleshooting
+
+## Fast Checklist
+- [ ] Unity sim blank? Ensure no stuck Python RL script is running (`ps aux | grep donkeycar_sb3_runner`)
+- [ ] Always call `env.close()` in the RL script!
+- [ ] Wait at least 2 seconds between batch jobs
+- [ ] Restart Unity sim from Windows if stuck
+- [ ] Check network (port 9091 must be listening in Windows, reachable from WSL)
+
+## If you get stuck:
+1. Stop all batch jobs in WSL
+2. Fully quit and restart Unity DonkeyCar Simulator on Windows
+3. Wait, then start the batch again
+4. If failure occurs immediately, ensure sim is in correct mode (Remote/SocketAPI)
+5. Confirm you are not running the same Python process in two places at once
+
+## Automated Batches Work When…
+- Each RL process runs multiple episodes and exits cleanly
+- Each process calls `env.close()` before exit
+- Batch script sleeps ~2 seconds between runs
+
--- a/agent/pycache/discretize_action.cpython-310.pyc
+++ b/agent/pycache/discretize_action.cpython-310.pyc
--- a/agent/auth.json
+++ b/agent/auth.json
@ -0,0 +1,8 @@
+{
+  "github-copilot": {
+    "type": "oauth",
+    "refresh": "ghu_QSBVGINfuwIHLEnneiUnYfCCmszx2K3Oenoo",
+    "access": "tid=fc043491aedf283a7f3325340422760b;exp=1776050721;sku=yearly_subscriber_quota;proxy-ep=proxy.individual.githubcopilot.com;st=dotcom;chat=1;cit=1;malfil=1;editor_preview_features=1;agent_mode=1;agent_mode_auto_approval=1;mcp=1;client_byok=0;ccr=1;8kp=1;ip=174.112.198.87;asn=AS812:a2ab0a65aa30015f4b93afac6416a425858082c4b0974a31d0f9fd101179f3c8",
+    "expires": 1776050421000
+  }
+}
--- a/agent/autoresearch
+++ b/agent/autoresearch
@ -0,0 +1 @@
+/home/paulh/autoresearch/autoresearch
--- a/agent/bin/fd
+++ b/agent/bin/fd
--- a/agent/bin/rg
+++ b/agent/bin/rg
--- a/agent/check_envs.py
+++ b/agent/check_envs.py
@ -0,0 +1,7 @@
+import gym
+import gym_donkeycar.envs
+import gym_donkeycar.envs.donkey_env
+
+print("Registered gym environments:")
+for env_id in sorted(gym.envs.registry.keys()):
+    print(env_id)
--- a/agent/choose_and_run_track.py
+++ b/agent/choose_and_run_track.py
@ -0,0 +1,67 @@
+import gymnasium as gym
+import gym_donkeycar.envs
+import gym_donkeycar.envs.donkey_env
+import sys
+import os
+import time
+
+host = os.environ.get('DONKEY_SIM_HOST', '10.0.0.55')
+port = int(os.environ.get('DONKEY_SIM_PORT', '9091'))
+print(f"Connecting to DonkeyCar sim at {host}:{port}")
+
+from gym_donkeycar.envs.donkey_env import DonkeyEnv
+
+# Query the Unity simulator for available tracks
+class TrackCatcher(DonkeyEnv):
+    def __init__(self, conf=None, render_mode=None):
+        self.captured_tracks = None
+        super().__init__('generated_road', conf, render_mode)
+    def viewer_wait_until_loaded(self):
+        # patched wait to allow grabbing tracks
+        import time
+        t0 = time.time()
+        while not self.viewer.handler.loaded and (time.time() - t0 < 15):
+            # grab tracks if present
+            if hasattr(self.viewer.handler, 'scene_names') and self.viewer.handler.scene_names:
+                self.captured_tracks = self.viewer.handler.scene_names
+                break
+            time.sleep(1)
+        self.viewer.wait_until_loaded()
+    def reset(self, **kwargs):
+        self.viewer_wait_until_loaded()
+        return super().reset(**kwargs)
+
+def get_tracks():
+    tc = TrackCatcher()
+    tc.reset()
+    tracks = tc.viewer.handler.scene_names if hasattr(tc.viewer.handler, 'scene_names') else None
+    tc.close()
+    return tracks
+
+tracks = get_tracks()
+if tracks:
+    print("Available tracks:")
+    for i, t in enumerate(tracks):
+        print(f"[{i}] {t}")
+    choice = input("Enter the number of the track to use: ")
+    try:
+        idx = int(choice.strip())
+        track = tracks[idx]
+        print(f"Loading track: {track}")
+    except Exception as e:
+        print(f"Invalid selection ({e}), using default track: {tracks[0]}")
+        track = tracks[0]
+else:
+    print("Could not retrieve track list, defaulting to 'generated_road'")
+    track = 'generated_road'
+
+# Now run a sim episode on the chosen track
+env = DonkeyEnv(level=track)
+obs, info = env.reset()
+for t in range(10):
+    action = env.action_space.sample()
+    obs, reward, terminated, truncated, info = env.step(action)
+    print(f"Step {t}: reward {reward}, done {terminated or truncated}")
+    if terminated or truncated:
+        obs, info = env.reset()
+env.close()
--- a/agent/discretize_action.py
+++ b/agent/discretize_action.py
@ -0,0 +1,27 @@
+import numpy as np
+import gymnasium as gym
+
+class DiscretizedActionWrapper(gym.ActionWrapper):
+    def __init__(self, env, n_steer=3, n_throttle=3):
+        super().__init__(env)
+        self.n_steer = n_steer
+        self.n_throttle = n_throttle
+
+        # Define the bins
+        self.steer_bins = np.linspace(-1, 1, n_steer)
+        self.throttle_bins = np.linspace(0, 1, n_throttle)
+        self.action_list = [(s, t) for s in self.steer_bins for t in self.throttle_bins]
+        self.action_space = gym.spaces.Discrete(len(self.action_list))
+
+    def action(self, act_idx):
+        # Map discrete action index to (steer, throttle)
+        steer, throttle = self.action_list[act_idx]
+        return np.array([steer, throttle], dtype=np.float32)
+
+    def reverse_action(self, action):
+        # Map from continuous to nearest discrete index (for completeness)
+        steer, throttle = action
+        steer_idx = np.abs(self.steer_bins - steer).argmin()
+        throttle_idx = np.abs(self.throttle_bins - throttle).argmin()
+        idx = steer_idx * self.n_throttle + throttle_idx
+        return int(idx)
--- a/agent/donkeycar_autoresearch.py
+++ b/agent/donkeycar_autoresearch.py
@ -0,0 +1,19 @@
+import os
+import gymnasium as gym
+from gym_donkeycar.envs.donkey_env import DonkeyEnv
+from autoresearch.envs.gymnasium import GymnasiumEnv
+
+# Choose your desired track:
+TRACK = os.environ.get("DONKEYCAR_TRACK", "generated_road")  # You can override with env var
+
+print(f"[AutoResearch] Using DonkeyCar track: {TRACK}")
+donkey_env = DonkeyEnv(level=TRACK)
+
+# Wrap it as an autoresearch env
+aresearch_env = GymnasiumEnv(donkey_env)
+
+# Import and run an agent from autoresearch
+from autoresearch.agents.dqn import main as dqn_main
+# Run for a few episodes with default settings
+if __name__ == '__main__':
+    dqn_main(env=aresearch_env)
--- a/agent/donkeycar_outer_loop.py
+++ b/agent/donkeycar_outer_loop.py
@ -0,0 +1,128 @@
+import itertools
+import subprocess
+import json
+import time
+import os
+import signal
+
+
+def kill_old_rl():
+    print('[Outer Loop] Killing any stalled RL jobs…', flush=True)
+    try:
+        subprocess.run(['pkill', '-9', '-f', 'donkeycar_sb3_runner.py'], check=False)
+    except Exception as e:
+        print(f'[Outer Loop] pkill failed: {e}', flush=True)
+
+# Parameter grid for the sweep
+grid = {
+    'n_steer': [3, 5, 7],
+    'n_throttle': [2, 3],
+    'learning_rate': [0.001, 0.0005, 0.0001],
+    'timesteps': [2000],
+    'eval_episodes': [3],
+}
+REPEATS = 3  # robust trials per unique config
+
+def build_param_combinations(grid):
+    keys = list(grid.keys())
+    vals = [grid[k] for k in keys]
+    for v in itertools.product(*vals):
+        yield dict(zip(keys, v))
+
+def run_sweep():
+    results = []
+    out_dir = '/home/paulh/.pi/agent/outerloop-results'
+    os.makedirs(out_dir, exist_ok=True)
+    log_file = os.path.join(out_dir, 'sweep_results.jsonl')
+
+    run_id = 0
+    for i, params in enumerate(build_param_combinations(grid)):
+        for r in range(REPEATS):
+            run_id += 1
+            print(f"\n[Outer Loop] Running config {i+1} repeat {r+1}/{REPEATS}: {params}")
+            with open(os.path.join(out_dir, 'outer_monitor.log'), 'a') as mlog:
+                mlog.write(f"\n[MONITOR {time.ctime()}] Starting config {i+1} repeat {r+1}/{REPEATS}: {params}\n")
+                mlog.flush()
+            kill_old_rl()
+            print(f'[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, {time.ctime()}', flush=True)
+            time.sleep(2)
+            print('[Outer Loop MONITOR] Launching inner RL job now...', flush=True)
+            with open(os.path.join(out_dir, 'outer_monitor.log'), 'a') as mlog:
+                mlog.write(f"[MONITOR {time.ctime()}] Launching inner RL job for config {i+1} repeat {r+1}\n")
+                mlog.flush()
+            cmd = [
+            'python3', '/home/paulh/.pi/agent/donkeycar_sb3_runner.py',
+            '--agent', 'dqn',
+            '--env', 'donkey-generated-roads-v0',
+            '--timesteps', str(params['timesteps']),
+            '--eval-episodes', str(params['eval_episodes']),
+            '--n-steer', str(params['n_steer']),
+            '--n-throttle', str(params['n_throttle']),
+            '--log-dir', os.path.join(out_dir, f'model-{i:03d}')
+        ]
+        # Set learning rate (by env variable, as SB3 DQN uses fixed default in script now)
+        os.environ['SB3_DQN_LR'] = str(params['learning_rate'])
+        start = time.time()
+        try:
+            proc = subprocess.run(cmd, capture_output=True, text=True, timeout=360)  # 6 min timeout per run
+            elapsed = time.time() - start
+            output = proc.stdout + '\n' + proc.stderr
+            print('[Outer Loop MONITOR] RL job ran, returncode:', proc.returncode, flush=True)
+            # -- Show FULL output to terminal for each run --
+            print('--------- RL Runner Output (begin) ---------')
+            print(output)
+            print('--------- RL Runner Output (end) ---------')
+            with open(os.path.join(out_dir, 'outer_monitor.log'), 'a') as mlog:
+                mlog.write(f"[MONITOR {time.ctime()}] RL job returncode={proc.returncode} after {elapsed:.1f}s\n")
+                mlog.flush()
+            if proc.returncode != 0:
+                print(f'[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.', flush=True)
+        except subprocess.TimeoutExpired as e:
+            elapsed = time.time() - start
+            # Decode output if available and type bytes
+            def decode(val):
+                if val is None:
+                    return ''
+                if isinstance(val, bytes):
+                    return val.decode('utf-8', errors='replace')
+                return val
+            output = f"[TIMEOUT] Experiment timed out after {elapsed:.1f}s. Partial output below:\n" + decode(e.stdout) + '\n' + decode(e.stderr)
+            print('[OUTER MONITOR ALERT] RL runner timed out and was killed.', flush=True)
+            with open(os.path.join(out_dir, 'outer_monitor.log'), 'a') as mlog:
+                mlog.write(f"[MONITOR {time.ctime()}] RL runner timed out after {elapsed:.1f}s\n")
+                mlog.flush()
+        except Exception as e:
+            elapsed = time.time() - start
+            output = f"[ERROR] Experiment errored: {str(e)}"
+            print('[OUTER MONITOR ALERT] EXCEPTION LAUNCHING RL RUNNER:', str(e), flush=True)
+            with open(os.path.join(out_dir, 'outer_monitor.log'), 'a') as mlog:
+                mlog.write(f"[MONITOR {time.ctime()}] Exception launching RL runner: {str(e)}\n")
+                mlog.flush()
+
+        # Try to extract mean_reward from output (parse from '[SB3 Runner] Eval episodes=...')
+        mean_reward = None
+        for line in output.split('\n'):
+            if '[SB3 Runner] Eval episodes=' in line:
+                try:
+                    mean_reward = float(line.split('mean_reward=')[1].split()[0])
+                except Exception:
+                    mean_reward = None
+        result = {
+            'run_id': run_id,
+            'config_id': i,
+            'repeat': r,
+            'params': params,
+            'mean_reward': mean_reward,
+            'elapsed_sec': elapsed,
+            'run_status': 'timeout' if '[TIMEOUT]' in output else ('error' if '[ERROR]' in output else 'ok'),
+            'raw_output': output[:1000]
+        }
+        results.append(result)
+        with open(log_file, 'a') as f:
+            f.write(json.dumps(result) + '\n')
+        print(f"[Outer Loop] Finished {i+1} repeat {r+1}/{REPEATS}: status={result['run_status']} mean_reward={mean_reward}  time={elapsed:.1f}s")
+    print(f"\n[Outer Loop] Sweep done. Results saved in: {log_file}")
+    return results
+
+if __name__ == "__main__":
+    run_sweep()
--- a/agent/donkeycar_sb3_runner.py
+++ b/agent/donkeycar_sb3_runner.py
@ -0,0 +1,112 @@
+import argparse
+import gymnasium as gym
+import gym_donkeycar
+from stable_baselines3 import DQN, PPO
+from stable_baselines3.common.evaluation import evaluate_policy
+import os
+import sys
+import time
+from discretize_action import DiscretizedActionWrapper
+
+AGENT_MAP = {
+    'dqn': DQN,
+    'ppo': PPO,  # For later extension
+}
+
+def run_training(env_id, agent_name, total_timesteps, reward_shaping=False, eval_episodes=10, log_dir=None, seed=None, dqn_discretize=True, n_steer=3, n_throttle=3):
+    assert agent_name in AGENT_MAP, f"Agent '{agent_name}' not recognized. Available: {list(AGENT_MAP.keys())}"
+    AgentClass = AGENT_MAP[agent_name]
+
+    print('[SB3 Runner] Starting: Connecting to sim…', flush=True)
+    start = time.time()
+    try:
+        env = gym.make(env_id)
+        print(f'[SB3 Runner][MONITOR] Connected to gym env. {time.ctime()}', flush=True)
+    except Exception as e:
+        print(f'[SB3 Runner][MONITOR ALERT] Failed to connect to sim: {str(e)}', flush=True)
+        sys.exit(100)
+    if agent_name == 'dqn' and dqn_discretize:
+        env = DiscretizedActionWrapper(env, n_steer=n_steer, n_throttle=n_throttle)
+        print(f'[SB3 Runner][MONITOR] Action discretization: steer={n_steer}, throttle={n_throttle}. {time.ctime()}', flush=True)
+    EPISODES = 10  # Number of full env.reset runs for this special test
+    try:
+        ep_rewards = []
+        for episode in range(EPISODES):
+            ep_reward = 0.0
+            if seed is not None:
+                obs = env.reset(seed=seed)
+            else:
+                obs = env.reset()
+            print(f'[SB3 Runner][TEST] Episode {episode+1}/{EPISODES} - reset at {time.ctime()}', flush=True)
+            done = False
+            t = 0
+            while not done:
+                action = env.action_space.sample()
+                result = env.step(action)
+                if len(result) in (4, 5):  # obs, reward, done, info or obs, reward, done, truncated, info
+                    if len(result) == 4:
+                        obs, reward, done, info = result
+                    else:
+                        obs, reward, done, truncated, info = result
+                        done = done or truncated
+                else:
+                    print('[SB3 Runner][MONITOR] UNEXPECTED step() result shape!', flush=True)
+                    break
+                ep_reward += reward
+                t += 1
+                if t % 10 == 0 or done:
+                    print(f'[SB3 Runner][TEST] Step {t} done={done} reward={reward} {time.ctime()}', flush=True)
+                if done:
+                    print(f'[SB3 Runner][TEST] Episode {episode+1} ended after {t} steps, total_reward={ep_reward} at {time.ctime()}', flush=True)
+                    break
+            ep_rewards.append(ep_reward)
+        print(f'[SB3 Runner][TEST] All episode rewards: {ep_rewards}', flush=True)
+        if len(ep_rewards) > 0:
+            print(f'[SB3 Runner][TEST] mean_reward={sum(ep_rewards)/len(ep_rewards):.4f}', flush=True)
+    except Exception as e:
+        print(f'[SB3 Runner][MONITOR ALERT] Exception during episodes: {str(e)} {time.ctime()}', flush=True)
+        sys.exit(102)
+    # ---- NEW: Ensure teardown and sleep for race avoidance ----
+    print(f'[SB3 Runner][MONITOR] Calling env.close() at {time.ctime()}', flush=True)
+    try:
+        env.close()
+        print(f'[SB3 Runner][MONITOR] env.close() complete. {time.ctime()}', flush=True)
+    except Exception as e:
+        print(f'[SB3 Runner][MONITOR ALERT] Exception during env.close(): {str(e)} {time.ctime()}', flush=True)
+    print(f'[SB3 Runner][MONITOR] Waiting 2s before process exit to avoid race. {time.ctime()}', flush=True)
+    time.sleep(2)
+    print(f'[SB3 Runner][MONITOR] Exiting RL runner at {time.ctime()}', flush=True)
+
+    # Save if needed
+    if log_dir:
+        os.makedirs(log_dir, exist_ok=True)
+        save_path = os.path.join(log_dir, f'{agent_name}_model')
+        model.save(save_path)
+        print(f"[SB3 Runner] Model saved to {save_path}")
+
+    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=eval_episodes, return_episode_rewards=False)
+    print(f"[SB3 Runner] Eval episodes={eval_episodes}: mean_reward={mean_reward:.3f} std={std_reward:.3f}")
+    return mean_reward, std_reward
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Train/Eval an RL agent on DonkeyCar Gym using SB3.")
+    parser.add_argument('--agent', type=str, default='dqn', choices=AGENT_MAP.keys(), help='RL agent type')
+    parser.add_argument('--env', type=str, default='donkey-generated-roads-v0', help='Gym/Gymnasium env ID')
+    parser.add_argument('--timesteps', type=int, default=5000, help='Total training timesteps')
+    parser.add_argument('--eval-episodes', type=int, default=10, help='Episodes for evaluation after training')
+    parser.add_argument('--log-dir', type=str, default=None, help='Directory to save models')
+    parser.add_argument('--seed', type=int, default=None, help='Random seed')
+    parser.add_argument('--n-steer', type=int, default=3, help='Number of steer bins (DQN only)')
+    parser.add_argument('--n-throttle', type=int, default=3, help='Number of throttle bins (DQN only)')
+    args = parser.parse_args()
+
+    run_training(
+        env_id=args.env,
+        agent_name=args.agent,
+        total_timesteps=args.timesteps,
+        eval_episodes=args.eval_episodes,
+        log_dir=args.log_dir,
+        seed=args.seed,
+        n_steer=args.n_steer,
+        n_throttle=args.n_throttle
+    )
--- a/agent/donkeycar_sb3_runner.py.README.txt
+++ b/agent/donkeycar_sb3_runner.py.README.txt
@ -0,0 +1,33 @@
+# donkeycar_sb3_runner.py - Documentation
+
+This script is a robust Stable-Baselines3 RL agent for DonkeyCar
+with support for multiple consecutive episodes in one connection.
+
+## Typical invocation:
+
+    python3 donkeycar_sb3_runner.py
+
+- Connects once to DonkeyCar sim (port 9091)
+- Runs EPISODES consecutive RL episodes (edit in script)
+- Calls env.reset() each time to start a new episode
+- Random action for demonstration; replace action policy as needed
+- Calls env.close() and sleeps 2 seconds before exit
+
+## Usage:
+- Intended to be called by batch script for robust automation
+- Always ensure sim is running, agent is cleanly closed between runs
+
+## Key logic block in main():
+
+    for episode in range(EPISODES):
+        obs = env.reset()
+        done = False
+        while not done:
+            action = env.action_space.sample()
+            obs, reward, done, *_ = env.step(action)
+    env.close()
+
+## Troubleshooting:
+- If car disappears or sim blanks after batch, ensure no stuck python process
+- Wait 2+ seconds after run before restarting process
+- If stuck, restart Unity sim
--- a/agent/list_tracks.py
+++ b/agent/list_tracks.py
@ -0,0 +1,33 @@
+import gymnasium as gym
+import gym_donkeycar.envs
+import gym_donkeycar.envs.donkey_env
+import os
+import time
+
+host = os.environ.get('DONKEY_SIM_HOST', '10.0.0.55')
+port = int(os.environ.get('DONKEY_SIM_PORT', '9091'))
+print(f"Connecting to DonkeyCar sim at {host}:{port}")
+
+env = gym.make("donkey-generated-roads-v0")
+viewer = env.unwrapped.viewer
+handler = viewer.handler
+
+tracks = getattr(handler, 'scene_names', None)
+
+# Wait for the list if necessary
+timeout = 10
+while tracks is None and timeout > 0:
+    if hasattr(handler, 'scene_names') and handler.scene_names:
+        tracks = handler.scene_names
+        break
+    time.sleep(1)
+    timeout -= 1
+
+if tracks:
+    print("Available tracks/scenes:")
+    for t in tracks:
+        print(f" - {t}")
+else:
+    print("Could not retrieve track/scene list from simulator.")
+
+env.close()
--- a/agent/manual-multiepisode-2.log
+++ b/agent/manual-multiepisode-2.log
@ -0,0 +1,146 @@
+/home/paulh/.local/lib/python3.10/site-packages/matplotlib/projections/__init__.py:63: UserWarning: Unable to import Axes3D. This may be due to multiple versions of Matplotlib being installed (e.g. as a system package and as a pip package). As a result, the 3D projection is not available.
+  warnings.warn("Unable to import Axes3D. This may be due to multiple versions of "
+Gym has been unmaintained since 2022 and does not support NumPy 2.0 amongst other critical functionality.
+Please upgrade to Gymnasium, the maintained drop-in replacement of Gym, or contact the authors of your software and request that they upgrade.
+Users of this version of Gym should be able to simply replace 'import gym' with 'import gymnasium as gym' in the vast majority of cases.
+See the migration guide at https://gymnasium.farama.org/introduction/migration_guide/ for additional information.
+[SB3 Runner] Starting: Connecting to sim…
+INFO:gym_donkeycar.core.client:connecting to localhost:9091 
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:236: UserWarning: [33mWARN: Box low's precision lowered by casting to float32, current low.dtype=float64[0m
+  gym.logger.warn(
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:306: UserWarning: [33mWARN: Box high's precision lowered by casting to float32, current high.dtype=float64[0m
+  gym.logger.warn(
+INFO:gym_donkeycar.envs.donkey_sim:on need car config
+INFO:gym_donkeycar.envs.donkey_sim:sending car config.
+INFO:gym_donkeycar.envs.donkey_sim:sim started!
+starting DonkeyGym env
+Setting default: start_delay 5.0
+Setting default: max_cte 8.0
+Setting default: frame_skip 1
+Setting default: cam_resolution (120, 160, 3)
+Setting default: log_level 20
+Setting default: host localhost
+Setting default: port 9091
+Setting default: steer_limit 1.0
+Setting default: throttle_min 0.0
+Setting default: throttle_max 1.0
+[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 19:57:29 2026
+[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 19:57:29 2026
+[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 19:57:30 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.65973622115377 Sun Apr 12 19:57:30 2026
+[SB3 Runner][TEST] Step 20 done=False reward=1.1884950808425598 Sun Apr 12 19:57:30 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.030493603105293 Sun Apr 12 19:57:30 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.6701775521027226 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.3537362271643043 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Step 60 done=False reward=2.071823537152857 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.1412107556301043 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.531400429582428 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Step 85 done=True reward=-1.0 Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Episode 1 ended after 85 steps at Sun Apr 12 19:57:31 2026
+[SB3 Runner][TEST] Episode 2/10 - reset at Sun Apr 12 19:57:32 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.3517642298537958 Sun Apr 12 19:57:32 2026
+[SB3 Runner][TEST] Step 20 done=False reward=1.10426805722474 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.2677094612911042 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.1125143241312831 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.2738277273340333 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.73868911522483 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Step 70 done=True reward=-1.0 Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Episode 2 ended after 70 steps at Sun Apr 12 19:57:33 2026
+[SB3 Runner][TEST] Episode 3/10 - reset at Sun Apr 12 19:57:34 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5512915623663074 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9969566648206756 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.4076765903229824 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.610577303121507 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.7215608221699135 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.37001288481944394 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 70 done=False reward=0.6636441369443967 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.5281542085163107 Sun Apr 12 19:57:35 2026
+[SB3 Runner][TEST] Step 90 done=False reward=1.5192939765888214 Sun Apr 12 19:57:36 2026
+[SB3 Runner][TEST] Step 96 done=True reward=-1.0 Sun Apr 12 19:57:36 2026
+[SB3 Runner][TEST] Episode 3 ended after 96 steps at Sun Apr 12 19:57:36 2026
+[SB3 Runner][TEST] Episode 4/10 - reset at Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.37108938866914676 Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7009612471299641 Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.026097655316046 Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.1126686313594094 Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.4391326739177148 Sun Apr 12 19:57:37 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.9643492986693616 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Step 70 done=False reward=2.457193009993115 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Step 80 done=False reward=2.683375585003899 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Step 90 done=False reward=2.25998582224052 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Step 100 done=False reward=1.9117954410063445 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Step 110 done=True reward=-1.0 Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Episode 4 ended after 110 steps at Sun Apr 12 19:57:38 2026
+[SB3 Runner][TEST] Episode 5/10 - reset at Sun Apr 12 19:57:39 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.45228128771287196 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9079328685784457 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.279601721215537 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.553751360108707 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.2611143846889372 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.5730516208710905 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 70 done=False reward=0.0016544472972530836 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Step 71 done=True reward=-1.0 Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Episode 5 ended after 71 steps at Sun Apr 12 19:57:40 2026
+[SB3 Runner][TEST] Episode 6/10 - reset at Sun Apr 12 19:57:41 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5122266471391291 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7938577700491415 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.2431387325309327 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.45543744427726 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.6436637844747268 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 60 done=False reward=2.064149513858784 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 70 done=False reward=2.291397841179396 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.0851579410418273 Sun Apr 12 19:57:42 2026
+[SB3 Runner][TEST] Step 87 done=True reward=-1.0 Sun Apr 12 19:57:43 2026
+[SB3 Runner][TEST] Episode 6 ended after 87 steps at Sun Apr 12 19:57:43 2026
+[SB3 Runner][TEST] Episode 7/10 - reset at Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.38680656701677163 Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7034535460586123 Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.3315501206352756 Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.4771865126987036 Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.3632186824763255 Sun Apr 12 19:57:44 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.7204163374379118 Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Step 70 done=False reward=2.1055227916296837 Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.8273720968584293 Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Step 90 done=False reward=2.0188919489994968 Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Step 99 done=True reward=-1.0 Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Episode 7 ended after 99 steps at Sun Apr 12 19:57:45 2026
+[SB3 Runner][TEST] Episode 8/10 - reset at Sun Apr 12 19:57:46 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.3180216078099282 Sun Apr 12 19:57:46 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7682414740047867 Sun Apr 12 19:57:46 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.0876100763968364 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.2179832309108884 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.4772832334512174 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.7841821435362102 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.6490377811686423 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Step 79 done=True reward=-1.0 Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Episode 8 ended after 79 steps at Sun Apr 12 19:57:47 2026
+[SB3 Runner][TEST] Episode 9/10 - reset at Sun Apr 12 19:57:48 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.555979368458371 Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.8447797124538053 Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.1591942174480756 Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.3950196074073838 Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Step 44 done=True reward=-1.0 Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Episode 9 ended after 44 steps at Sun Apr 12 19:57:49 2026
+[SB3 Runner][TEST] Episode 10/10 - reset at Sun Apr 12 19:57:50 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.40446455734969455 Sun Apr 12 19:57:50 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7352505822066754 Sun Apr 12 19:57:50 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.8919553775798454 Sun Apr 12 19:57:50 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.2376695046485453 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.4253300169766028 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.7847450930917248 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.4717171459781562 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.9325417774621616 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 90 done=False reward=0.6907797291211867 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 100 done=False reward=0.7093277217756156 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Step 110 done=True reward=-1.0 Sun Apr 12 19:57:51 2026
+[SB3 Runner][TEST] Episode 10 ended after 110 steps at Sun Apr 12 19:57:51 2026
+[SB3 Runner][MONITOR] Calling env.close() at Sun Apr 12 19:57:51 2026
+[SB3 Runner][MONITOR] env.close() complete. Sun Apr 12 19:57:51 2026
+[SB3 Runner][MONITOR] Waiting 2s before process exit to avoid race. Sun Apr 12 19:57:51 2026
+[SB3 Runner][MONITOR] Exiting RL runner at Sun Apr 12 19:57:53 2026
+Traceback (most recent call last):
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 96, in <module>
+    run_training(
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 80, in run_training
+    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=eval_episodes, return_episode_rewards=False)
+NameError: name 'model' is not defined
--- a/agent/manual-multiepisode-3.log
+++ b/agent/manual-multiepisode-3.log
@ -0,0 +1,146 @@
+/home/paulh/.local/lib/python3.10/site-packages/matplotlib/projections/__init__.py:63: UserWarning: Unable to import Axes3D. This may be due to multiple versions of Matplotlib being installed (e.g. as a system package and as a pip package). As a result, the 3D projection is not available.
+  warnings.warn("Unable to import Axes3D. This may be due to multiple versions of "
+Gym has been unmaintained since 2022 and does not support NumPy 2.0 amongst other critical functionality.
+Please upgrade to Gymnasium, the maintained drop-in replacement of Gym, or contact the authors of your software and request that they upgrade.
+Users of this version of Gym should be able to simply replace 'import gym' with 'import gymnasium as gym' in the vast majority of cases.
+See the migration guide at https://gymnasium.farama.org/introduction/migration_guide/ for additional information.
+[SB3 Runner] Starting: Connecting to sim…
+INFO:gym_donkeycar.core.client:connecting to localhost:9091 
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:236: UserWarning: [33mWARN: Box low's precision lowered by casting to float32, current low.dtype=float64[0m
+  gym.logger.warn(
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:306: UserWarning: [33mWARN: Box high's precision lowered by casting to float32, current high.dtype=float64[0m
+  gym.logger.warn(
+INFO:gym_donkeycar.envs.donkey_sim:on need car config
+INFO:gym_donkeycar.envs.donkey_sim:sending car config.
+INFO:gym_donkeycar.envs.donkey_sim:sim started!
+starting DonkeyGym env
+Setting default: start_delay 5.0
+Setting default: max_cte 8.0
+Setting default: frame_skip 1
+Setting default: cam_resolution (120, 160, 3)
+Setting default: log_level 20
+Setting default: host localhost
+Setting default: port 9091
+Setting default: steer_limit 1.0
+Setting default: throttle_min 0.0
+Setting default: throttle_max 1.0
+[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 19:58:56 2026
+[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 19:58:56 2026
+[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 19:58:57 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.32608010951990435 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.8302534278905137 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.1230142275158306 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.0248228501508583 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.521882068657528 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.0531653021772314 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 70 done=False reward=0.8178603458445483 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Step 75 done=True reward=-1.0 Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Episode 1 ended after 75 steps at Sun Apr 12 19:58:58 2026
+[SB3 Runner][TEST] Episode 2/10 - reset at Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.38533445717021675 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7649677026200243 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.7731092943849598 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.6308025746064175 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.6634409278232422 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.2806292948299258 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.7098584306152653 Sun Apr 12 19:59:00 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.771212316366094 Sun Apr 12 19:59:01 2026
+[SB3 Runner][TEST] Step 90 done=False reward=0.3816500226473798 Sun Apr 12 19:59:01 2026
+[SB3 Runner][TEST] Step 92 done=True reward=-1.0 Sun Apr 12 19:59:01 2026
+[SB3 Runner][TEST] Episode 2 ended after 92 steps at Sun Apr 12 19:59:01 2026
+[SB3 Runner][TEST] Episode 3/10 - reset at Sun Apr 12 19:59:02 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.7621313146618053 Sun Apr 12 19:59:02 2026
+[SB3 Runner][TEST] Step 20 done=False reward=1.3337031082716766 Sun Apr 12 19:59:02 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.5420516759777596 Sun Apr 12 19:59:02 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.3035605945127502 Sun Apr 12 19:59:02 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.9745527926964705 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.9356667483054228 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Step 70 done=False reward=0.27197154201078466 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.7830663107438873 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Step 90 done=False reward=2.0101459251375675 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Step 98 done=True reward=-1.0 Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Episode 3 ended after 98 steps at Sun Apr 12 19:59:03 2026
+[SB3 Runner][TEST] Episode 4/10 - reset at Sun Apr 12 19:59:04 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5426217920848124 Sun Apr 12 19:59:04 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.630862758486649 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9734468451726926 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.7491807114485405 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.5569107882641746 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.1391929616440028 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Step 65 done=True reward=-1.0 Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Episode 4 ended after 65 steps at Sun Apr 12 19:59:05 2026
+[SB3 Runner][TEST] Episode 5/10 - reset at Sun Apr 12 19:59:06 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.4077573971715652 Sun Apr 12 19:59:06 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.8898746609040286 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9553023372336991 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.1564543316998053 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.568387571635518 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.842262229241626 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.9539970875268022 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.8666653564753383 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Step 87 done=True reward=-1.0 Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Episode 5 ended after 87 steps at Sun Apr 12 19:59:07 2026
+[SB3 Runner][TEST] Episode 6/10 - reset at Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5719979027693585 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9548205527433758 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.4003965152433093 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.711094098490514 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.9404293776997519 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Step 58 done=True reward=-1.0 Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Episode 6 ended after 58 steps at Sun Apr 12 19:59:09 2026
+[SB3 Runner][TEST] Episode 7/10 - reset at Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.4773028250089446 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 20 done=False reward=1.0090479448898033 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.098327056487593 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.6078077052474644 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.3092639411947555 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Step 58 done=True reward=-1.0 Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Episode 7 ended after 58 steps at Sun Apr 12 19:59:11 2026
+[SB3 Runner][TEST] Episode 8/10 - reset at Sun Apr 12 19:59:12 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.24840719907692227 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.5669613457895365 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.8472608457181932 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.1531690791524396 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.4755086312736243 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.56438365238439 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Step 70 done=True reward=-1.0 Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Episode 8 ended after 70 steps at Sun Apr 12 19:59:13 2026
+[SB3 Runner][TEST] Episode 9/10 - reset at Sun Apr 12 19:59:14 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.42561286671869425 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9136248593862019 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.3251450788926085 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.5581253706388647 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.7696660805611566 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.0776998680022811 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.0183447506183294 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.559360266695449 Sun Apr 12 19:59:15 2026
+[SB3 Runner][TEST] Step 90 done=False reward=1.751976485650535 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 100 done=False reward=2.160529440411731 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 110 done=False reward=2.1521649675111094 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 120 done=False reward=1.4079349152930458 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 130 done=False reward=0.5146867028981775 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 140 done=False reward=0.14714268124567526 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Step 149 done=True reward=-1.0 Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Episode 9 ended after 149 steps at Sun Apr 12 19:59:16 2026
+[SB3 Runner][TEST] Episode 10/10 - reset at Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.3237753708118084 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.646603078485757 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.6509858820811697 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.0720566540085446 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.8535064361907827 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.9670087837469651 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.227633868276993 Sun Apr 12 19:59:18 2026
+[SB3 Runner][TEST] Step 80 done=False reward=1.760075337058753 Sun Apr 12 19:59:19 2026
+[SB3 Runner][TEST] Step 90 done=False reward=1.1524909109580677 Sun Apr 12 19:59:19 2026
+[SB3 Runner][TEST] Step 95 done=True reward=-1.0 Sun Apr 12 19:59:19 2026
+[SB3 Runner][TEST] Episode 10 ended after 95 steps at Sun Apr 12 19:59:19 2026
+[SB3 Runner][MONITOR] Calling env.close() at Sun Apr 12 19:59:19 2026
+[SB3 Runner][MONITOR] env.close() complete. Sun Apr 12 19:59:19 2026
+[SB3 Runner][MONITOR] Waiting 2s before process exit to avoid race. Sun Apr 12 19:59:19 2026
+[SB3 Runner][MONITOR] Exiting RL runner at Sun Apr 12 19:59:21 2026
+Traceback (most recent call last):
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 96, in <module>
+    run_training(
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 80, in run_training
+    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=eval_episodes, return_episode_rewards=False)
+NameError: name 'model' is not defined
--- a/agent/manual-multiepisode-batch.log
+++ b/agent/manual-multiepisode-batch.log
--- a/agent/manual-multiepisode.log
+++ b/agent/manual-multiepisode.log
@ -0,0 +1,129 @@
+/home/paulh/.local/lib/python3.10/site-packages/matplotlib/projections/__init__.py:63: UserWarning: Unable to import Axes3D. This may be due to multiple versions of Matplotlib being installed (e.g. as a system package and as a pip package). As a result, the 3D projection is not available.
+  warnings.warn("Unable to import Axes3D. This may be due to multiple versions of "
+Gym has been unmaintained since 2022 and does not support NumPy 2.0 amongst other critical functionality.
+Please upgrade to Gymnasium, the maintained drop-in replacement of Gym, or contact the authors of your software and request that they upgrade.
+Users of this version of Gym should be able to simply replace 'import gym' with 'import gymnasium as gym' in the vast majority of cases.
+See the migration guide at https://gymnasium.farama.org/introduction/migration_guide/ for additional information.
+[SB3 Runner] Starting: Connecting to sim…
+INFO:gym_donkeycar.core.client:connecting to localhost:9091 
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:236: UserWarning: [33mWARN: Box low's precision lowered by casting to float32, current low.dtype=float64[0m
+  gym.logger.warn(
+/home/paulh/.local/lib/python3.10/site-packages/gymnasium/spaces/box.py:306: UserWarning: [33mWARN: Box high's precision lowered by casting to float32, current high.dtype=float64[0m
+  gym.logger.warn(
+INFO:gym_donkeycar.envs.donkey_sim:on need car config
+INFO:gym_donkeycar.envs.donkey_sim:sending car config.
+INFO:gym_donkeycar.envs.donkey_sim:sim started!
+starting DonkeyGym env
+Setting default: start_delay 5.0
+Setting default: max_cte 8.0
+Setting default: frame_skip 1
+Setting default: cam_resolution (120, 160, 3)
+Setting default: log_level 20
+Setting default: host localhost
+Setting default: port 9091
+Setting default: steer_limit 1.0
+Setting default: throttle_min 0.0
+Setting default: throttle_max 1.0
+[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 18:31:15 2026
+[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 18:31:15 2026
+[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 18:31:16 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5930426588362355 Sun Apr 12 18:31:16 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.997441518953447 Sun Apr 12 18:31:16 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.1941875486665035 Sun Apr 12 18:31:17 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.5993382963800269 Sun Apr 12 18:31:17 2026
+[SB3 Runner][TEST] Step 45 done=True reward=-1.0 Sun Apr 12 18:31:17 2026
+[SB3 Runner][TEST] Episode 1 ended after 45 steps at Sun Apr 12 18:31:17 2026
+[SB3 Runner][TEST] Episode 2/10 - reset at Sun Apr 12 18:31:18 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.4826139388690259 Sun Apr 12 18:31:18 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.8654003065327203 Sun Apr 12 18:31:18 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9328340114788956 Sun Apr 12 18:31:18 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.1622743851070587 Sun Apr 12 18:31:18 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.1639181208228253 Sun Apr 12 18:31:19 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.21848382425902 Sun Apr 12 18:31:19 2026
+[SB3 Runner][TEST] Step 70 done=False reward=0.46584762516979156 Sun Apr 12 18:31:19 2026
+[SB3 Runner][TEST] Step 73 done=True reward=-1.0 Sun Apr 12 18:31:19 2026
+[SB3 Runner][TEST] Episode 2 ended after 73 steps at Sun Apr 12 18:31:19 2026
+[SB3 Runner][TEST] Episode 3/10 - reset at Sun Apr 12 18:31:20 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.6652096245553486 Sun Apr 12 18:31:20 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7925811900478051 Sun Apr 12 18:31:20 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.6341827565527142 Sun Apr 12 18:31:20 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.20084529352851524 Sun Apr 12 18:31:20 2026
+[SB3 Runner][TEST] Step 43 done=True reward=-1.0 Sun Apr 12 18:31:21 2026
+[SB3 Runner][TEST] Episode 3 ended after 43 steps at Sun Apr 12 18:31:21 2026
+[SB3 Runner][TEST] Episode 4/10 - reset at Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.22212704854517798 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.6518347935240981 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9699760916612442 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.8608282098560048 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.8989730803351469 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.0844938168551912 Sun Apr 12 18:31:22 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.2466014578834543 Sun Apr 12 18:31:23 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.2890535957662288 Sun Apr 12 18:31:23 2026
+[SB3 Runner][TEST] Step 83 done=True reward=-1.0 Sun Apr 12 18:31:23 2026
+[SB3 Runner][TEST] Episode 4 ended after 83 steps at Sun Apr 12 18:31:23 2026
+[SB3 Runner][TEST] Episode 5/10 - reset at Sun Apr 12 18:31:24 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.4837720168557684 Sun Apr 12 18:31:24 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9686156739779137 Sun Apr 12 18:31:24 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.3094894960374734 Sun Apr 12 18:31:24 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.9944284362413319 Sun Apr 12 18:31:24 2026
+[SB3 Runner][TEST] Step 47 done=True reward=-1.0 Sun Apr 12 18:31:25 2026
+[SB3 Runner][TEST] Episode 5 ended after 47 steps at Sun Apr 12 18:31:25 2026
+[SB3 Runner][TEST] Episode 6/10 - reset at Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.5445520465699564 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.9033961034646071 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9666531558798608 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.0097969878717084 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 50 done=False reward=0.5304824640369848 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.04834838843519289 Sun Apr 12 18:31:26 2026
+[SB3 Runner][TEST] Step 62 done=True reward=-1.0 Sun Apr 12 18:31:27 2026
+[SB3 Runner][TEST] Episode 6 ended after 62 steps at Sun Apr 12 18:31:27 2026
+[SB3 Runner][TEST] Episode 7/10 - reset at Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.3405417867729822 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.798850656905738 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.2296185512178774 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.5394884675497758 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.277175453253055 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 60 done=False reward=0.7019350307128625 Sun Apr 12 18:31:28 2026
+[SB3 Runner][TEST] Step 69 done=True reward=-1.0 Sun Apr 12 18:31:29 2026
+[SB3 Runner][TEST] Episode 7 ended after 69 steps at Sun Apr 12 18:31:29 2026
+[SB3 Runner][TEST] Episode 8/10 - reset at Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.12976049310661597 Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.7133498608528163 Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.1313272635627378 Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.9239206112267117 Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Step 50 done=True reward=-1.0 Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Episode 8 ended after 50 steps at Sun Apr 12 18:31:30 2026
+[SB3 Runner][TEST] Episode 9/10 - reset at Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.36319903336485754 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 20 done=False reward=0.8072070462807343 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 30 done=False reward=0.9241814878599295 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 40 done=False reward=0.9719169073620998 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.4046429710786545 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.5828575208286337 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 70 done=False reward=2.088702421722637 Sun Apr 12 18:31:32 2026
+[SB3 Runner][TEST] Step 80 done=False reward=2.07654815461745 Sun Apr 12 18:31:33 2026
+[SB3 Runner][TEST] Step 90 done=False reward=1.6185808817709257 Sun Apr 12 18:31:33 2026
+[SB3 Runner][TEST] Step 100 done=False reward=0.5252543080985448 Sun Apr 12 18:31:33 2026
+[SB3 Runner][TEST] Step 103 done=True reward=-1.0 Sun Apr 12 18:31:33 2026
+[SB3 Runner][TEST] Episode 9 ended after 103 steps at Sun Apr 12 18:31:33 2026
+[SB3 Runner][TEST] Episode 10/10 - reset at Sun Apr 12 18:31:34 2026
+[SB3 Runner][TEST] Step 10 done=False reward=0.458559941991351 Sun Apr 12 18:31:34 2026
+[SB3 Runner][TEST] Step 20 done=False reward=1.0177022510031632 Sun Apr 12 18:31:34 2026
+[SB3 Runner][TEST] Step 30 done=False reward=1.0650337275461486 Sun Apr 12 18:31:34 2026
+[SB3 Runner][TEST] Step 40 done=False reward=1.0550222437169967 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Step 50 done=False reward=1.0804996123982493 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Step 60 done=False reward=1.6714580755293313 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Step 70 done=False reward=1.3632747403945464 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Step 80 done=False reward=0.17668566845698339 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Step 82 done=True reward=-1.0 Sun Apr 12 18:31:35 2026
+[SB3 Runner][TEST] Episode 10 ended after 82 steps at Sun Apr 12 18:31:35 2026
+[SB3 Runner][MONITOR] Calling env.close() at Sun Apr 12 18:31:35 2026
+[SB3 Runner][MONITOR] env.close() complete. Sun Apr 12 18:31:35 2026
+[SB3 Runner][MONITOR] Waiting 2s before process exit to avoid race. Sun Apr 12 18:31:35 2026
+[SB3 Runner][MONITOR] Exiting RL runner at Sun Apr 12 18:31:37 2026
+Traceback (most recent call last):
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 96, in <module>
+    run_training(
+  File "/home/paulh/.pi/agent/donkeycar_sb3_runner.py", line 80, in run_training
+    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=eval_episodes, return_episode_rewards=False)
+NameError: name 'model' is not defined
--- a/agent/manual_multiepisode-batch-run.log
+++ b/agent/manual_multiepisode-batch-run.log
@ -0,0 +1,40 @@
+===== RUN 1 ===== Sun Apr 12 08:00:32 PM EDT 2026
+===== END RUN 1 ===== Sun Apr 12 08:00:58 PM EDT 2026
+===== RUN 2 ===== Sun Apr 12 08:01:00 PM EDT 2026
+===== END RUN 2 ===== Sun Apr 12 08:01:24 PM EDT 2026
+===== RUN 3 ===== Sun Apr 12 08:01:26 PM EDT 2026
+===== END RUN 3 ===== Sun Apr 12 08:01:52 PM EDT 2026
+===== RUN 4 ===== Sun Apr 12 08:01:54 PM EDT 2026
+===== END RUN 4 ===== Sun Apr 12 08:02:19 PM EDT 2026
+===== RUN 5 ===== Sun Apr 12 08:02:21 PM EDT 2026
+===== END RUN 5 ===== Sun Apr 12 08:02:46 PM EDT 2026
+===== RUN 6 ===== Sun Apr 12 08:02:48 PM EDT 2026
+===== END RUN 6 ===== Sun Apr 12 08:03:14 PM EDT 2026
+===== RUN 7 ===== Sun Apr 12 08:03:16 PM EDT 2026
+===== END RUN 7 ===== Sun Apr 12 08:03:41 PM EDT 2026
+===== RUN 8 ===== Sun Apr 12 08:03:43 PM EDT 2026
+===== END RUN 8 ===== Sun Apr 12 08:04:09 PM EDT 2026
+===== RUN 9 ===== Sun Apr 12 08:04:11 PM EDT 2026
+===== END RUN 9 ===== Sun Apr 12 08:04:36 PM EDT 2026
+===== RUN 10 ===== Sun Apr 12 08:04:38 PM EDT 2026
+===== END RUN 10 ===== Sun Apr 12 08:05:05 PM EDT 2026
+===== RUN 11 ===== Sun Apr 12 08:05:07 PM EDT 2026
+===== END RUN 11 ===== Sun Apr 12 08:05:34 PM EDT 2026
+===== RUN 12 ===== Sun Apr 12 08:05:36 PM EDT 2026
+===== END RUN 12 ===== Sun Apr 12 08:06:02 PM EDT 2026
+===== RUN 13 ===== Sun Apr 12 08:06:04 PM EDT 2026
+===== END RUN 13 ===== Sun Apr 12 08:06:29 PM EDT 2026
+===== RUN 14 ===== Sun Apr 12 08:06:31 PM EDT 2026
+===== END RUN 14 ===== Sun Apr 12 08:06:55 PM EDT 2026
+===== RUN 15 ===== Sun Apr 12 08:06:57 PM EDT 2026
+===== END RUN 15 ===== Sun Apr 12 08:07:21 PM EDT 2026
+===== RUN 16 ===== Sun Apr 12 08:07:23 PM EDT 2026
+===== END RUN 16 ===== Sun Apr 12 08:07:48 PM EDT 2026
+===== RUN 17 ===== Sun Apr 12 08:07:50 PM EDT 2026
+===== END RUN 17 ===== Sun Apr 12 08:08:15 PM EDT 2026
+===== RUN 18 ===== Sun Apr 12 08:08:17 PM EDT 2026
+===== END RUN 18 ===== Sun Apr 12 08:08:43 PM EDT 2026
+===== RUN 19 ===== Sun Apr 12 08:08:45 PM EDT 2026
+===== END RUN 19 ===== Sun Apr 12 08:09:10 PM EDT 2026
+===== RUN 20 ===== Sun Apr 12 08:09:12 PM EDT 2026
+===== END RUN 20 ===== Sun Apr 12 08:09:40 PM EDT 2026
--- a/agent/manual_multiepisode_batch.sh
+++ b/agent/manual_multiepisode_batch.sh
@ -0,0 +1,8 @@
+#!/bin/bash
+# Robust batch run for DonkeyCar RL
+for i in {1..20}; do
+  echo "===== RUN $i ===== $(date)" | tee -a /home/paulh/.pi/agent/manual-multiepisode-batch.log
+  python3 /home/paulh/.pi/agent/donkeycar_sb3_runner.py >> /home/paulh/.pi/agent/manual-multiepisode-batch.log 2>&1
+  echo "===== END RUN $i ===== $(date)" | tee -a /home/paulh/.pi/agent/manual-multiepisode-batch.log
+  sleep 2
+done
--- a/agent/outerloop-results/model-000/dqn_model.zip
+++ b/agent/outerloop-results/model-000/dqn_model.zip
--- a/agent/outerloop-results/model-001/dqn_model.zip
+++ b/agent/outerloop-results/model-001/dqn_model.zip
--- a/agent/outerloop-results/model-002/dqn_model.zip
+++ b/agent/outerloop-results/model-002/dqn_model.zip
--- a/agent/outerloop-results/model-003/dqn_model.zip
+++ b/agent/outerloop-results/model-003/dqn_model.zip
--- a/agent/outerloop-results/nohup_outerloop.log
+++ b/agent/outerloop-results/nohup_outerloop.log
@ -0,0 +1,326 @@
+
+[Outer Loop] Running config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:39:35 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:39:37 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:39:39 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 1 repeat 3/3: status=ok mean_reward=None  time=26.6s
+
+[Outer Loop] Running config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:07 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:09 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:11 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 2 repeat 3/3: status=ok mean_reward=None  time=25.9s
+
+[Outer Loop] Running config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:39 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:41 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:40:43 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 3 repeat 3/3: status=ok mean_reward=None  time=25.6s
+
+[Outer Loop] Running config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:11 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:13 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:15 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 4 repeat 3/3: status=ok mean_reward=None  time=26.2s
+
+[Outer Loop] Running config 5 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:43 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 5 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:45 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 5 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:41:47 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 5 repeat 3/3: status=ok mean_reward=None  time=25.5s
+
+[Outer Loop] Running config 6 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:15 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 6 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:17 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 6 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:19 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 6 repeat 3/3: status=ok mean_reward=None  time=25.5s
+
+[Outer Loop] Running config 7 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:46 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 7 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:48 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 7 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:42:50 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 7 repeat 3/3: status=ok mean_reward=None  time=25.2s
+
+[Outer Loop] Running config 8 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:17 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 8 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:19 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 8 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:21 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 8 repeat 3/3: status=ok mean_reward=None  time=25.2s
+
+[Outer Loop] Running config 9 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:49 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 9 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:51 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 9 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:43:53 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 9 repeat 3/3: status=ok mean_reward=None  time=24.8s
+
+[Outer Loop] Running config 10 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:20 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 10 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:22 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 10 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:24 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 10 repeat 3/3: status=ok mean_reward=None  time=24.9s
+
+[Outer Loop] Running config 11 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:50 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 11 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:53 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 11 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:44:55 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 11 repeat 3/3: status=ok mean_reward=None  time=26.4s
+
+[Outer Loop] Running config 12 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:23 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 12 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:25 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 12 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:27 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 12 repeat 3/3: status=ok mean_reward=None  time=25.7s
+
+[Outer Loop] Running config 13 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:55 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 13 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:57 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 13 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:45:59 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 13 repeat 3/3: status=ok mean_reward=None  time=25.2s
+
+[Outer Loop] Running config 14 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:46:26 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 14 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:46:28 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 14 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:46:30 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 14 repeat 3/3: status=ok mean_reward=None  time=25.1s
+
+[Outer Loop] Running config 15 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:46:57 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 15 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:46:59 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 15 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:47:01 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 15 repeat 3/3: status=ok mean_reward=None  time=25.8s
+
+[Outer Loop] Running config 16 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:47:29 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 16 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:47:31 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 16 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:47:33 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 16 repeat 3/3: status=ok mean_reward=None  time=26.2s
+
+[Outer Loop] Running config 17 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:01 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 17 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:03 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 17 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:05 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 17 repeat 3/3: status=ok mean_reward=None  time=25.0s
+
+[Outer Loop] Running config 18 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:32 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 18 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:34 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+
+[Outer Loop] Running config 18 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[Outer Loop] Killing any stalled RL jobs…
+[Outer Loop MONITOR] Sleeping 2s after RL job kill to ensure teardown, Sun Apr 12 20:48:36 2026
+[Outer Loop MONITOR] Launching inner RL job now...
+[Outer Loop MONITOR] RL job ran, returncode: 1
+[OUTER MONITOR ALERT] RL runner exited with error, see results/log file.
+[Outer Loop] Finished 18 repeat 3/3: status=ok mean_reward=None  time=24.8s
+
+[Outer Loop] Sweep done. Results saved in: /home/paulh/.pi/agent/outerloop-results/sweep_results.jsonl
--- a/agent/outerloop-results/outer_monitor.log
+++ b/agent/outerloop-results/outer_monitor.log
@ -0,0 +1,836 @@
+
+[MONITOR Sun Apr 12 18:26:22 2026] Starting config 1: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 50, 'eval_episodes': 1}
+[MONITOR Sun Apr 12 18:26:22 2026] RL job returncode=-9 after 157.9s
+[MONITOR Sun Apr 12 18:26:24 2026] Launching inner RL job for config 1
+[MONITOR Sun Apr 12 18:32:25 2026] RL runner timed out after 361.2s
+
+[MONITOR Sun Apr 12 20:22:02 2026] Starting config 1: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:22:04 2026] Launching inner RL job for config 1
+[MONITOR Sun Apr 12 20:22:29 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 20:22:29 2026] Starting config 2: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:22:31 2026] Launching inner RL job for config 2
+[MONITOR Sun Apr 12 20:22:56 2026] RL job returncode=1 after 25.4s
+
+[MONITOR Sun Apr 12 20:22:56 2026] Starting config 3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:22:58 2026] Launching inner RL job for config 3
+[MONITOR Sun Apr 12 20:23:24 2026] RL job returncode=1 after 26.1s
+
+[MONITOR Sun Apr 12 20:23:24 2026] Starting config 4: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:23:26 2026] Launching inner RL job for config 4
+[MONITOR Sun Apr 12 20:23:51 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 20:23:51 2026] Starting config 5: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:23:53 2026] Launching inner RL job for config 5
+[MONITOR Sun Apr 12 20:24:17 2026] RL job returncode=1 after 24.0s
+
+[MONITOR Sun Apr 12 20:24:17 2026] Starting config 6: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:24:19 2026] Launching inner RL job for config 6
+[MONITOR Sun Apr 12 20:24:43 2026] RL job returncode=1 after 24.1s
+
+[MONITOR Sun Apr 12 20:24:43 2026] Starting config 7: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:24:45 2026] Launching inner RL job for config 7
+[MONITOR Sun Apr 12 20:25:09 2026] RL job returncode=1 after 23.8s
+
+[MONITOR Sun Apr 12 20:25:09 2026] Starting config 8: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:25:11 2026] Launching inner RL job for config 8
+[MONITOR Sun Apr 12 20:25:36 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 20:25:36 2026] Starting config 9: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:25:38 2026] Launching inner RL job for config 9
+[MONITOR Sun Apr 12 20:26:03 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 20:26:03 2026] Starting config 10: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:26:05 2026] Launching inner RL job for config 10
+[MONITOR Sun Apr 12 20:26:29 2026] RL job returncode=1 after 24.0s
+
+[MONITOR Sun Apr 12 20:26:29 2026] Starting config 11: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:26:31 2026] Launching inner RL job for config 11
+[MONITOR Sun Apr 12 20:26:55 2026] RL job returncode=1 after 23.9s
+
+[MONITOR Sun Apr 12 20:26:55 2026] Starting config 12: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:26:57 2026] Launching inner RL job for config 12
+[MONITOR Sun Apr 12 20:27:22 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 20:27:22 2026] Starting config 13: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:27:24 2026] Launching inner RL job for config 13
+[MONITOR Sun Apr 12 20:27:50 2026] RL job returncode=1 after 25.9s
+
+[MONITOR Sun Apr 12 20:27:50 2026] Starting config 14: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:27:52 2026] Launching inner RL job for config 14
+[MONITOR Sun Apr 12 20:28:16 2026] RL job returncode=1 after 24.3s
+
+[MONITOR Sun Apr 12 20:28:16 2026] Starting config 15: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:28:18 2026] Launching inner RL job for config 15
+[MONITOR Sun Apr 12 20:28:44 2026] RL job returncode=1 after 25.6s
+
+[MONITOR Sun Apr 12 20:28:44 2026] Starting config 16: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:28:46 2026] Launching inner RL job for config 16
+[MONITOR Sun Apr 12 20:29:11 2026] RL job returncode=1 after 25.8s
+
+[MONITOR Sun Apr 12 20:29:11 2026] Starting config 17: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:29:13 2026] Launching inner RL job for config 17
+[MONITOR Sun Apr 12 20:29:39 2026] RL job returncode=1 after 25.6s
+
+[MONITOR Sun Apr 12 20:29:39 2026] Starting config 18: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:29:41 2026] Launching inner RL job for config 18
+[MONITOR Sun Apr 12 20:30:06 2026] RL job returncode=1 after 25.5s
+
+[MONITOR Sun Apr 12 20:39:35 2026] Starting config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:39:37 2026] Launching inner RL job for config 1 repeat 1
+
+[MONITOR Sun Apr 12 20:39:37 2026] Starting config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:39:39 2026] Launching inner RL job for config 1 repeat 2
+
+[MONITOR Sun Apr 12 20:39:39 2026] Starting config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:39:41 2026] Launching inner RL job for config 1 repeat 3
+[MONITOR Sun Apr 12 20:40:07 2026] RL job returncode=1 after 26.6s
+
+[MONITOR Sun Apr 12 20:40:07 2026] Starting config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:09 2026] Launching inner RL job for config 2 repeat 1
+
+[MONITOR Sun Apr 12 20:40:09 2026] Starting config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:11 2026] Launching inner RL job for config 2 repeat 2
+
+[MONITOR Sun Apr 12 20:40:11 2026] Starting config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:13 2026] Launching inner RL job for config 2 repeat 3
+[MONITOR Sun Apr 12 20:40:39 2026] RL job returncode=1 after 25.9s
+
+[MONITOR Sun Apr 12 20:40:39 2026] Starting config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:41 2026] Launching inner RL job for config 3 repeat 1
+
+[MONITOR Sun Apr 12 20:40:41 2026] Starting config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:43 2026] Launching inner RL job for config 3 repeat 2
+
+[MONITOR Sun Apr 12 20:40:43 2026] Starting config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:40:45 2026] Launching inner RL job for config 3 repeat 3
+[MONITOR Sun Apr 12 20:41:11 2026] RL job returncode=1 after 25.6s
+
+[MONITOR Sun Apr 12 20:41:11 2026] Starting config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:13 2026] Launching inner RL job for config 4 repeat 1
+
+[MONITOR Sun Apr 12 20:41:13 2026] Starting config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:15 2026] Launching inner RL job for config 4 repeat 2
+
+[MONITOR Sun Apr 12 20:41:15 2026] Starting config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:17 2026] Launching inner RL job for config 4 repeat 3
+[MONITOR Sun Apr 12 20:41:43 2026] RL job returncode=1 after 26.2s
+
+[MONITOR Sun Apr 12 20:41:43 2026] Starting config 5 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:45 2026] Launching inner RL job for config 5 repeat 1
+
+[MONITOR Sun Apr 12 20:41:45 2026] Starting config 5 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:47 2026] Launching inner RL job for config 5 repeat 2
+
+[MONITOR Sun Apr 12 20:41:47 2026] Starting config 5 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:41:49 2026] Launching inner RL job for config 5 repeat 3
+[MONITOR Sun Apr 12 20:42:15 2026] RL job returncode=1 after 25.5s
+
+[MONITOR Sun Apr 12 20:42:15 2026] Starting config 6 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:17 2026] Launching inner RL job for config 6 repeat 1
+
+[MONITOR Sun Apr 12 20:42:17 2026] Starting config 6 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:19 2026] Launching inner RL job for config 6 repeat 2
+
+[MONITOR Sun Apr 12 20:42:19 2026] Starting config 6 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:21 2026] Launching inner RL job for config 6 repeat 3
+[MONITOR Sun Apr 12 20:42:46 2026] RL job returncode=1 after 25.5s
+
+[MONITOR Sun Apr 12 20:42:46 2026] Starting config 7 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:48 2026] Launching inner RL job for config 7 repeat 1
+
+[MONITOR Sun Apr 12 20:42:48 2026] Starting config 7 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:50 2026] Launching inner RL job for config 7 repeat 2
+
+[MONITOR Sun Apr 12 20:42:50 2026] Starting config 7 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:42:52 2026] Launching inner RL job for config 7 repeat 3
+[MONITOR Sun Apr 12 20:43:17 2026] RL job returncode=1 after 25.2s
+
+[MONITOR Sun Apr 12 20:43:17 2026] Starting config 8 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:19 2026] Launching inner RL job for config 8 repeat 1
+
+[MONITOR Sun Apr 12 20:43:19 2026] Starting config 8 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:21 2026] Launching inner RL job for config 8 repeat 2
+
+[MONITOR Sun Apr 12 20:43:21 2026] Starting config 8 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:23 2026] Launching inner RL job for config 8 repeat 3
+[MONITOR Sun Apr 12 20:43:49 2026] RL job returncode=1 after 25.2s
+
+[MONITOR Sun Apr 12 20:43:49 2026] Starting config 9 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:51 2026] Launching inner RL job for config 9 repeat 1
+
+[MONITOR Sun Apr 12 20:43:51 2026] Starting config 9 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:53 2026] Launching inner RL job for config 9 repeat 2
+
+[MONITOR Sun Apr 12 20:43:53 2026] Starting config 9 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:43:55 2026] Launching inner RL job for config 9 repeat 3
+[MONITOR Sun Apr 12 20:44:20 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 20:44:20 2026] Starting config 10 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:22 2026] Launching inner RL job for config 10 repeat 1
+
+[MONITOR Sun Apr 12 20:44:22 2026] Starting config 10 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:24 2026] Launching inner RL job for config 10 repeat 2
+
+[MONITOR Sun Apr 12 20:44:24 2026] Starting config 10 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:26 2026] Launching inner RL job for config 10 repeat 3
+[MONITOR Sun Apr 12 20:44:50 2026] RL job returncode=1 after 24.9s
+
+[MONITOR Sun Apr 12 20:44:50 2026] Starting config 11 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:52 2026] Launching inner RL job for config 11 repeat 1
+
+[MONITOR Sun Apr 12 20:44:52 2026] Starting config 11 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:55 2026] Launching inner RL job for config 11 repeat 2
+
+[MONITOR Sun Apr 12 20:44:55 2026] Starting config 11 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:44:57 2026] Launching inner RL job for config 11 repeat 3
+[MONITOR Sun Apr 12 20:45:23 2026] RL job returncode=1 after 26.4s
+
+[MONITOR Sun Apr 12 20:45:23 2026] Starting config 12 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:45:25 2026] Launching inner RL job for config 12 repeat 1
+
+[MONITOR Sun Apr 12 20:45:25 2026] Starting config 12 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:45:27 2026] Launching inner RL job for config 12 repeat 2
+
+[MONITOR Sun Apr 12 20:45:27 2026] Starting config 12 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:45:29 2026] Launching inner RL job for config 12 repeat 3
+[MONITOR Sun Apr 12 20:45:55 2026] RL job returncode=1 after 25.7s
+
+[MONITOR Sun Apr 12 20:45:55 2026] Starting config 13 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:45:57 2026] Launching inner RL job for config 13 repeat 1
+
+[MONITOR Sun Apr 12 20:45:57 2026] Starting config 13 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:45:59 2026] Launching inner RL job for config 13 repeat 2
+
+[MONITOR Sun Apr 12 20:45:59 2026] Starting config 13 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:46:01 2026] Launching inner RL job for config 13 repeat 3
+[MONITOR Sun Apr 12 20:46:26 2026] RL job returncode=1 after 25.2s
+
+[MONITOR Sun Apr 12 20:46:26 2026] Starting config 14 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:46:28 2026] Launching inner RL job for config 14 repeat 1
+
+[MONITOR Sun Apr 12 20:46:28 2026] Starting config 14 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:46:30 2026] Launching inner RL job for config 14 repeat 2
+
+[MONITOR Sun Apr 12 20:46:30 2026] Starting config 14 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:46:32 2026] Launching inner RL job for config 14 repeat 3
+[MONITOR Sun Apr 12 20:46:57 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 20:46:57 2026] Starting config 15 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:46:59 2026] Launching inner RL job for config 15 repeat 1
+
+[MONITOR Sun Apr 12 20:46:59 2026] Starting config 15 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:47:01 2026] Launching inner RL job for config 15 repeat 2
+
+[MONITOR Sun Apr 12 20:47:01 2026] Starting config 15 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:47:03 2026] Launching inner RL job for config 15 repeat 3
+[MONITOR Sun Apr 12 20:47:29 2026] RL job returncode=1 after 25.8s
+
+[MONITOR Sun Apr 12 20:47:29 2026] Starting config 16 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:47:31 2026] Launching inner RL job for config 16 repeat 1
+
+[MONITOR Sun Apr 12 20:47:31 2026] Starting config 16 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:47:33 2026] Launching inner RL job for config 16 repeat 2
+
+[MONITOR Sun Apr 12 20:47:33 2026] Starting config 16 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:47:35 2026] Launching inner RL job for config 16 repeat 3
+[MONITOR Sun Apr 12 20:48:01 2026] RL job returncode=1 after 26.2s
+
+[MONITOR Sun Apr 12 20:48:01 2026] Starting config 17 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:03 2026] Launching inner RL job for config 17 repeat 1
+
+[MONITOR Sun Apr 12 20:48:03 2026] Starting config 17 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:05 2026] Launching inner RL job for config 17 repeat 2
+
+[MONITOR Sun Apr 12 20:48:05 2026] Starting config 17 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:07 2026] Launching inner RL job for config 17 repeat 3
+[MONITOR Sun Apr 12 20:48:32 2026] RL job returncode=1 after 25.0s
+
+[MONITOR Sun Apr 12 20:48:32 2026] Starting config 18 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:34 2026] Launching inner RL job for config 18 repeat 1
+
+[MONITOR Sun Apr 12 20:48:34 2026] Starting config 18 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:36 2026] Launching inner RL job for config 18 repeat 2
+
+[MONITOR Sun Apr 12 20:48:36 2026] Starting config 18 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:48:38 2026] Launching inner RL job for config 18 repeat 3
+[MONITOR Sun Apr 12 20:49:03 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 20:53:13 2026] Starting config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:15 2026] Launching inner RL job for config 1 repeat 1
+
+[MONITOR Sun Apr 12 20:53:15 2026] Starting config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:17 2026] Launching inner RL job for config 1 repeat 2
+
+[MONITOR Sun Apr 12 20:53:17 2026] Starting config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:19 2026] Launching inner RL job for config 1 repeat 3
+[MONITOR Sun Apr 12 20:53:44 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 20:53:44 2026] Starting config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:46 2026] Launching inner RL job for config 2 repeat 1
+
+[MONITOR Sun Apr 12 20:53:46 2026] Starting config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:48 2026] Launching inner RL job for config 2 repeat 2
+
+[MONITOR Sun Apr 12 20:53:48 2026] Starting config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:53:50 2026] Launching inner RL job for config 2 repeat 3
+[MONITOR Sun Apr 12 20:54:15 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 20:54:15 2026] Starting config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:17 2026] Launching inner RL job for config 3 repeat 1
+
+[MONITOR Sun Apr 12 20:54:17 2026] Starting config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:19 2026] Launching inner RL job for config 3 repeat 2
+
+[MONITOR Sun Apr 12 20:54:19 2026] Starting config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:21 2026] Launching inner RL job for config 3 repeat 3
+[MONITOR Sun Apr 12 20:54:47 2026] RL job returncode=1 after 25.9s
+
+[MONITOR Sun Apr 12 20:54:47 2026] Starting config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:49 2026] Launching inner RL job for config 4 repeat 1
+
+[MONITOR Sun Apr 12 20:54:49 2026] Starting config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:51 2026] Launching inner RL job for config 4 repeat 2
+
+[MONITOR Sun Apr 12 20:54:51 2026] Starting config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:54:53 2026] Launching inner RL job for config 4 repeat 3
+
+[MONITOR Sun Apr 12 20:56:24 2026] Starting config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:56:26 2026] Launching inner RL job for config 1 repeat 1
+
+[MONITOR Sun Apr 12 20:56:26 2026] Starting config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:56:28 2026] Launching inner RL job for config 1 repeat 2
+
+[MONITOR Sun Apr 12 20:56:28 2026] Starting config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:56:30 2026] Launching inner RL job for config 1 repeat 3
+[MONITOR Sun Apr 12 20:56:56 2026] RL job returncode=1 after 25.3s
+
+[MONITOR Sun Apr 12 20:56:56 2026] Starting config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:56:58 2026] Launching inner RL job for config 2 repeat 1
+
+[MONITOR Sun Apr 12 20:56:58 2026] Starting config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:57:00 2026] Launching inner RL job for config 2 repeat 2
+
+[MONITOR Sun Apr 12 20:57:00 2026] Starting config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:57:02 2026] Launching inner RL job for config 2 repeat 3
+[MONITOR Sun Apr 12 20:57:27 2026] RL job returncode=1 after 25.4s
+
+[MONITOR Sun Apr 12 20:57:27 2026] Starting config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:57:29 2026] Launching inner RL job for config 3 repeat 1
+
+[MONITOR Sun Apr 12 20:57:29 2026] Starting config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:57:31 2026] Launching inner RL job for config 3 repeat 2
+
+[MONITOR Sun Apr 12 20:57:31 2026] Starting config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:57:33 2026] Launching inner RL job for config 3 repeat 3
+[MONITOR Sun Apr 12 20:57:58 2026] RL job returncode=1 after 24.7s
+
+[MONITOR Sun Apr 12 20:57:58 2026] Starting config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:00 2026] Launching inner RL job for config 4 repeat 1
+
+[MONITOR Sun Apr 12 20:58:00 2026] Starting config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:02 2026] Launching inner RL job for config 4 repeat 2
+
+[MONITOR Sun Apr 12 20:58:02 2026] Starting config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:04 2026] Launching inner RL job for config 4 repeat 3
+[MONITOR Sun Apr 12 20:58:31 2026] RL job returncode=1 after 26.6s
+
+[MONITOR Sun Apr 12 20:58:31 2026] Starting config 5 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:33 2026] Launching inner RL job for config 5 repeat 1
+
+[MONITOR Sun Apr 12 20:58:33 2026] Starting config 5 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:35 2026] Launching inner RL job for config 5 repeat 2
+
+[MONITOR Sun Apr 12 20:58:35 2026] Starting config 5 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:58:37 2026] Launching inner RL job for config 5 repeat 3
+[MONITOR Sun Apr 12 20:59:05 2026] RL job returncode=1 after 28.1s
+
+[MONITOR Sun Apr 12 20:59:05 2026] Starting config 6 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:07 2026] Launching inner RL job for config 6 repeat 1
+
+[MONITOR Sun Apr 12 20:59:07 2026] Starting config 6 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:09 2026] Launching inner RL job for config 6 repeat 2
+
+[MONITOR Sun Apr 12 20:59:09 2026] Starting config 6 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:11 2026] Launching inner RL job for config 6 repeat 3
+[MONITOR Sun Apr 12 20:59:36 2026] RL job returncode=1 after 25.0s
+
+[MONITOR Sun Apr 12 20:59:36 2026] Starting config 7 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:38 2026] Launching inner RL job for config 7 repeat 1
+
+[MONITOR Sun Apr 12 20:59:38 2026] Starting config 7 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:40 2026] Launching inner RL job for config 7 repeat 2
+
+[MONITOR Sun Apr 12 20:59:40 2026] Starting config 7 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 20:59:42 2026] Launching inner RL job for config 7 repeat 3
+[MONITOR Sun Apr 12 21:00:07 2026] RL job returncode=1 after 25.6s
+
+[MONITOR Sun Apr 12 21:00:07 2026] Starting config 8 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:09 2026] Launching inner RL job for config 8 repeat 1
+
+[MONITOR Sun Apr 12 21:00:09 2026] Starting config 8 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:11 2026] Launching inner RL job for config 8 repeat 2
+
+[MONITOR Sun Apr 12 21:00:11 2026] Starting config 8 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:14 2026] Launching inner RL job for config 8 repeat 3
+[MONITOR Sun Apr 12 21:00:39 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 21:00:39 2026] Starting config 9 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:41 2026] Launching inner RL job for config 9 repeat 1
+
+[MONITOR Sun Apr 12 21:00:41 2026] Starting config 9 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:43 2026] Launching inner RL job for config 9 repeat 2
+
+[MONITOR Sun Apr 12 21:00:43 2026] Starting config 9 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:00:45 2026] Launching inner RL job for config 9 repeat 3
+[MONITOR Sun Apr 12 21:01:10 2026] RL job returncode=1 after 25.8s
+
+[MONITOR Sun Apr 12 21:01:10 2026] Starting config 10 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:12 2026] Launching inner RL job for config 10 repeat 1
+
+[MONITOR Sun Apr 12 21:01:12 2026] Starting config 10 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:14 2026] Launching inner RL job for config 10 repeat 2
+
+[MONITOR Sun Apr 12 21:01:14 2026] Starting config 10 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:16 2026] Launching inner RL job for config 10 repeat 3
+[MONITOR Sun Apr 12 21:01:43 2026] RL job returncode=1 after 26.7s
+
+[MONITOR Sun Apr 12 21:01:43 2026] Starting config 11 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:45 2026] Launching inner RL job for config 11 repeat 1
+
+[MONITOR Sun Apr 12 21:01:45 2026] Starting config 11 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:47 2026] Launching inner RL job for config 11 repeat 2
+
+[MONITOR Sun Apr 12 21:01:47 2026] Starting config 11 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:01:49 2026] Launching inner RL job for config 11 repeat 3
+[MONITOR Sun Apr 12 21:02:14 2026] RL job returncode=1 after 24.3s
+
+[MONITOR Sun Apr 12 21:02:14 2026] Starting config 12 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:16 2026] Launching inner RL job for config 12 repeat 1
+
+[MONITOR Sun Apr 12 21:02:16 2026] Starting config 12 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:18 2026] Launching inner RL job for config 12 repeat 2
+
+[MONITOR Sun Apr 12 21:02:18 2026] Starting config 12 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:20 2026] Launching inner RL job for config 12 repeat 3
+[MONITOR Sun Apr 12 21:02:45 2026] RL job returncode=1 after 25.4s
+
+[MONITOR Sun Apr 12 21:02:45 2026] Starting config 13 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:47 2026] Launching inner RL job for config 13 repeat 1
+
+[MONITOR Sun Apr 12 21:02:47 2026] Starting config 13 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:49 2026] Launching inner RL job for config 13 repeat 2
+
+[MONITOR Sun Apr 12 21:02:49 2026] Starting config 13 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:02:51 2026] Launching inner RL job for config 13 repeat 3
+[MONITOR Sun Apr 12 21:03:16 2026] RL job returncode=1 after 24.8s
+
+[MONITOR Sun Apr 12 21:03:16 2026] Starting config 14 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:18 2026] Launching inner RL job for config 14 repeat 1
+
+[MONITOR Sun Apr 12 21:03:18 2026] Starting config 14 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:20 2026] Launching inner RL job for config 14 repeat 2
+
+[MONITOR Sun Apr 12 21:03:20 2026] Starting config 14 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:22 2026] Launching inner RL job for config 14 repeat 3
+[MONITOR Sun Apr 12 21:03:48 2026] RL job returncode=1 after 26.0s
+
+[MONITOR Sun Apr 12 21:03:48 2026] Starting config 15 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:50 2026] Launching inner RL job for config 15 repeat 1
+
+[MONITOR Sun Apr 12 21:03:50 2026] Starting config 15 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:52 2026] Launching inner RL job for config 15 repeat 2
+
+[MONITOR Sun Apr 12 21:03:52 2026] Starting config 15 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:03:54 2026] Launching inner RL job for config 15 repeat 3
+[MONITOR Sun Apr 12 21:04:19 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 21:04:19 2026] Starting config 16 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:21 2026] Launching inner RL job for config 16 repeat 1
+
+[MONITOR Sun Apr 12 21:04:21 2026] Starting config 16 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:23 2026] Launching inner RL job for config 16 repeat 2
+
+[MONITOR Sun Apr 12 21:04:23 2026] Starting config 16 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:25 2026] Launching inner RL job for config 16 repeat 3
+[MONITOR Sun Apr 12 21:04:50 2026] RL job returncode=1 after 24.7s
+
+[MONITOR Sun Apr 12 21:04:50 2026] Starting config 17 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:52 2026] Launching inner RL job for config 17 repeat 1
+
+[MONITOR Sun Apr 12 21:04:52 2026] Starting config 17 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:54 2026] Launching inner RL job for config 17 repeat 2
+
+[MONITOR Sun Apr 12 21:04:54 2026] Starting config 17 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:04:56 2026] Launching inner RL job for config 17 repeat 3
+[MONITOR Sun Apr 12 21:05:20 2026] RL job returncode=1 after 24.7s
+
+[MONITOR Sun Apr 12 21:05:20 2026] Starting config 18 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:05:22 2026] Launching inner RL job for config 18 repeat 1
+
+[MONITOR Sun Apr 12 21:05:22 2026] Starting config 18 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:05:24 2026] Launching inner RL job for config 18 repeat 2
+
+[MONITOR Sun Apr 12 21:05:24 2026] Starting config 18 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:05:26 2026] Launching inner RL job for config 18 repeat 3
+[MONITOR Sun Apr 12 21:05:51 2026] RL job returncode=1 after 25.0s
+
+[MONITOR Sun Apr 12 21:15:23 2026] Starting config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:25 2026] Launching inner RL job for config 1 repeat 1
+
+[MONITOR Sun Apr 12 21:15:25 2026] Starting config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:27 2026] Launching inner RL job for config 1 repeat 2
+
+[MONITOR Sun Apr 12 21:15:27 2026] Starting config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:29 2026] Launching inner RL job for config 1 repeat 3
+[MONITOR Sun Apr 12 21:15:52 2026] RL job returncode=1 after 23.8s
+
+[MONITOR Sun Apr 12 21:15:52 2026] Starting config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:54 2026] Launching inner RL job for config 2 repeat 1
+
+[MONITOR Sun Apr 12 21:15:54 2026] Starting config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:56 2026] Launching inner RL job for config 2 repeat 2
+
+[MONITOR Sun Apr 12 21:15:56 2026] Starting config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:15:58 2026] Launching inner RL job for config 2 repeat 3
+[MONITOR Sun Apr 12 21:16:23 2026] RL job returncode=1 after 24.2s
+
+[MONITOR Sun Apr 12 21:16:23 2026] Starting config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:16:25 2026] Launching inner RL job for config 3 repeat 1
+
+[MONITOR Sun Apr 12 21:16:25 2026] Starting config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:16:27 2026] Launching inner RL job for config 3 repeat 2
+
+[MONITOR Sun Apr 12 21:16:27 2026] Starting config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:16:29 2026] Launching inner RL job for config 3 repeat 3
+[MONITOR Sun Apr 12 21:16:55 2026] RL job returncode=1 after 26.2s
+
+[MONITOR Sun Apr 12 21:16:55 2026] Starting config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:16:57 2026] Launching inner RL job for config 4 repeat 1
+
+[MONITOR Sun Apr 12 21:16:57 2026] Starting config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:16:59 2026] Launching inner RL job for config 4 repeat 2
+
+[MONITOR Sun Apr 12 21:16:59 2026] Starting config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:17:01 2026] Launching inner RL job for config 4 repeat 3
+[MONITOR Sun Apr 12 21:17:28 2026] RL job returncode=1 after 27.3s
+
+[MONITOR Sun Apr 12 21:17:28 2026] Starting config 5 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:17:30 2026] Launching inner RL job for config 5 repeat 1
+
+[MONITOR Sun Apr 12 21:17:30 2026] Starting config 5 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:17:32 2026] Launching inner RL job for config 5 repeat 2
+
+[MONITOR Sun Apr 12 21:17:32 2026] Starting config 5 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:17:34 2026] Launching inner RL job for config 5 repeat 3
+[MONITOR Sun Apr 12 21:17:59 2026] RL job returncode=1 after 24.5s
+
+[MONITOR Sun Apr 12 21:17:59 2026] Starting config 6 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:01 2026] Launching inner RL job for config 6 repeat 1
+
+[MONITOR Sun Apr 12 21:18:01 2026] Starting config 6 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:03 2026] Launching inner RL job for config 6 repeat 2
+
+[MONITOR Sun Apr 12 21:18:03 2026] Starting config 6 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:05 2026] Launching inner RL job for config 6 repeat 3
+[MONITOR Sun Apr 12 21:18:31 2026] RL job returncode=1 after 25.8s
+
+[MONITOR Sun Apr 12 21:18:31 2026] Starting config 7 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:33 2026] Launching inner RL job for config 7 repeat 1
+
+[MONITOR Sun Apr 12 21:18:33 2026] Starting config 7 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:35 2026] Launching inner RL job for config 7 repeat 2
+
+[MONITOR Sun Apr 12 21:18:35 2026] Starting config 7 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:18:37 2026] Launching inner RL job for config 7 repeat 3
+[MONITOR Sun Apr 12 21:19:01 2026] RL job returncode=1 after 24.5s
+
+[MONITOR Sun Apr 12 21:19:01 2026] Starting config 8 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:03 2026] Launching inner RL job for config 8 repeat 1
+
+[MONITOR Sun Apr 12 21:19:03 2026] Starting config 8 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:05 2026] Launching inner RL job for config 8 repeat 2
+
+[MONITOR Sun Apr 12 21:19:05 2026] Starting config 8 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:07 2026] Launching inner RL job for config 8 repeat 3
+[MONITOR Sun Apr 12 21:19:33 2026] RL job returncode=1 after 25.9s
+
+[MONITOR Sun Apr 12 21:19:33 2026] Starting config 9 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:35 2026] Launching inner RL job for config 9 repeat 1
+
+[MONITOR Sun Apr 12 21:19:35 2026] Starting config 9 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:37 2026] Launching inner RL job for config 9 repeat 2
+
+[MONITOR Sun Apr 12 21:19:37 2026] Starting config 9 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:19:39 2026] Launching inner RL job for config 9 repeat 3
+[MONITOR Sun Apr 12 21:20:05 2026] RL job returncode=1 after 25.3s
+
+[MONITOR Sun Apr 12 21:20:05 2026] Starting config 10 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:07 2026] Launching inner RL job for config 10 repeat 1
+
+[MONITOR Sun Apr 12 21:20:07 2026] Starting config 10 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:09 2026] Launching inner RL job for config 10 repeat 2
+
+[MONITOR Sun Apr 12 21:20:09 2026] Starting config 10 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:11 2026] Launching inner RL job for config 10 repeat 3
+[MONITOR Sun Apr 12 21:20:34 2026] RL job returncode=1 after 23.8s
+
+[MONITOR Sun Apr 12 21:20:34 2026] Starting config 11 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:36 2026] Launching inner RL job for config 11 repeat 1
+
+[MONITOR Sun Apr 12 21:20:36 2026] Starting config 11 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:38 2026] Launching inner RL job for config 11 repeat 2
+
+[MONITOR Sun Apr 12 21:20:38 2026] Starting config 11 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:20:40 2026] Launching inner RL job for config 11 repeat 3
+[MONITOR Sun Apr 12 21:21:06 2026] RL job returncode=1 after 25.2s
+
+[MONITOR Sun Apr 12 21:21:06 2026] Starting config 12 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:08 2026] Launching inner RL job for config 12 repeat 1
+
+[MONITOR Sun Apr 12 21:21:08 2026] Starting config 12 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:10 2026] Launching inner RL job for config 12 repeat 2
+
+[MONITOR Sun Apr 12 21:21:10 2026] Starting config 12 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:12 2026] Launching inner RL job for config 12 repeat 3
+[MONITOR Sun Apr 12 21:21:37 2026] RL job returncode=1 after 25.5s
+
+[MONITOR Sun Apr 12 21:21:37 2026] Starting config 13 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:39 2026] Launching inner RL job for config 13 repeat 1
+
+[MONITOR Sun Apr 12 21:21:39 2026] Starting config 13 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:41 2026] Launching inner RL job for config 13 repeat 2
+
+[MONITOR Sun Apr 12 21:21:41 2026] Starting config 13 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:21:43 2026] Launching inner RL job for config 13 repeat 3
+[MONITOR Sun Apr 12 21:22:09 2026] RL job returncode=1 after 26.1s
+
+[MONITOR Sun Apr 12 21:22:09 2026] Starting config 14 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:11 2026] Launching inner RL job for config 14 repeat 1
+
+[MONITOR Sun Apr 12 21:22:11 2026] Starting config 14 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:13 2026] Launching inner RL job for config 14 repeat 2
+
+[MONITOR Sun Apr 12 21:22:13 2026] Starting config 14 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:15 2026] Launching inner RL job for config 14 repeat 3
+[MONITOR Sun Apr 12 21:22:40 2026] RL job returncode=1 after 24.7s
+
+[MONITOR Sun Apr 12 21:22:40 2026] Starting config 15 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:42 2026] Launching inner RL job for config 15 repeat 1
+
+[MONITOR Sun Apr 12 21:22:42 2026] Starting config 15 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:44 2026] Launching inner RL job for config 15 repeat 2
+
+[MONITOR Sun Apr 12 21:22:44 2026] Starting config 15 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:22:46 2026] Launching inner RL job for config 15 repeat 3
+[MONITOR Sun Apr 12 21:23:12 2026] RL job returncode=1 after 25.9s
+
+[MONITOR Sun Apr 12 21:23:12 2026] Starting config 16 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:14 2026] Launching inner RL job for config 16 repeat 1
+
+[MONITOR Sun Apr 12 21:23:14 2026] Starting config 16 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:16 2026] Launching inner RL job for config 16 repeat 2
+
+[MONITOR Sun Apr 12 21:23:16 2026] Starting config 16 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:18 2026] Launching inner RL job for config 16 repeat 3
+[MONITOR Sun Apr 12 21:23:43 2026] RL job returncode=1 after 24.6s
+
+[MONITOR Sun Apr 12 21:23:43 2026] Starting config 17 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:45 2026] Launching inner RL job for config 17 repeat 1
+
+[MONITOR Sun Apr 12 21:23:45 2026] Starting config 17 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:47 2026] Launching inner RL job for config 17 repeat 2
+
+[MONITOR Sun Apr 12 21:23:47 2026] Starting config 17 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:23:49 2026] Launching inner RL job for config 17 repeat 3
+[MONITOR Sun Apr 12 21:24:14 2026] RL job returncode=1 after 25.4s
+
+[MONITOR Sun Apr 12 21:24:14 2026] Starting config 18 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:24:16 2026] Launching inner RL job for config 18 repeat 1
+
+[MONITOR Sun Apr 12 21:24:16 2026] Starting config 18 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:24:18 2026] Launching inner RL job for config 18 repeat 2
+
+[MONITOR Sun Apr 12 21:24:18 2026] Starting config 18 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:24:20 2026] Launching inner RL job for config 18 repeat 3
+[MONITOR Sun Apr 12 21:24:45 2026] RL job returncode=1 after 24.6s
+
+[MONITOR Sun Apr 12 21:27:15 2026] Starting config 1 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:17 2026] Launching inner RL job for config 1 repeat 1
+
+[MONITOR Sun Apr 12 21:27:17 2026] Starting config 1 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:19 2026] Launching inner RL job for config 1 repeat 2
+
+[MONITOR Sun Apr 12 21:27:19 2026] Starting config 1 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:21 2026] Launching inner RL job for config 1 repeat 3
+[MONITOR Sun Apr 12 21:27:45 2026] RL job returncode=1 after 24.5s
+
+[MONITOR Sun Apr 12 21:27:45 2026] Starting config 2 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:47 2026] Launching inner RL job for config 2 repeat 1
+
+[MONITOR Sun Apr 12 21:27:47 2026] Starting config 2 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:49 2026] Launching inner RL job for config 2 repeat 2
+
+[MONITOR Sun Apr 12 21:27:49 2026] Starting config 2 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:27:51 2026] Launching inner RL job for config 2 repeat 3
+[MONITOR Sun Apr 12 21:28:18 2026] RL job returncode=1 after 26.6s
+
+[MONITOR Sun Apr 12 21:28:18 2026] Starting config 3 repeat 1/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:20 2026] Launching inner RL job for config 3 repeat 1
+
+[MONITOR Sun Apr 12 21:28:20 2026] Starting config 3 repeat 2/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:22 2026] Launching inner RL job for config 3 repeat 2
+
+[MONITOR Sun Apr 12 21:28:22 2026] Starting config 3 repeat 3/3: {'n_steer': 3, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:24 2026] Launching inner RL job for config 3 repeat 3
+[MONITOR Sun Apr 12 21:28:48 2026] RL job returncode=1 after 24.0s
+
+[MONITOR Sun Apr 12 21:28:48 2026] Starting config 4 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:50 2026] Launching inner RL job for config 4 repeat 1
+
+[MONITOR Sun Apr 12 21:28:50 2026] Starting config 4 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:52 2026] Launching inner RL job for config 4 repeat 2
+
+[MONITOR Sun Apr 12 21:28:52 2026] Starting config 4 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:28:54 2026] Launching inner RL job for config 4 repeat 3
+[MONITOR Sun Apr 12 21:29:19 2026] RL job returncode=1 after 25.2s
+
+[MONITOR Sun Apr 12 21:29:19 2026] Starting config 5 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:21 2026] Launching inner RL job for config 5 repeat 1
+
+[MONITOR Sun Apr 12 21:29:21 2026] Starting config 5 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:23 2026] Launching inner RL job for config 5 repeat 2
+
+[MONITOR Sun Apr 12 21:29:23 2026] Starting config 5 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:25 2026] Launching inner RL job for config 5 repeat 3
+[MONITOR Sun Apr 12 21:29:50 2026] RL job returncode=1 after 24.9s
+
+[MONITOR Sun Apr 12 21:29:50 2026] Starting config 6 repeat 1/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:52 2026] Launching inner RL job for config 6 repeat 1
+
+[MONITOR Sun Apr 12 21:29:52 2026] Starting config 6 repeat 2/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:54 2026] Launching inner RL job for config 6 repeat 2
+
+[MONITOR Sun Apr 12 21:29:54 2026] Starting config 6 repeat 3/3: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:29:56 2026] Launching inner RL job for config 6 repeat 3
+[MONITOR Sun Apr 12 21:30:21 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 21:30:21 2026] Starting config 7 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:23 2026] Launching inner RL job for config 7 repeat 1
+
+[MONITOR Sun Apr 12 21:30:23 2026] Starting config 7 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:25 2026] Launching inner RL job for config 7 repeat 2
+
+[MONITOR Sun Apr 12 21:30:25 2026] Starting config 7 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:27 2026] Launching inner RL job for config 7 repeat 3
+[MONITOR Sun Apr 12 21:30:52 2026] RL job returncode=1 after 24.9s
+
+[MONITOR Sun Apr 12 21:30:52 2026] Starting config 8 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:54 2026] Launching inner RL job for config 8 repeat 1
+
+[MONITOR Sun Apr 12 21:30:54 2026] Starting config 8 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:56 2026] Launching inner RL job for config 8 repeat 2
+
+[MONITOR Sun Apr 12 21:30:56 2026] Starting config 8 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:30:58 2026] Launching inner RL job for config 8 repeat 3
+[MONITOR Sun Apr 12 21:31:24 2026] RL job returncode=1 after 25.6s
+
+[MONITOR Sun Apr 12 21:31:24 2026] Starting config 9 repeat 1/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:31:26 2026] Launching inner RL job for config 9 repeat 1
+
+[MONITOR Sun Apr 12 21:31:26 2026] Starting config 9 repeat 2/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:31:28 2026] Launching inner RL job for config 9 repeat 2
+
+[MONITOR Sun Apr 12 21:31:28 2026] Starting config 9 repeat 3/3: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:31:30 2026] Launching inner RL job for config 9 repeat 3
+[MONITOR Sun Apr 12 21:31:55 2026] RL job returncode=1 after 25.7s
+
+[MONITOR Sun Apr 12 21:31:55 2026] Starting config 10 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:31:57 2026] Launching inner RL job for config 10 repeat 1
+
+[MONITOR Sun Apr 12 21:31:57 2026] Starting config 10 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:31:59 2026] Launching inner RL job for config 10 repeat 2
+
+[MONITOR Sun Apr 12 21:31:59 2026] Starting config 10 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:32:01 2026] Launching inner RL job for config 10 repeat 3
+[MONITOR Sun Apr 12 21:32:26 2026] RL job returncode=1 after 24.4s
+
+[MONITOR Sun Apr 12 21:32:26 2026] Starting config 11 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:32:28 2026] Launching inner RL job for config 11 repeat 1
+
+[MONITOR Sun Apr 12 21:32:28 2026] Starting config 11 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:32:30 2026] Launching inner RL job for config 11 repeat 2
+
+[MONITOR Sun Apr 12 21:32:30 2026] Starting config 11 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:32:32 2026] Launching inner RL job for config 11 repeat 3
+[MONITOR Sun Apr 12 21:32:57 2026] RL job returncode=1 after 25.0s
+
+[MONITOR Sun Apr 12 21:32:57 2026] Starting config 12 repeat 1/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:32:59 2026] Launching inner RL job for config 12 repeat 1
+
+[MONITOR Sun Apr 12 21:32:59 2026] Starting config 12 repeat 2/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:33:01 2026] Launching inner RL job for config 12 repeat 2
+
+[MONITOR Sun Apr 12 21:33:01 2026] Starting config 12 repeat 3/3: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:33:03 2026] Launching inner RL job for config 12 repeat 3
+[MONITOR Sun Apr 12 21:33:28 2026] RL job returncode=1 after 24.9s
+
+[MONITOR Sun Apr 12 21:33:28 2026] Starting config 13 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:33:30 2026] Launching inner RL job for config 13 repeat 1
+
+[MONITOR Sun Apr 12 21:33:30 2026] Starting config 13 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:33:32 2026] Launching inner RL job for config 13 repeat 2
+
+[MONITOR Sun Apr 12 21:33:32 2026] Starting config 13 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:33:34 2026] Launching inner RL job for config 13 repeat 3
+[MONITOR Sun Apr 12 21:34:00 2026] RL job returncode=1 after 25.7s
+
+[MONITOR Sun Apr 12 21:34:00 2026] Starting config 14 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:02 2026] Launching inner RL job for config 14 repeat 1
+
+[MONITOR Sun Apr 12 21:34:02 2026] Starting config 14 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:04 2026] Launching inner RL job for config 14 repeat 2
+
+[MONITOR Sun Apr 12 21:34:04 2026] Starting config 14 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:06 2026] Launching inner RL job for config 14 repeat 3
+[MONITOR Sun Apr 12 21:34:31 2026] RL job returncode=1 after 25.5s
+
+[MONITOR Sun Apr 12 21:34:31 2026] Starting config 15 repeat 1/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:33 2026] Launching inner RL job for config 15 repeat 1
+
+[MONITOR Sun Apr 12 21:34:33 2026] Starting config 15 repeat 2/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:35 2026] Launching inner RL job for config 15 repeat 2
+
+[MONITOR Sun Apr 12 21:34:35 2026] Starting config 15 repeat 3/3: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:34:37 2026] Launching inner RL job for config 15 repeat 3
+[MONITOR Sun Apr 12 21:35:02 2026] RL job returncode=1 after 24.9s
+
+[MONITOR Sun Apr 12 21:35:02 2026] Starting config 16 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:04 2026] Launching inner RL job for config 16 repeat 1
+
+[MONITOR Sun Apr 12 21:35:04 2026] Starting config 16 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:06 2026] Launching inner RL job for config 16 repeat 2
+
+[MONITOR Sun Apr 12 21:35:06 2026] Starting config 16 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:08 2026] Launching inner RL job for config 16 repeat 3
+[MONITOR Sun Apr 12 21:35:33 2026] RL job returncode=1 after 25.1s
+
+[MONITOR Sun Apr 12 21:35:33 2026] Starting config 17 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:35 2026] Launching inner RL job for config 17 repeat 1
+
+[MONITOR Sun Apr 12 21:35:35 2026] Starting config 17 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:37 2026] Launching inner RL job for config 17 repeat 2
+
+[MONITOR Sun Apr 12 21:35:37 2026] Starting config 17 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:35:39 2026] Launching inner RL job for config 17 repeat 3
+[MONITOR Sun Apr 12 21:36:04 2026] RL job returncode=1 after 24.6s
+
+[MONITOR Sun Apr 12 21:36:04 2026] Starting config 18 repeat 1/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:36:06 2026] Launching inner RL job for config 18 repeat 1
+
+[MONITOR Sun Apr 12 21:36:06 2026] Starting config 18 repeat 2/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:36:08 2026] Launching inner RL job for config 18 repeat 2
+
+[MONITOR Sun Apr 12 21:36:08 2026] Starting config 18 repeat 3/3: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001, 'timesteps': 2000, 'eval_episodes': 3}
+[MONITOR Sun Apr 12 21:36:10 2026] Launching inner RL job for config 18 repeat 3
+[MONITOR Sun Apr 12 21:36:34 2026] RL job returncode=1 after 24.5s
--- a/agent/outerloop-results/sweep_results.jsonl
+++ b/agent/outerloop-results/sweep_results.jsonl
@ -0,0 +1,105 @@
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 65.524, "elapsed_sec": 89.94783020019531, "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 65       |\n|    ep_rew_mean      | 39.6     |\n|    exploration_rate | 0.05     |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 27       |\n|    time_elapsed     | 9        |\n|    total_timesteps  | 260      |\n| train/              |          |\n|    learning_rate    | 0.0001   |\n|    loss             | 0.166    |\n|    n_updates        | 39       |\n------------------------"}
+{"config_id": 1, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0003, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 14.309, "elapsed_sec": 101.03039455413818, "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 48       |\n|    ep_rew_mean      | 38.1     |\n|    exploration_rate | 0.088    |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 22       |\n|    time_elapsed     | 8        |\n|    total_timesteps  | 192      |\n| train/              |          |\n|    learning_rate    | 0.0003   |\n|    loss             | 0.136    |\n|    n_updates        | 22       |\n------------------------"}
+{"config_id": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 93.79, "elapsed_sec": 104.50353574752808, "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 53       |\n|    ep_rew_mean      | 36.2     |\n|    exploration_rate | 0.05     |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 24       |\n|    time_elapsed     | 8        |\n|    total_timesteps  | 212      |\n| train/              |          |\n|    learning_rate    | 0.001    |\n|    loss             | 0.184    |\n|    n_updates        | 27       |\n------------------------"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 59.913, "elapsed_sec": 92.88579177856445, "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 56.8     |\n|    ep_rew_mean      | 39.2     |\n|    exploration_rate | 0.05     |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 25       |\n|    time_elapsed     | 9        |\n|    total_timesteps  | 227      |\n| train/              |          |\n|    learning_rate    | 0.0001   |\n|    loss             | 0.171    |\n|    n_updates        | 31       |\n------------------------"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 35.922, "elapsed_sec": 107.70748615264893, "run_status": "ok", "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 48.8     |\n|    ep_rew_mean      | 34.7     |\n|    exploration_rate | 0.0737   |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 22       |\n|    time_elapsed     | 8        |\n|    total_timesteps  | 195      |\n| train/              |          |\n|    learning_rate    | 0.0001   |\n|    loss             | 0.101    |\n|    n_updates        | 23       |\n------------------------"}
+{"config_id": 1, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0003, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 17.737, "elapsed_sec": 85.172931432724, "run_status": "ok", "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 66.5     |\n|    ep_rew_mean      | 49.8     |\n|    exploration_rate | 0.05     |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 27       |\n|    time_elapsed     | 9        |\n|    total_timesteps  | 266      |\n| train/              |          |\n|    learning_rate    | 0.0003   |\n|    loss             | 0.197    |\n|    n_updates        | 41       |\n------------------------"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 70.762, "elapsed_sec": 101.6364495754242, "run_status": "ok", "raw_output": "starting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 52.2     |\n|    ep_rew_mean      | 41.5     |\n|    exploration_rate | 0.05     |\n| time/               |          |\n|    episodes         | 4        |\n|    fps              | 23       |\n|    time_elapsed     | 8        |\n|    total_timesteps  | 209      |\n| train/              |          |\n|    learning_rate    | 0.0001   |\n|    loss             | 0.155    |\n|    n_updates        | 27       |\n------------------------"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": 18.788, "elapsed_sec": 100.27995491027832, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env.\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2.\n[SB3 Runner][MONITOR] Env reset. First obs shape: (120, 160, 3)\n[SB3 Runner] Using custom learning rate: 0.0001\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n[SB3 Runner][MONITOR] RL agent created, starting training.\n----------------------------------\n| rollout/            |          |\n|    ep_len_mean      | 68       |\n|    ep_rew_mean      | 59.5     |\n|    exploration_rate | 0.05     |\n| time/         "}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 359.8297851085663, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 18:15:11 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 18:15:11 2026\n[SB3 Runner][MONITOR] Env reset. First obs shape: (120, 160, 3) Sun Apr 12 18:15:12 2026\n[SB3 Runner] Using custom learning rate: 0.0001 Sun Apr 12 18:15:12 2026\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n[SB3 Runner][MONITOR] RL agent created, starting training. Sun Apr 12 18:15:13 2026\n----------------------------------\n| rollout/            |        "}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 50, "eval_episodes": 1}, "mean_reward": null, "elapsed_sec": 151.8504867553711, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 18:21:13 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 18:21:13 2026\n[SB3 Runner][MONITOR] Env reset. First obs shape: (120, 160, 3) Sun Apr 12 18:21:14 2026\n[SB3 Runner] Using custom learning rate: 0.0001 Sun Apr 12 18:21:14 2026\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n[SB3 Runner][MONITOR] RL agent created, starting training. Sun Apr 12 18:21:15 2026\n[SB3 Runner][MONITOR] Training done in 4 seconds. Sun Apr 12 18:21"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 50, "eval_episodes": 1}, "mean_reward": null, "elapsed_sec": 157.9173789024353, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 18:23:46 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 18:23:46 2026\n[SB3 Runner][MONITOR] Env reset. First obs shape: (120, 160, 3) Sun Apr 12 18:23:48 2026\n[SB3 Runner] Using custom learning rate: 0.0001 Sun Apr 12 18:23:48 2026\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n[SB3 Runner][MONITOR] RL agent created, starting training. Sun Apr 12 18:23:49 2026\n[SB3 Runner][MONITOR] Training done in 5 seconds. Sun Apr 12 18:23"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 50, "eval_episodes": 1}, "mean_reward": null, "elapsed_sec": 361.2077691555023, "run_status": "timeout", "raw_output": "[TIMEOUT] Experiment timed out after 361.2s. Partial output below:\n[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 18:26:26 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 18:26:26 2026\n[SB3 Runner][MONITOR] Env reset. First obs shape: (120, 160, 3) Sun Apr 12 18:26:27 2026\n[SB3 Runner] Using custom learning rate: 0.0001 Sun Apr 12 18:26:27 2026\nUsing cpu device\nWrapping the env with a `Monitor` wrapper\nWrapping the env in a DummyVecEnv.\nWrapping the env in a VecTransposeImage.\n[SB3 Runner][MONITOR] RL agent created, starting training. Sun Apr 12 18:26:29 2026"}
+{"config_id": 0, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.76850700378418, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:22:06 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:22:06 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:22:07 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4288442518200568 Sun Apr 12 20:22:07 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7977445714778547 Sun Apr 12 20:22:07 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.754106428934412 Sun Apr 12 20:22:08 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.6262217158483291 Sun Apr 12 20:22:08 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 1, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.42830204963684, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:22:33 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:22:33 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:22:34 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.9737329730146229 Sun Apr 12 20:22:34 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.8739732801413553 Sun Apr 12 20:22:34 2026\n[SB3 Runner][TEST] Step 30 done=False reward=2.0850142472888957 Sun Apr 12 20:22:34 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.2215405722435704 Sun Apr 12 20:22:34 2026\n[SB3 Runner][TEST] Step"}
+{"config_id": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.09192681312561, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:23:00 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:23:00 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:23:01 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.310389020505421 Sun Apr 12 20:23:02 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0990227355284372 Sun Apr 12 20:23:02 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.6961344115817942 Sun Apr 12 20:23:02 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.47329639974906 Sun Apr 12 20:23:02 2026\n[SB3 Runner][TEST] Step 50"}
+{"config_id": 3, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.11238408088684, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:23:28 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:23:28 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:23:29 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6835704223391927 Sun Apr 12 20:23:30 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9189443990131007 Sun Apr 12 20:23:30 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.6676292921506342 Sun Apr 12 20:23:30 2026\n[SB3 Runner][TEST] Step 38 done=True reward=-1.0 Sun Apr 12 20:23:30 2026\n[SB3 Runner][TEST] Episode 1 ended aft"}
+{"config_id": 4, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 23.95237159729004, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:23:55 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:23:55 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:23:57 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5519223960481383 Sun Apr 12 20:23:57 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1565966475714562 Sun Apr 12 20:23:57 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.524417761279226 Sun Apr 12 20:23:57 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.3224179540706997 Sun Apr 12 20:23:57 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 5, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.068593978881836, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:24:21 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:24:21 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:24:22 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3673883360002879 Sun Apr 12 20:24:23 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8641301383503216 Sun Apr 12 20:24:23 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1050075126562158 Sun Apr 12 20:24:23 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.051540207244839 Sun Apr 12 20:24:23 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 6, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 23.751941919326782, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:24:47 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:24:47 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:24:49 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.611883757355443 Sun Apr 12 20:24:49 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9771822532071749 Sun Apr 12 20:24:49 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4678639560407687 Sun Apr 12 20:24:49 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.6304554895188667 Sun Apr 12 20:24:49 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 7, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.801989793777466, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:25:13 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:25:13 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:25:14 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.48088248379682025 Sun Apr 12 20:25:14 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5566798051619507 Sun Apr 12 20:25:15 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9295590064246914 Sun Apr 12 20:25:15 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8253654299461894 Sun Apr 12 20:25:15 2026\n[SB3 Runner][TEST] Ste"}
+{"config_id": 8, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.767133474349976, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:25:40 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:25:40 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:25:41 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3307555650840596 Sun Apr 12 20:25:41 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9261938566429739 Sun Apr 12 20:25:41 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.117769051519037 Sun Apr 12 20:25:41 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.2297208635038743 Sun Apr 12 20:25:42 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 9, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.00127363204956, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:26:07 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:26:07 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:26:08 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.13952367943149965 Sun Apr 12 20:26:08 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.705350415510202 Sun Apr 12 20:26:08 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1414787940411744 Sun Apr 12 20:26:08 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.7739095095692998 Sun Apr 12 20:26:08 2026\n[SB3 Runner][TEST] Step"}
+{"config_id": 10, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 23.90674090385437, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:26:33 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:26:33 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:26:34 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.567393895281332 Sun Apr 12 20:26:34 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9722807783466556 Sun Apr 12 20:26:34 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9666104743476245 Sun Apr 12 20:26:34 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.7464387711585196 Sun Apr 12 20:26:34 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 11, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.05870032310486, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:26:59 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:26:59 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:27:00 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5020656546178818 Sun Apr 12 20:27:00 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8314075895249604 Sun Apr 12 20:27:00 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0832887972522776 Sun Apr 12 20:27:01 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.6321688199774984 Sun Apr 12 20:27:01 2026\n[SB3 Runner][TEST] Step"}
+{"config_id": 12, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.94036889076233, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:27:26 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:27:26 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:27:27 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.02494247038352737 Sun Apr 12 20:27:27 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.48088135105857155 Sun Apr 12 20:27:27 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8969211115488456 Sun Apr 12 20:27:27 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1249964060946585 Sun Apr 12 20:27:27 2026\n[SB3 Runner][TEST] St"}
+{"config_id": 13, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.341599941253662, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:27:54 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:27:54 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:27:55 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.760767084766348 Sun Apr 12 20:27:55 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8601359425775378 Sun Apr 12 20:27:55 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9709925913286017 Sun Apr 12 20:27:55 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1527155121011816 Sun Apr 12 20:27:55 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 14, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.64774441719055, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:28:20 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:28:20 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:28:21 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5531911050976717 Sun Apr 12 20:28:21 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5892466054932775 Sun Apr 12 20:28:21 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2076743478098515 Sun Apr 12 20:28:21 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.609786557775487 Sun Apr 12 20:28:22 2026\n[SB3 Runner][TEST] Step "}
+{"config_id": 15, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.763647317886353, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:28:48 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:28:48 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:28:49 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.41201613597990916 Sun Apr 12 20:28:49 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7782329627886245 Sun Apr 12 20:28:49 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2254323254205164 Sun Apr 12 20:28:49 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8089744323027801 Sun Apr 12 20:28:49 2026\n[SB3 Runner][TEST] Ste"}
+{"config_id": 16, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.56423568725586, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:29:15 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:29:15 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:29:17 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6863143666518708 Sun Apr 12 20:29:17 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1975720006573702 Sun Apr 12 20:29:17 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3516597279286 Sun Apr 12 20:29:17 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9114671498469764 Sun Apr 12 20:29:17 2026\n[SB3 Runner][TEST] Step 48"}
+{"config_id": 17, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.515196561813354, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:29:43 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:29:43 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:29:44 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4378853375543606 Sun Apr 12 20:29:44 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6431800842019262 Sun Apr 12 20:29:44 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8702536832756753 Sun Apr 12 20:29:45 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9595251691892704 Sun Apr 12 20:29:45 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 3, "config_id": 0, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.552093505859375, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:39:43 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:39:43 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:39:44 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7439195742567396 Sun Apr 12 20:39:44 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.755417092618372 Sun Apr 12 20:39:44 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0944484051343897 Sun Apr 12 20:39:44 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5827178681981395 Sun Apr 12 20:39:45 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 6, "config_id": 1, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.908702850341797, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:40:16 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:40:16 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:40:17 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.2787581265245959 Sun Apr 12 20:40:17 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6156849111172699 Sun Apr 12 20:40:17 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.4694396002784143 Sun Apr 12 20:40:17 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8040349045600561 Sun Apr 12 20:40:17 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 9, "config_id": 2, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.630964040756226, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:40:48 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:40:48 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:40:49 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3289701011898414 Sun Apr 12 20:40:49 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5059001160774252 Sun Apr 12 20:40:49 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0249997808427063 Sun Apr 12 20:40:49 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0575854891331 Sun Apr 12 20:40:49 2026\n[SB3 Runner][TEST] Step 50"}
+{"run_id": 12, "config_id": 3, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.18614101409912, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:41:19 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:41:19 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:41:20 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4793690394120032 Sun Apr 12 20:41:21 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8730246343255564 Sun Apr 12 20:41:21 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1654582747385802 Sun Apr 12 20:41:21 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5927163614070283 Sun Apr 12 20:41:21 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 15, "config_id": 4, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.519989728927612, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:41:51 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:41:51 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:41:53 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.49338813688053446 Sun Apr 12 20:41:53 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8889280187004939 Sun Apr 12 20:41:53 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3157433546255823 Sun Apr 12 20:41:53 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.466378959824363 Sun Apr 12 20:41:53 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 18, "config_id": 5, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.515578746795654, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:42:23 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:42:23 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:42:24 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4921014046725175 Sun Apr 12 20:42:24 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0366483295945716 Sun Apr 12 20:42:24 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.5388266495372347 Sun Apr 12 20:42:24 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.7204266922873377 Sun Apr 12 20:42:24 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 21, "config_id": 6, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.184683561325073, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:42:54 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:42:54 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:42:56 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.45317005364551294 Sun Apr 12 20:42:56 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.3576271065911951 Sun Apr 12 20:42:56 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1623815802637048 Sun Apr 12 20:42:56 2026\n[SB3 Runner][TEST] Step 40 done=True reward=-1.0 Sun Apr 12 20:42:56 2026\n[SB3 Runner][TEST] Episode 1 ended af"}
+{"run_id": 24, "config_id": 7, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.221016883850098, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:43:26 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:43:26 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:43:27 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.32297177200643234 Sun Apr 12 20:43:27 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.3406464076445657 Sun Apr 12 20:43:27 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.5141190009736258 Sun Apr 12 20:43:27 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.7689073409871643 Sun Apr 12 20:43:27 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 27, "config_id": 8, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.824793577194214, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:43:57 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:43:57 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:43:58 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5199008749541535 Sun Apr 12 20:43:58 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.2728909599885276 Sun Apr 12 20:43:58 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.636217387522769 Sun Apr 12 20:43:58 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4374316857107383 Sun Apr 12 20:43:59 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 30, "config_id": 9, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.934305429458618, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:44:28 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:44:28 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:44:29 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.15957580469049062 Sun Apr 12 20:44:29 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8051872471412942 Sun Apr 12 20:44:29 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9667191660903777 Sun Apr 12 20:44:29 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1199341279828412 Sun Apr 12 20:44:29 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 33, "config_id": 10, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.364457845687866, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:44:59 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:44:59 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:45:00 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3684621297618329 Sun Apr 12 20:45:00 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9809149658442944 Sun Apr 12 20:45:00 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2941117300661222 Sun Apr 12 20:45:00 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.8080574457137333 Sun Apr 12 20:45:01 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 36, "config_id": 11, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.74396276473999, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:45:31 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 20:45:31 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:45:32 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.41851644675763855 Sun Apr 12 20:45:32 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6491309518071002 Sun Apr 12 20:45:33 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.6120948459740678 Sun Apr 12 20:45:33 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0924238157555017 Sun Apr 12 20:45:33 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 39, "config_id": 12, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.24178719520569, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:46:03 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:46:03 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:46:04 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7002273590191141 Sun Apr 12 20:46:04 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.3666020760819044 Sun Apr 12 20:46:04 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.8274931963896397 Sun Apr 12 20:46:04 2026\n[SB3 Runner][TEST] Step 40 done=False reward=2.038220178617302 Sun Apr 12 20:46:05 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 42, "config_id": 13, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.12865376472473, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:46:34 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:46:34 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:46:36 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6908539905733307 Sun Apr 12 20:46:36 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0299155703118248 Sun Apr 12 20:46:36 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1768199415479197 Sun Apr 12 20:46:36 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4491079497829413 Sun Apr 12 20:46:36 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 45, "config_id": 14, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.836068391799927, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:47:06 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 20:47:06 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:47:07 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3436571209255054 Sun Apr 12 20:47:07 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5667004957390959 Sun Apr 12 20:47:07 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3819072649083621 Sun Apr 12 20:47:07 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1523558548385215 Sun Apr 12 20:47:07 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 48, "config_id": 15, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.20173978805542, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:47:37 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:47:37 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:47:39 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3855699249589008 Sun Apr 12 20:47:39 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1215302412574137 Sun Apr 12 20:47:39 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2140412197696937 Sun Apr 12 20:47:39 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.6804856067003213 Sun Apr 12 20:47:39 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 51, "config_id": 16, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.02026343345642, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:48:10 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:48:10 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:48:11 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.26830402502775275 Sun Apr 12 20:48:11 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9573080399847422 Sun Apr 12 20:48:11 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3181118246028156 Sun Apr 12 20:48:11 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.715838824161255 Sun Apr 12 20:48:11 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 54, "config_id": 17, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.763003826141357, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:48:41 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 20:48:41 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:48:42 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3818386017937775 Sun Apr 12 20:48:42 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8290968161747662 Sun Apr 12 20:48:42 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3542406450310176 Sun Apr 12 20:48:42 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.2841055595452278 Sun Apr 12 20:48:42 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 3, "config_id": 0, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.107610940933228, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:53:21 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:53:21 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:53:23 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3489401694463104 Sun Apr 12 20:53:23 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.2332725458655633 Sun Apr 12 20:53:23 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.028642446289639 Sun Apr 12 20:53:23 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9641768405224863 Sun Apr 12 20:53:23 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 6, "config_id": 1, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.124234437942505, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:53:52 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:53:52 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:53:54 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.34024055169528494 Sun Apr 12 20:53:54 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6971699966518916 Sun Apr 12 20:53:54 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0067796108983074 Sun Apr 12 20:53:54 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.013807703945683 Sun Apr 12 20:53:54 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 9, "config_id": 2, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.895325899124146, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:54:24 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:54:24 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:54:25 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5067196959027824 Sun Apr 12 20:54:25 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.473036871227561 Sun Apr 12 20:54:25 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0424544494017118 Sun Apr 12 20:54:25 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.241905398619693 Sun Apr 12 20:54:25 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 3, "config_id": 0, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.270811557769775, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:56:33 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:56:33 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:56:34 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5848451622641218 Sun Apr 12 20:56:34 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7244296366555897 Sun Apr 12 20:56:34 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8501530949675128 Sun Apr 12 20:56:34 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.15727000776555353 Sun Apr 12 20:56:34 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 6, "config_id": 1, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.4367733001709, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:57:04 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:57:04 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:57:05 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6017566304082902 Sun Apr 12 20:57:05 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.2057957981316172 Sun Apr 12 20:57:05 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9942817998534994 Sun Apr 12 20:57:05 2026\n[SB3 Runner][TEST] Step 40 done=True reward=-1.0 Sun Apr 12 20:57:06 2026\n[SB3 Runner][TEST] Episode 1 ended aft"}
+{"run_id": 9, "config_id": 2, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.667904376983643, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:57:35 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 20:57:35 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:57:37 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5075543227069593 Sun Apr 12 20:57:37 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1136677945710778 Sun Apr 12 20:57:37 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2920225814861779 Sun Apr 12 20:57:37 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.430423687133193 Sun Apr 12 20:57:37 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 12, "config_id": 3, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.63624882698059, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:58:06 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:58:06 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:58:07 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5730053494256516 Sun Apr 12 20:58:08 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.805335572314618 Sun Apr 12 20:58:08 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1461578848718177 Sun Apr 12 20:58:08 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.6949309842171607 Sun Apr 12 20:58:08 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 15, "config_id": 4, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 28.117932319641113, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:58:39 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:58:39 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:58:40 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.21239036656063665 Sun Apr 12 20:58:40 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7300290763420383 Sun Apr 12 20:58:40 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0751444082663548 Sun Apr 12 20:58:40 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0392854978139667 Sun Apr 12 20:58:41 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 18, "config_id": 5, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.981337547302246, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:59:13 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 20:59:13 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:59:14 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.475519531125035 Sun Apr 12 20:59:14 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7806272572105867 Sun Apr 12 20:59:14 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8810449950711124 Sun Apr 12 20:59:14 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.725659937974358 Sun Apr 12 20:59:15 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 21, "config_id": 6, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.633378267288208, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 20:59:44 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 20:59:44 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 20:59:45 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3556786420376812 Sun Apr 12 20:59:45 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8627331946541638 Sun Apr 12 20:59:45 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3045903215827108 Sun Apr 12 20:59:45 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.7894060614283969 Sun Apr 12 20:59:46 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 24, "config_id": 7, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.145583868026733, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:00:16 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:00:16 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:00:17 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6639097049689788 Sun Apr 12 21:00:17 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9910958480648165 Sun Apr 12 21:00:17 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2767825562426012 Sun Apr 12 21:00:17 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0409098525126586 Sun Apr 12 21:00:18 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 27, "config_id": 8, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.764729976654053, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:00:47 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:00:47 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:00:48 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6138281303424371 Sun Apr 12 21:00:48 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6379580834404817 Sun Apr 12 21:00:48 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.674162517876933 Sun Apr 12 21:00:48 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9736270272422581 Sun Apr 12 21:00:49 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 30, "config_id": 9, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.732260942459106, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:01:19 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:01:19 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:01:20 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.36273009579093135 Sun Apr 12 21:01:20 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8610144804616119 Sun Apr 12 21:01:20 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1337812728487493 Sun Apr 12 21:01:20 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0906362045132931 Sun Apr 12 21:01:20 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 33, "config_id": 10, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.289912462234497, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:01:51 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:01:51 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:01:52 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6943491882791275 Sun Apr 12 21:01:53 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0152433473215692 Sun Apr 12 21:01:53 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4032994282778313 Sun Apr 12 21:01:53 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.3715237022046005 Sun Apr 12 21:01:53 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 36, "config_id": 11, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.444377660751343, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:02:22 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:02:22 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:02:23 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4916309512179553 Sun Apr 12 21:02:23 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7366236051973025 Sun Apr 12 21:02:23 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0356998950926601 Sun Apr 12 21:02:23 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.3330879532935846 Sun Apr 12 21:02:23 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 39, "config_id": 12, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.826170444488525, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:02:53 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:02:53 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:02:54 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.27039372257567695 Sun Apr 12 21:02:54 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8903716286573572 Sun Apr 12 21:02:55 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.3051272259624063 Sun Apr 12 21:02:55 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9808918765237913 Sun Apr 12 21:02:55 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 42, "config_id": 13, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.026418209075928, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:03:24 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:03:24 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:03:25 2026\n[SB3 Runner][TEST] Step 10 done=False reward=-2.3707938042127322e-08 Sun Apr 12 21:03:25 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.15605046349282514 Sun Apr 12 21:03:25 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.7511338035976831 Sun Apr 12 21:03:25 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1840022030481632 Sun Apr 12 21:03:26 2026\n[SB3 Runner][TEST"}
+{"run_id": 45, "config_id": 14, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.145642042160034, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:03:56 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:03:56 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:03:57 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6296781917803759 Sun Apr 12 21:03:57 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.831720071364366 Sun Apr 12 21:03:57 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8632805492992334 Sun Apr 12 21:03:58 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.6730548023691318 Sun Apr 12 21:03:58 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 48, "config_id": 15, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.685474157333374, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:04:27 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:04:27 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:04:28 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.530744813510061 Sun Apr 12 21:04:29 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6967160704531569 Sun Apr 12 21:04:29 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2551907203235424 Sun Apr 12 21:04:29 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.822825819828392 Sun Apr 12 21:04:29 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 51, "config_id": 16, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.66421675682068, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:04:58 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:04:58 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:04:59 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4966036200692667 Sun Apr 12 21:04:59 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9781265224565572 Sun Apr 12 21:05:00 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.202852620844393 Sun Apr 12 21:05:00 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0632744618753676 Sun Apr 12 21:05:00 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 54, "config_id": 17, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.954389810562134, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:05:29 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:05:29 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:05:30 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7232112922332278 Sun Apr 12 21:05:30 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1592919579157583 Sun Apr 12 21:05:30 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9202125860247629 Sun Apr 12 21:05:30 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.5144290703237977 Sun Apr 12 21:05:30 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 3, "config_id": 0, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 23.75413966178894, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:15:31 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:15:31 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:15:32 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6131107061003965 Sun Apr 12 21:15:32 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1195152538750137 Sun Apr 12 21:15:32 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.5031807774915857 Sun Apr 12 21:15:32 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.3657331959617654 Sun Apr 12 21:15:32 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 6, "config_id": 1, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.21774697303772, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:16:01 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:16:01 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:16:02 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.21526335231132215 Sun Apr 12 21:16:02 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5943661222344827 Sun Apr 12 21:16:02 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.986294702429643 Sun Apr 12 21:16:02 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0603509652491243 Sun Apr 12 21:16:02 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 9, "config_id": 2, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.189715147018433, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:16:31 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:16:31 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:16:32 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.48380390628147846 Sun Apr 12 21:16:32 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0882477559163617 Sun Apr 12 21:16:32 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0737044848424142 Sun Apr 12 21:16:32 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9556724906274161 Sun Apr 12 21:16:32 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 12, "config_id": 3, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 27.263933420181274, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:17:03 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:17:03 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:17:04 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4045242951949701 Sun Apr 12 21:17:04 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9551313073567683 Sun Apr 12 21:17:04 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2428622130110902 Sun Apr 12 21:17:05 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1275358118653596 Sun Apr 12 21:17:05 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 15, "config_id": 4, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.47508406639099, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:17:36 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:17:36 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:17:38 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7160434082813235 Sun Apr 12 21:17:38 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.1256295256953774 Sun Apr 12 21:17:38 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.6121599820297803 Sun Apr 12 21:17:38 2026\n[SB3 Runner][TEST] Step 40 done=True reward=-1.0 Sun Apr 12 21:17:38 2026\n[SB3 Runner][TEST] Episode 1 ended aft"}
+{"run_id": 18, "config_id": 5, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.836835861206055, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:18:07 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:18:07 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:18:08 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.19610771900987042 Sun Apr 12 21:18:08 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6681522310045142 Sun Apr 12 21:18:08 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2716480378755766 Sun Apr 12 21:18:09 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.2747813224786355 Sun Apr 12 21:18:09 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 21, "config_id": 6, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.548973560333252, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:18:39 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:18:39 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:18:40 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.21819936559716238 Sun Apr 12 21:18:40 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.2169412333651213 Sun Apr 12 21:18:40 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.5743321830936514 Sun Apr 12 21:18:40 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.6357095542913076 Sun Apr 12 21:18:41 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 24, "config_id": 7, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.923141479492188, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:19:09 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:19:09 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:19:11 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.41220370779519006 Sun Apr 12 21:19:11 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7899351703417155 Sun Apr 12 21:19:11 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.883919683511059 Sun Apr 12 21:19:11 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.7382008027431939 Sun Apr 12 21:19:11 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 27, "config_id": 8, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.283849239349365, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:19:41 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:19:41 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:19:43 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3104609557567152 Sun Apr 12 21:19:43 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.3346558749937396 Sun Apr 12 21:19:43 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.4744599462302133 Sun Apr 12 21:19:43 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0458453853004688 Sun Apr 12 21:19:43 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 30, "config_id": 9, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 23.83629536628723, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:20:13 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:20:13 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:20:14 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4499302258219825 Sun Apr 12 21:20:14 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.229414385738488 Sun Apr 12 21:20:14 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4540817487138231 Sun Apr 12 21:20:14 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4098765142693062 Sun Apr 12 21:20:14 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 33, "config_id": 10, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.190454483032227, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:20:43 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:20:43 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:20:44 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.45147662136510697 Sun Apr 12 21:20:44 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0400921006681179 Sun Apr 12 21:20:44 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1614626210619114 Sun Apr 12 21:20:44 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4047796837484001 Sun Apr 12 21:20:44 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 36, "config_id": 11, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.49146819114685, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:21:14 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:21:14 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:21:15 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7964822184305166 Sun Apr 12 21:21:15 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.39662233721515 Sun Apr 12 21:21:15 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.634954059700632 Sun Apr 12 21:21:15 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5949245377122045 Sun Apr 12 21:21:16 2026\n[SB3 Runner][TEST] Step 50"}
+{"run_id": 39, "config_id": 12, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.128227710723877, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:21:45 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:21:45 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:21:46 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.6704103307621213 Sun Apr 12 21:21:47 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.187944336906992 Sun Apr 12 21:21:47 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.386966463946691 Sun Apr 12 21:21:47 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8362478436835584 Sun Apr 12 21:21:47 2026\n[SB3 Runner][TEST] Step 4"}
+{"run_id": 42, "config_id": 13, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.725911140441895, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:22:18 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:22:18 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:22:19 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4312124958735145 Sun Apr 12 21:22:19 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9457154144316018 Sun Apr 12 21:22:19 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.940092002727574 Sun Apr 12 21:22:19 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.168758699906264 Sun Apr 12 21:22:19 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 45, "config_id": 14, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.893075466156006, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:22:48 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:22:48 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:22:49 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.452439591084204 Sun Apr 12 21:22:49 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9026872413870206 Sun Apr 12 21:22:50 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0958156998185324 Sun Apr 12 21:22:50 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8314295684925966 Sun Apr 12 21:22:50 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 48, "config_id": 15, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.585558652877808, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:23:20 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:23:20 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:23:21 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.7861295325153745 Sun Apr 12 21:23:21 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0192279429955784 Sun Apr 12 21:23:22 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2388876232932868 Sun Apr 12 21:23:22 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9799088385868906 Sun Apr 12 21:23:22 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 51, "config_id": 16, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.39492964744568, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:23:51 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:23:51 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:23:52 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.42729216023917355 Sun Apr 12 21:23:52 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.057331738253473 Sun Apr 12 21:23:52 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1506443629492784 Sun Apr 12 21:23:52 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5332253777464369 Sun Apr 12 21:23:52 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 54, "config_id": 17, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.55733609199524, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:24:22 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:24:22 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:24:23 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.47716143829668356 Sun Apr 12 21:24:23 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.168035930340262 Sun Apr 12 21:24:24 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.30110846709256 Sun Apr 12 21:24:24 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.6461804394543238 Sun Apr 12 21:24:24 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 3, "config_id": 0, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.54765772819519, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:27:23 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:27:23 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:27:24 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.19427830238654525 Sun Apr 12 21:27:24 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.096500017156413 Sun Apr 12 21:27:24 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4767319125179763 Sun Apr 12 21:27:24 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9125050720935127 Sun Apr 12 21:27:25 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 6, "config_id": 1, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 26.575828313827515, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:27:53 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:27:53 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:27:55 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.26334694650629215 Sun Apr 12 21:27:55 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7593996127988291 Sun Apr 12 21:27:55 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.083665999706429 Sun Apr 12 21:27:55 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5411951589010566 Sun Apr 12 21:27:55 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 9, "config_id": 2, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.016134023666382, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:28:26 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=2. Sun Apr 12 21:28:26 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:28:27 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.583605787804163 Sun Apr 12 21:28:27 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7155232336870415 Sun Apr 12 21:28:27 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0494190053069734 Sun Apr 12 21:28:28 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1769998593707087 Sun Apr 12 21:28:28 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 12, "config_id": 3, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.18598246574402, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:28:56 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:28:56 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:28:57 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.29102673770184495 Sun Apr 12 21:28:57 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6061511382594236 Sun Apr 12 21:28:57 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.0109277114450792 Sun Apr 12 21:28:58 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9774015051637568 Sun Apr 12 21:28:58 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 15, "config_id": 4, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.894670009613037, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:29:27 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:29:27 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:29:29 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.13519139852708137 Sun Apr 12 21:29:29 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.440544366972629 Sun Apr 12 21:29:29 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9338473114475466 Sun Apr 12 21:29:29 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.9972065840927485 Sun Apr 12 21:29:29 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 18, "config_id": 5, "repeat": 2, "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.076966047286987, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:29:58 2026\n[SB3 Runner][MONITOR] Action discretization: steer=3, throttle=3. Sun Apr 12 21:29:58 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:29:59 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.37322153748226 Sun Apr 12 21:30:00 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7794243806968991 Sun Apr 12 21:30:00 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.8498553712667509 Sun Apr 12 21:30:00 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.005238190165817529 Sun Apr 12 21:30:00 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 21, "config_id": 6, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.883620500564575, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:30:29 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:30:29 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:30:31 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.44118905590864915 Sun Apr 12 21:30:31 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.303050831935408 Sun Apr 12 21:30:31 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.590694675749141 Sun Apr 12 21:30:31 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.5604975425250996 Sun Apr 12 21:30:31 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 24, "config_id": 7, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.577462434768677, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:31:00 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:31:00 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:31:02 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.1683052808855957 Sun Apr 12 21:31:02 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7875048753060037 Sun Apr 12 21:31:02 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.044613928033139 Sun Apr 12 21:31:02 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4338193908104135 Sun Apr 12 21:31:02 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 27, "config_id": 8, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.709301233291626, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:31:32 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=2. Sun Apr 12 21:31:32 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:31:33 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5988203776764787 Sun Apr 12 21:31:33 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9327123981684247 Sun Apr 12 21:31:33 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.234187242403292 Sun Apr 12 21:31:33 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1465795096518123 Sun Apr 12 21:31:33 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 30, "config_id": 9, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.426770210266113, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:32:04 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:32:04 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:32:05 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.4701409253944153 Sun Apr 12 21:32:05 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.6804338518341829 Sun Apr 12 21:32:05 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.7457466415814324 Sun Apr 12 21:32:05 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.832595543783269 Sun Apr 12 21:32:05 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 33, "config_id": 10, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.04483914375305, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:32:34 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:32:34 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:32:35 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5773871092323495 Sun Apr 12 21:32:35 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9521704795815983 Sun Apr 12 21:32:35 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4098641477794083 Sun Apr 12 21:32:36 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0928673263420818 Sun Apr 12 21:32:36 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 36, "config_id": 11, "repeat": 2, "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.878671646118164, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:33:05 2026\n[SB3 Runner][MONITOR] Action discretization: steer=5, throttle=3. Sun Apr 12 21:33:05 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:33:06 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.455081219640364 Sun Apr 12 21:33:06 2026\n[SB3 Runner][TEST] Step 20 done=False reward=1.0723680588169942 Sun Apr 12 21:33:06 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.261871841074176 Sun Apr 12 21:33:07 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.3819792443310535 Sun Apr 12 21:33:07 2026\n[SB3 Runner][TEST] Step 5"}
+{"run_id": 39, "config_id": 12, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.73742175102234, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:33:36 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:33:36 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:33:37 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.3065627944894654 Sun Apr 12 21:33:37 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.5614421060220186 Sun Apr 12 21:33:37 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.1598978010206626 Sun Apr 12 21:33:37 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.1199327257573337 Sun Apr 12 21:33:38 2026\n[SB3 Runner][TEST] Step"}
+{"run_id": 42, "config_id": 13, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.459290027618408, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:34:08 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:34:08 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:34:09 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.19346709820998748 Sun Apr 12 21:34:09 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.43199515408246225 Sun Apr 12 21:34:09 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9767503646134752 Sun Apr 12 21:34:09 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.5450886000851083 Sun Apr 12 21:34:09 2026\n[SB3 Runner][TEST] St"}
+{"run_id": 45, "config_id": 14, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.866318464279175, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:34:39 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=2. Sun Apr 12 21:34:39 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:34:40 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.5999240538466469 Sun Apr 12 21:34:41 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8651085545422025 Sun Apr 12 21:34:41 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.758817238117345 Sun Apr 12 21:34:41 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.8907401997848441 Sun Apr 12 21:34:41 2026\n[SB3 Runner][TEST] Step "}
+{"run_id": 48, "config_id": 15, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 25.133705377578735, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:35:10 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:35:10 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:35:11 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.26060405003764114 Sun Apr 12 21:35:11 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.9639304678323537 Sun Apr 12 21:35:12 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.4536746696156435 Sun Apr 12 21:35:12 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.0952331854068698 Sun Apr 12 21:35:12 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 51, "config_id": 16, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.63571548461914, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:35:41 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:35:41 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:35:42 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.44587304630522034 Sun Apr 12 21:35:43 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.7827412299954685 Sun Apr 12 21:35:43 2026\n[SB3 Runner][TEST] Step 30 done=False reward=0.9806650968418115 Sun Apr 12 21:35:43 2026\n[SB3 Runner][TEST] Step 40 done=False reward=0.7489350749736983 Sun Apr 12 21:35:43 2026\n[SB3 Runner][TEST] Ste"}
+{"run_id": 54, "config_id": 17, "repeat": 2, "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0001, "timesteps": 2000, "eval_episodes": 3}, "mean_reward": null, "elapsed_sec": 24.491201639175415, "run_status": "ok", "raw_output": "[SB3 Runner] Starting: Connecting to sim\u2026\nstarting DonkeyGym env\nSetting default: start_delay 5.0\nSetting default: max_cte 8.0\nSetting default: frame_skip 1\nSetting default: cam_resolution (120, 160, 3)\nSetting default: log_level 20\nSetting default: host localhost\nSetting default: port 9091\nSetting default: steer_limit 1.0\nSetting default: throttle_min 0.0\nSetting default: throttle_max 1.0\n[SB3 Runner][MONITOR] Connected to gym env. Sun Apr 12 21:36:12 2026\n[SB3 Runner][MONITOR] Action discretization: steer=7, throttle=3. Sun Apr 12 21:36:12 2026\n[SB3 Runner][TEST] Episode 1/10 - reset at Sun Apr 12 21:36:13 2026\n[SB3 Runner][TEST] Step 10 done=False reward=0.48685100509761503 Sun Apr 12 21:36:13 2026\n[SB3 Runner][TEST] Step 20 done=False reward=0.8718984094948793 Sun Apr 12 21:36:13 2026\n[SB3 Runner][TEST] Step 30 done=False reward=1.2549148495085163 Sun Apr 12 21:36:14 2026\n[SB3 Runner][TEST] Step 40 done=False reward=1.4117862073057335 Sun Apr 12 21:36:14 2026\n[SB3 Runner][TEST] Ste"}
--- a/agent/run_all_known_tracks.py
+++ b/agent/run_all_known_tracks.py
@ -0,0 +1,39 @@
+# Supported DonkeyCar tracks detected in code:
+available_tracks = [
+    "generated_road",
+    "warehouse",
+    "sparkfun_avc",
+    "generated_track",
+    "mountain_track",
+    "roboracingleague_1",
+    "waveshare",
+    "mini_monaco",
+    "warren",
+    "thunderhill",
+    "circuit_launch",
+]
+from gym_donkeycar.envs.donkey_env import DonkeyEnv
+import sys
+
+print("Available tracks:")
+for i, t in enumerate(available_tracks):
+    print(f"[{i}] {t}")
+
+choice = input("Enter the number of the track to use: ")
+try:
+    idx = int(choice.strip())
+    track = available_tracks[idx]
+    print(f"Loading track: {track}")
+except Exception as e:
+    print(f"Invalid selection ({e}), using default track: {available_tracks[0]}")
+    track = available_tracks[0]
+
+env = DonkeyEnv(level=track)
+obs, info = env.reset()
+for t in range(10):
+    action = env.action_space.sample()
+    obs, reward, terminated, truncated, info = env.step(action)
+    print(f"Step {t}: reward {reward}, done {terminated or truncated}")
+    if terminated or truncated:
+        obs, info = env.reset()
+env.close()
--- a/agent/run_circuit_launch.py
+++ b/agent/run_circuit_launch.py
@ -0,0 +1,11 @@
+from gym_donkeycar.envs.donkey_env import DonkeyEnv
+
+env = DonkeyEnv(level="circuit_launch")
+obs, info = env.reset()
+for t in range(10):
+    action = env.action_space.sample()
+    obs, reward, terminated, truncated, info = env.step(action)
+    print(f"Step {t}: reward {reward}, done {terminated or truncated}")
+    if terminated or truncated:
+        obs, info = env.reset()
+env.close()
--- a/agent/run_donkeycar_test.sh
+++ b/agent/run_donkeycar_test.sh
@ -0,0 +1,5 @@
+#!/bin/bash
+export DONKEY_SIM_PATH=self_start
+export DONKEY_SIM_HOST=10.0.0.55
+export DONKEY_SIM_PORT=9091
+python3 test_donkeycar.py
--- a/agent/sb3-models/dqn_model.zip
+++ b/agent/sb3-models/dqn_model.zip
--- a/agent/sessions/--home-paulh--/2026-04-12T20-15-04-007Z_282dff69-eb5d-4549-8e1b-6353b8e2aabb.jsonl
+++ b/agent/sessions/--home-paulh--/2026-04-12T20-15-04-007Z_282dff69-eb5d-4549-8e1b-6353b8e2aabb.jsonl
--- a/agent/sessions/--home-paulh-.pi-agent--/2026-04-12T16-58-50-601Z_c2f5ebf8-5ecd-4823-a47e-537090c740dd.jsonl
+++ b/agent/sessions/--home-paulh-.pi-agent--/2026-04-12T16-58-50-601Z_c2f5ebf8-5ecd-4823-a47e-537090c740dd.jsonl
--- a/agent/sessions/--home-paulh-projects--/2026-04-12T16-49-23-232Z_9355d4a3-a1d9-497c-989c-32e15916ad57.jsonl
+++ b/agent/sessions/--home-paulh-projects--/2026-04-12T16-49-23-232Z_9355d4a3-a1d9-497c-989c-32e15916ad57.jsonl
@ -0,0 +1,13 @@
+{"type":"session","version":3,"id":"9355d4a3-a1d9-497c-989c-32e15916ad57","timestamp":"2026-04-12T16:49:23.232Z","cwd":"/home/paulh/projects"}
+{"type":"model_change","id":"220483bc","parentId":null,"timestamp":"2026-04-12T16:49:23.251Z","provider":"openai","modelId":"gpt-5.4"}
+{"type":"thinking_level_change","id":"1bcdcf18","parentId":"220483bc","timestamp":"2026-04-12T16:49:23.251Z","thinkingLevel":"medium"}
+{"type":"message","id":"c8b594c6","parentId":"1bcdcf18","timestamp":"2026-04-12T16:49:50.731Z","message":{"role":"user","content":[{"type":"text","text":"PLease install donkeycar and gym-donkey car.  I want to test donkeycar with the simulator."}],"timestamp":1776012590729}}
+{"type":"message","id":"2d546f69","parentId":"c8b594c6","timestamp":"2026-04-12T16:49:52.449Z","message":{"role":"assistant","content":[],"api":"openai-responses","provider":"openai","model":"gpt-5.4","usage":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"totalTokens":0,"cost":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"total":0}},"stopReason":"error","timestamp":1776012590769,"responseId":"resp_0070f6d201c9d13b0169dbcd2fb884819491d7c4ef9f1da4e1","errorMessage":"You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors."}}
+{"type":"message","id":"ac35584a","parentId":"2d546f69","timestamp":"2026-04-12T16:52:27.561Z","message":{"role":"user","content":[{"type":"text","text":"pi auth github"}],"timestamp":1776012747560}}
+{"type":"message","id":"66da8b42","parentId":"ac35584a","timestamp":"2026-04-12T16:52:28.089Z","message":{"role":"assistant","content":[],"api":"openai-responses","provider":"openai","model":"gpt-5.4","usage":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"totalTokens":0,"cost":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"total":0}},"stopReason":"error","timestamp":1776012747561,"responseId":"resp_0c68434b330142e00169dbcdcbd0d481969a84ffa351379d03","errorMessage":"You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors."}}
+{"type":"model_change","id":"aef721d5","parentId":"66da8b42","timestamp":"2026-04-12T16:55:33.189Z","provider":"openai","modelId":"gpt-4.1"}
+{"type":"thinking_level_change","id":"c96cfc7e","parentId":"aef721d5","timestamp":"2026-04-12T16:55:33.189Z","thinkingLevel":"off"}
+{"type":"message","id":"643f064c","parentId":"c96cfc7e","timestamp":"2026-04-12T16:55:37.372Z","message":{"role":"user","content":[{"type":"text","text":":provider"}],"timestamp":1776012937372}}
+{"type":"message","id":"88a98fb9","parentId":"643f064c","timestamp":"2026-04-12T16:55:38.921Z","message":{"role":"assistant","content":[],"api":"openai-responses","provider":"openai","model":"gpt-4.1","usage":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"totalTokens":0,"cost":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"total":0}},"stopReason":"error","timestamp":1776012937372,"responseId":"resp_0a791a5ca65f708d0169dbce8a80e48197b6e17d551c2b9738","errorMessage":"You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors."}}
+{"type":"message","id":"cbbfc63c","parentId":"88a98fb9","timestamp":"2026-04-12T16:55:45.332Z","message":{"role":"user","content":[{"type":"text","text":"provider"}],"timestamp":1776012945332}}
+{"type":"message","id":"198ff475","parentId":"cbbfc63c","timestamp":"2026-04-12T16:55:46.318Z","message":{"role":"assistant","content":[],"api":"openai-responses","provider":"openai","model":"gpt-4.1","usage":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"totalTokens":0,"cost":{"input":0,"output":0,"cacheRead":0,"cacheWrite":0,"total":0}},"stopReason":"error","timestamp":1776012945332,"responseId":"resp_0c5a4bb19128e2f10169dbce91c3148197a7d9db9eb40a67dc","errorMessage":"You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors."}}
--- a/agent/settings.json
+++ b/agent/settings.json
@ -0,0 +1,5 @@
+{
+  "lastChangelogVersion": "0.66.1",
+  "defaultProvider": "github-copilot",
+  "defaultModel": "gpt-4.1"
+}
--- a/agent/test_donkeycar.py
+++ b/agent/test_donkeycar.py
@ -0,0 +1,20 @@
+import gym
+import gym_donkeycar.envs
+import gym_donkeycar.envs.donkey_env  # Force registration
+import os
+
+host = os.environ.get('DONKEY_SIM_HOST', '127.0.0.1')
+port = int(os.environ.get('DONKEY_SIM_PORT', '9091'))
+
+print(f"Attempting to connect to donkey sim at {host}:{port}")
+
+env = gym.make("donkey-generated-roads-v0")
+
+observation = env.reset()
+for t in range(10):
+    action = env.action_space.sample()
+    observation, reward, done, info = env.step(action)
+    print(f"Step {t}: reward {reward}, done {done}, info {info}")
+    if done:
+        observation = env.reset()
+env.close()
--- a/agent/test_donkeycar_gymnasium.py
+++ b/agent/test_donkeycar_gymnasium.py
@ -0,0 +1,21 @@
+import gymnasium as gym
+import gym_donkeycar.envs
+import gym_donkeycar.envs.donkey_env
+import os
+
+host = os.environ.get('DONKEY_SIM_HOST', '10.0.0.55')
+port = int(os.environ.get('DONKEY_SIM_PORT', '9091'))
+
+print(f"Attempting to connect to donkey sim at {host}:{port}")
+
+# Try gymnasium-style make
+env = gym.make("donkey-generated-roads-v0")
+
+observation, info = env.reset()
+for t in range(10):
+    action = env.action_space.sample()
+    observation, reward, terminated, truncated, info = env.step(action)
+    print(f"Step {t}: reward {reward}, done {terminated or truncated}, info {info}")
+    if terminated or truncated:
+        observation, info = env.reset()
+env.close()
--- a/agent/test_sdsandbox.py
+++ b/agent/test_sdsandbox.py
@ -0,0 +1,23 @@
+from sdsandbox import SDClient
+import time
+import numpy as np
+
+HOST = '10.0.0.55'
+PORT = 9091
+
+client = SDClient(HOST, PORT)
+client.init()
+
+if client.is_running():
+    print(f"Connected to SDSandbox at {HOST}:{PORT}")
+    for _ in range(10):
+        steer = np.random.uniform(-1, 1)
+        throttle = np.random.uniform(0, 1)
+        client.send_controls(steer, throttle)
+        obs = client.get_observation()
+        print(f"Obs keys: {list(obs.keys())}, Steer: {steer:.2f}, Throttle: {throttle:.2f}")
+        time.sleep(0.1)
+else:
+    print(f"Failed to connect to SDSandbox at {HOST}:{PORT}")
+
+client.close()