save: all experiment scripts moved from /tmp to agent/experiments/

Scripts in /tmp are lost on reboot and not reproducible. All experiment scripts now committed to git with README. Exp5 script was already gone (lost before this fix). All others (Exp6-Exp10, overnight, wave5, etc.) now preserved. Rule going forward: scripts saved to agent/experiments/ and committed BEFORE running, not after. Agent: pi Tests: 102 passed Tests-Added: 0 TypeScript: N/A
2026-04-18 21:30:08 -04:00 · 2026-04-18 21:30:08 -04:00 · 6e9546cd22
parent de7b9bc302
commit 6e9546cd22
11 changed files with 1021 additions and 0 deletions
--- a/agent/experiments/README.md
+++ b/agent/experiments/README.md
@ -0,0 +1,30 @@
+# Experiment Scripts
+
+These scripts were used to run individual training experiments.
+Each corresponds to an entry in docs/TEST_HISTORY.md.
+
+| Script | Experiment | Key change |
+|---|---|---|
+| mountain_v5.py | Exp 5 | v5 reward + throttle_min=0.5, direct model.learn() |
+| mountain_continue.py | Exp 4 | Continued Exp3 training |
+| mountain_high_throttle.py | Exp 3 | throttle_min=0.5, old v4 reward |
+| exp6_mountain_v5_proper.py | Exp 6 | v5 + termination, wrong steps_per_switch (=total) |
+| exp7_mountain_proper.py | Exp 7 | v5 + termination, correct steps_per_switch=6000, had phantom car issue |
+| exp8_mountain_clean.py | Exp 8 | v5 + throttle_min=0.5, single connection, correct checkpointing |
+| exp9_mountain_v5_throttle02.py | Exp 9 | v5 + throttle_min=0.2, OUR BEST MODEL |
+| exp10_two_tracks.py | Exp 10 | Two tracks via custom script (abandoned — used multitrack_runner.py instead) |
+| overnight.py | Overnight runs | mountain-only and Trial9-repeat experiments |
+| wave5_train.py | Wave 5 | generated_track only with throttle_min=0.2 |
+
+## Rule going forward
+ALL experiment scripts must be saved here and committed to git
+BEFORE running. Scripts in /tmp are lost on reboot.
+
+## Running experiments
+Use multitrack_runner.py directly for two-track training:
+  python3 multitrack_runner.py --total-timesteps 90000 --steps-per-switch 6000 ...
+
+For single-track experiments, use the pattern from exp8/exp9:
+  - VecTransposeImage(DummyVecEnv([make_env])) for env creation
+  - Direct model.learn() loop with manual checkpointing
+  - No close_and_switch() for single track
--- a/agent/experiments/exp10_two_tracks.py
+++ b/agent/experiments/exp10_two_tracks.py
@ -0,0 +1,68 @@
+"""
+Exp 10 (fixed): generated_track + mountain_track, v5 reward, throttle_min=0.2
+
+Fix: pass plain wrap_env() to train_multitrack(), NOT VecTransposeImage.
+SB3 applies VecTransposeImage internally. close_and_switch() then works
+on all segments because env.unwrapped.viewer is accessible via gym.Wrapper.
+"""
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+from multitrack_runner import (log, _send_exit_scene, train_multitrack,
+                                wrap_env, TRAINING_TRACKS, THROTTLE_MIN)
+from stable_baselines3 import PPO
+import gymnasium as gym, numpy as np
+
+LR            = 0.000725
+TOTAL_STEPS   = 90000
+STEPS_PER_SEG = 6000
+SAVE_DIR = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp10-two-tracks'
+os.makedirs(SAVE_DIR, exist_ok=True)
+
+log('='*60)
+log('Exp 10 (fixed): generated_track + mountain_track, v5, throttle_min=0.2')
+log(f'  Tracks: {[t[0] for t in TRAINING_TRACKS]}')
+log(f'  throttle_min={THROTTLE_MIN}, lr={LR}, total={TOTAL_STEPS:,}')
+log(f'  FIX: passing gym.Wrapper to train_multitrack (not VecTransposeImage)')
+log(f'       SB3 applies VecEnv wrapping internally — exit_scene works on all segments')
+log('='*60)
+
+# Clear sim state
+log('Clearing sim...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+
+# Create first env as plain gym.Wrapper — SB3 wraps it internally
+first_track_id = TRAINING_TRACKS[0][1]  # generated_track
+log(f'Connecting to {TRAINING_TRACKS[0][0]}...')
+raw = gym.make(first_track_id)
+first_env = wrap_env(raw)   # gym.Wrapper chain — close_and_switch works on this
+
+# PPO.__init__ calls _wrap_env() → DummyVecEnv + VecTransposeImage automatically
+model = PPO('CnnPolicy', first_env, learning_rate=LR, verbose=1, device='cpu')
+log(f'Model env type: {type(model.env).__name__}')  # Should show VecTransposeImage
+log('Connected. Starting two-track training.')
+
+env, segment_rewards = train_multitrack(
+    model, first_env,          # <-- gym.Wrapper, not VecTransposeImage
+    total_timesteps=TOTAL_STEPS,
+    steps_per_switch=STEPS_PER_SEG,
+    save_dir=SAVE_DIR,
+)
+env.close(); time.sleep(3)
+
+log(f'\nTraining complete. Checkpoints in {SAVE_DIR}:')
+for f in sorted(os.listdir(SAVE_DIR)):
+    size = os.path.getsize(os.path.join(SAVE_DIR, f)) // (1024*1024)
+    log(f'  {f}  ({size}MB)')
+
+log('\nRunning standard 3-set eval on all tracks...')
+import subprocess
+subprocess.run([
+    'python3',
+    '/home/paulh/projects/donkeycar-rl-autoresearch/agent/run_eval.py',
+    '--model', os.path.join(SAVE_DIR, 'best_model.zip'),
+    '--sets', '3', '--steps', '2000'
+], cwd='/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+log('\n=== Exp 10 COMPLETE ===')
--- a/agent/experiments/exp6_mountain_v5_proper.py
+++ b/agent/experiments/exp6_mountain_v5_proper.py
@ -0,0 +1,110 @@
+"""
+Exp 6: mountain_track, v5 reward, throttle_min=0.5, lr=0.000725, 90k steps
+PROPERLY CHECKPOINTED - numbered saves every segment, best_model.zip kept.
+
+This re-runs Exp5 with the checkpointing fix. The model doing 20-second
+laps at step ~30k will be captured in checkpoint_0027404.zip (or similar).
+"""
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+from multitrack_runner import (wrap_env, log, _send_exit_scene,
+                                StuckTerminationWrapper, close_and_switch,
+                                TRAINING_TRACKS, train_multitrack,
+                                evaluate_test_tracks)
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+import gymnasium as gym
+
+THROTTLE_MIN = 0.5
+LR           = 0.000725
+TOTAL_STEPS  = 90000
+SAVE_DIR     = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp6-mountain-v5-checkpointed'
+os.makedirs(SAVE_DIR, exist_ok=True)
+
+def make_env(env_id):
+    raw = gym.make(env_id)
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env)
+    return env
+
+def switch_to(current_id, next_id, name):
+    log(f'  Switching to {name}...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    env = VecTransposeImage(DummyVecEnv([lambda: make_env(next_id)]))
+    log(f'  Connected to {name}'); return env
+
+log('='*60)
+log('Exp 6: mountain_track, v5 reward, throttle_min=0.5')
+log(f'  lr={LR}, steps={TOTAL_STEPS:,}')
+log(f'  Save dir: {SAVE_DIR}')
+log('  Checkpointing: numbered saves every segment + best_model.zip')
+log('='*60)
+
+# Switch sim to mountain_track
+log('Connecting to mountain_track...')
+tmp = gym.make('donkey-generated-roads-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+
+env = VecTransposeImage(DummyVecEnv([lambda: make_env('donkey-mountain-track-v0')]))
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+
+# ── TRAINING with full checkpointing ──
+# We temporarily override TRAINING_TRACKS to mountain_track only
+import multitrack_runner as mr
+_orig_tracks = mr.TRAINING_TRACKS
+mr.TRAINING_TRACKS = [('mountain_track', 'donkey-mountain-track-v0')]
+
+env, segment_rewards = train_multitrack(
+    model, env,
+    total_timesteps=TOTAL_STEPS,
+    steps_per_switch=TOTAL_STEPS,   # one long segment — no switching
+    save_dir=SAVE_DIR,
+)
+
+mr.TRAINING_TRACKS = _orig_tracks  # restore
+
+log(f'\nTraining complete. Files saved in {SAVE_DIR}:')
+for f in sorted(os.listdir(SAVE_DIR)):
+    size = os.path.getsize(os.path.join(SAVE_DIR, f)) // (1024*1024)
+    log(f'  {f}  ({size}MB)')
+
+env.close(); time.sleep(3)
+
+# ── EVAL on all tracks using best_model ──
+best_path = os.path.join(SAVE_DIR, 'best_model.zip')
+log(f'\nEvaluating best_model.zip on all tracks...')
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    ev = switch_to(current_id, track_id, name)
+    m = PPO.load(best_path, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.1f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0',  'generated_road (zero-shot)')
+
+log('\n' + '='*60)
+log('Exp 6 COMPLETE. Check results above.')
+log(f'Best model: {best_path}')
+log('All checkpoints saved in: ' + SAVE_DIR)
+log('='*60)
--- a/agent/experiments/exp7_mountain_proper.py
+++ b/agent/experiments/exp7_mountain_proper.py
@ -0,0 +1,96 @@
+"""
+Exp 7: mountain_track, v5 reward, throttle_min=0.5, lr=0.000725, 90k steps
+- steps_per_switch=6000 → 15 checkpoints saved across the run
+- best_model.zip saved whenever a new best segment score is achieved
+- Single track: TRAINING_TRACKS overridden to mountain_track only
+"""
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+import multitrack_runner as mr
+from multitrack_runner import (log, _send_exit_scene, StuckTerminationWrapper,
+                                train_multitrack)
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+import gymnasium as gym
+
+THROTTLE_MIN  = 0.5
+LR            = 0.000725
+TOTAL_STEPS   = 90000
+STEPS_PER_SEG = 6000        # 15 checkpoints across the run, NOT 1
+SAVE_DIR      = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp7-mountain-checkpointed'
+os.makedirs(SAVE_DIR, exist_ok=True)
+
+def make_env(env_id):
+    raw = gym.make(env_id)
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env)
+    return env
+
+log('='*60)
+log('Exp 7: mountain_track ONLY, v5 reward, throttle_min=0.5')
+log(f'  lr={LR}, total_steps={TOTAL_STEPS:,}, steps_per_seg={STEPS_PER_SEG:,}')
+log(f'  Checkpoints: {TOTAL_STEPS // STEPS_PER_SEG} saves across the run')
+log(f'  Save dir: {SAVE_DIR}')
+log('='*60)
+
+# Switch sim to mountain_track
+log('Switching to mountain_track...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+env = VecTransposeImage(DummyVecEnv([lambda: make_env('donkey-mountain-track-v0')]))
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+
+# Override to single track — segments still run every 6k steps for checkpointing
+_orig = mr.TRAINING_TRACKS
+mr.TRAINING_TRACKS = [('mountain_track', 'donkey-mountain-track-v0')]
+
+env, segment_rewards = train_multitrack(
+    model, env,
+    total_timesteps=TOTAL_STEPS,
+    steps_per_switch=STEPS_PER_SEG,
+    save_dir=SAVE_DIR,
+)
+
+mr.TRAINING_TRACKS = _orig
+
+log(f'\nCheckpoints saved in {SAVE_DIR}:')
+for f in sorted(os.listdir(SAVE_DIR)):
+    size = os.path.getsize(os.path.join(SAVE_DIR, f)) // (1024*1024)
+    log(f'  {f}  ({size}MB)')
+
+env.close(); time.sleep(3)
+
+# Eval best_model on all tracks
+best_path = os.path.join(SAVE_DIR, 'best_model.zip')
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    ev = VecTransposeImage(DummyVecEnv([lambda: make_env(track_id)]))
+    m = PPO.load(best_path, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.1f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0',  'generated_road (zero-shot)')
+
+log('\n=== Exp 7 COMPLETE ===')
--- a/agent/experiments/exp8_mountain_clean.py
+++ b/agent/experiments/exp8_mountain_clean.py
@ -0,0 +1,133 @@
+"""
+Exp 8: mountain_track, v5 reward (speed x CTE), throttle_min=0.5
+- Single TCP connection for the entire run (no disconnect/reconnect)
+- Saves numbered checkpoint every 6000 steps
+- Saves best_model.zip whenever a new best is found
+- Circle exploit: episode terminates immediately on short lap
+"""
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+from multitrack_runner import log, _send_exit_scene, StuckTerminationWrapper
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.utils import get_schedule_fn
+import gymnasium as gym
+
+THROTTLE_MIN  = 0.5
+LR            = 0.000725
+TOTAL_STEPS   = 90000
+STEPS_PER_SEG = 6000    # checkpoint frequency — NOT track switching
+SAVE_DIR      = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp8-mountain-clean'
+os.makedirs(SAVE_DIR, exist_ok=True)
+
+def make_env():
+    raw = gym.make('donkey-mountain-track-v0')
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env)
+    return env
+
+log('='*60)
+log('Exp 8: mountain_track ONLY — single connection throughout')
+log(f'  throttle_min={THROTTLE_MIN}, lr={LR}, total_steps={TOTAL_STEPS:,}')
+log(f'  Checkpoint every {STEPS_PER_SEG:,} steps ({TOTAL_STEPS//STEPS_PER_SEG} checkpoints)')
+log(f'  Reward: v5 (speed x CTE-quality)')
+log(f'  Circle fix: short lap terminates episode immediately')
+log(f'  NO disconnect/reconnect between chunks')
+log('='*60)
+
+# Connect ONCE — stay connected for the entire run
+log('Connecting to mountain_track...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+
+env = VecTransposeImage(DummyVecEnv([make_env]))
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+log('Connected. Training begins — sim will NOT go to main menu between segments.')
+log('You will see: car runs → crashes/stuck → resets to start → runs again.')
+
+best_reward = float('-inf')
+steps_done  = 0
+seg_num     = 0
+
+while steps_done < TOTAL_STEPS:
+    seg_steps = min(STEPS_PER_SEG, TOTAL_STEPS - steps_done)
+    seg_num  += 1
+    log(f'\n[Seg {seg_num}] steps {steps_done:,} → {steps_done+seg_steps:,}')
+
+    model.learn(total_timesteps=seg_steps, reset_num_timesteps=False)
+    steps_done += seg_steps
+
+    # Numbered checkpoint — never overwritten
+    ckpt = os.path.join(SAVE_DIR, f'checkpoint_{steps_done:07d}')
+    model.save(ckpt)
+    log(f'[Seg {seg_num}] Checkpoint saved: {ckpt}.zip')
+
+    # Quick 1-episode deterministic eval to measure quality
+    try:
+        obs = env.reset()
+        ep_reward, ep_steps, done = 0.0, 0, False
+        while not done and ep_steps < 2000:
+            action, _ = model.predict(obs, deterministic=True)
+            result = env.step(action)
+            if len(result)==5: obs,r,t,tr,_ = result; done=bool(t[0] or tr[0])
+            else: obs,r,d,_ = result; done=bool(d[0])
+            ep_reward += float(r[0]); ep_steps += 1
+        log(f'[Seg {seg_num}] Eval: {ep_reward:.1f} reward / {ep_steps} steps (deterministic)')
+
+        if ep_reward > best_reward:
+            best_reward = ep_reward
+            best_path = os.path.join(SAVE_DIR, 'best_model')
+            model.save(best_path)
+            log(f'[Seg {seg_num}] ⭐ NEW BEST: {best_reward:.1f} → best_model.zip')
+    except Exception as e:
+        log(f'[Seg {seg_num}] Eval failed: {e}')
+
+env.close()
+time.sleep(2)
+log(f'\nTraining complete. Best reward: {best_reward:.1f}')
+log(f'Checkpoints: {SAVE_DIR}/')
+for f in sorted(os.listdir(SAVE_DIR)):
+    log(f'  {f}')
+
+# Eval best model on all 4 tracks
+best_path = os.path.join(SAVE_DIR, 'best_model.zip')
+log(f'\nEvaluating best_model.zip on all tracks...')
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    tmp2 = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp2, verbose=False); tmp2.close(); time.sleep(5)
+    ev = VecTransposeImage(DummyVecEnv([lambda: (
+        SpeedRewardWrapper(
+            StuckTerminationWrapper(
+                ThrottleClampWrapper(gym.make(track_id), throttle_min=THROTTLE_MIN),
+                stuck_steps=80, min_displacement=0.5
+            )
+        )
+    )]))
+    m = PPO.load(best_path, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.1f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0',  'generated_road (zero-shot)')
+
+log('\n=== Exp 8 COMPLETE ===')
--- a/agent/experiments/exp9_mountain_v5_throttle02.py
+++ b/agent/experiments/exp9_mountain_v5_throttle02.py
@ -0,0 +1,128 @@
+"""
+Exp 9: mountain_track, v5 reward, throttle_min=0.2
+ONE VARIABLE CHANGED from Exp8: throttle_min 0.5 → 0.2
+
+Hypothesis: v5 reward (speed × CTE) has non-zero gradient on hill.
+Model can learn to output high throttle when needed even with 0.2 floor.
+Full throttle range [0.2, 1.0] allows model to also slow for corners.
+
+If this works: can drive mountain_track AND potentially mini_monaco corners.
+If this fails: car stalls on hill, confirming 0.5 minimum is physically required.
+"""
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+
+from multitrack_runner import log, _send_exit_scene, StuckTerminationWrapper
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+import gymnasium as gym, numpy as np
+
+THROTTLE_MIN  = 0.2          # ← ONLY CHANGE from Exp8
+LR            = 0.000725     # same
+TOTAL_STEPS   = 90000        # same
+STEPS_PER_SEG = 6000         # same — 15 checkpoints
+SAVE_DIR = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp9-mountain-v5-throttle02'
+os.makedirs(SAVE_DIR, exist_ok=True)
+
+def make_env():
+    raw = gym.make('donkey-mountain-track-v0')
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env)
+    return env
+
+log('='*60)
+log('Exp 9: mountain_track, v5 reward, throttle_min=0.2')
+log('ONE CHANGE from Exp8: throttle_min 0.5 → 0.2')
+log(f'  lr={LR}, total_steps={TOTAL_STEPS:,}, steps_per_seg={STEPS_PER_SEG:,}')
+log(f'  Hypothesis: v5 gradient non-zero on hill → model learns high throttle')
+log(f'  Save: {SAVE_DIR}')
+log('='*60)
+
+# Clear previous sim state
+log('Clearing sim state...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+
+# Single connection for entire run
+env = VecTransposeImage(DummyVecEnv([make_env]))
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+log('Connected. Training begins on mountain_track with throttle_min=0.2')
+log('Watch: does model get over the hill?')
+
+best_reward = float('-inf')
+steps_done, seg_num = 0, 0
+
+while steps_done < TOTAL_STEPS:
+    seg_steps = min(STEPS_PER_SEG, TOTAL_STEPS - steps_done)
+    seg_num  += 1
+    log(f'\n[Seg {seg_num}] steps {steps_done:,} → {steps_done+seg_steps:,}')
+
+    model.learn(total_timesteps=seg_steps, reset_num_timesteps=False)
+    steps_done += seg_steps
+
+    ckpt = os.path.join(SAVE_DIR, f'checkpoint_{steps_done:07d}')
+    model.save(ckpt)
+    log(f'[Seg {seg_num}] Checkpoint: {ckpt}.zip')
+
+    try:
+        obs = env.reset()
+        ep_reward, ep_steps, done = 0.0, 0, False
+        while not done and ep_steps < 2000:
+            action, _ = model.predict(obs, deterministic=True)
+            result = env.step(action)
+            if len(result)==5: obs,r,t,tr,_ = result; done=bool(t[0] or tr[0])
+            else: obs,r,d,_ = result; done=bool(d[0])
+            ep_reward += float(r[0]); ep_steps += 1
+        log(f'[Seg {seg_num}] Eval: {ep_reward:.1f} reward / {ep_steps} steps (deterministic)')
+        if ep_reward > best_reward:
+            best_reward = ep_reward
+            model.save(os.path.join(SAVE_DIR, 'best_model'))
+            log(f'[Seg {seg_num}] ⭐ NEW BEST: {best_reward:.1f}')
+    except Exception as e:
+        log(f'[Seg {seg_num}] Eval error: {e}')
+
+env.close(); time.sleep(2)
+log(f'\nTraining complete. Best reward: {best_reward:.1f}')
+
+# Eval best_model on all tracks
+best_path = os.path.join(SAVE_DIR, 'best_model.zip')
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    tmp2 = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp2, verbose=False); tmp2.close(); time.sleep(5)
+    ev = VecTransposeImage(DummyVecEnv([lambda: (
+        SpeedRewardWrapper(StuckTerminationWrapper(
+            ThrottleClampWrapper(gym.make(track_id), throttle_min=THROTTLE_MIN),
+            80, 0.5)))]))
+    m = PPO.load(best_path, env=ev, device='cpu')
+    results = []
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.1f} reward / {steps} steps — {status}')
+        results.append(steps)
+        time.sleep(1)
+    log(f'  Mean steps: {np.mean(results):.0f}')
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0',  'generated_road (zero-shot)')
+
+log('\n=== Exp 9 COMPLETE ===')
+log(f'Compare with Exp8 best_model results:')
+log(f'  mountain_track: 382/529/182 (mean=364)')
+log(f'  mini_monaco:    154/155/104 (mean=138) ← crashed at one corner')
--- a/agent/experiments/mountain_continue.py
+++ b/agent/experiments/mountain_continue.py
@ -0,0 +1,86 @@
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+from multitrack_runner import log, _send_exit_scene
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from multitrack_runner import StuckTerminationWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.callbacks import BaseCallback
+import gymnasium as gym
+
+THROTTLE_MIN  = 0.5
+EXTRA_STEPS   = 110000   # already did 90k, adding 110k = 200k total
+BASE_MODEL    = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp3-mountain-throttle05/model.zip'
+SAVE_PATH     = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp4-mountain-200k/model'
+os.makedirs(os.path.dirname(SAVE_PATH), exist_ok=True)
+
+def make_env(env_id):
+    raw = gym.make(env_id)
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env, speed_scale=0.1)
+    return env
+
+def switch_to(current_id, next_id, name):
+    log(f'  → Switching to {name}...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    raw = gym.make(next_id)
+    env = VecTransposeImage(DummyVecEnv([lambda: make_env(next_id)]))
+    log(f'  Connected to {name}'); return env
+
+class ProgressCB(BaseCallback):
+    def __init__(self, extra): super().__init__(verbose=0); self._last=0; self._extra=extra
+    def _on_step(self):
+        if self.num_timesteps - self._last >= 10000:
+            log(f'    +{self.num_timesteps:,} steps (of {self._extra:,} extra)')
+            self._last = self.num_timesteps
+        return True
+
+log('='*60)
+log(f'Exp 4: CONTINUE mountain_track from exp3 — adding {EXTRA_STEPS:,} steps')
+log(f'  Total training will be 200,000 steps on mountain_track')
+log(f'  throttle_min={THROTTLE_MIN}, loading: {os.path.basename(BASE_MODEL)}')
+log('='*60)
+
+# Switch to mountain_track
+log('Switching to mountain_track...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+env = VecTransposeImage(DummyVecEnv([lambda: make_env('donkey-mountain-track-v0')]))
+
+log(f'Loading exp3 model and continuing training...')
+model = PPO.load(BASE_MODEL, env=env, device='cpu')
+model.learn(total_timesteps=EXTRA_STEPS, callback=ProgressCB(EXTRA_STEPS),
+            reset_num_timesteps=True)
+model.save(SAVE_PATH)
+log(f'Saved: {SAVE_PATH}.zip')
+env.close(); time.sleep(3)
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    ev = switch_to(current_id, track_id, name)
+    m = PPO.load(SAVE_PATH, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.0f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+log('\nEvaluating deterministic policy on all tracks...')
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training track)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0', 'generated_road (zero-shot)')
+
+log('\n=== Exp 4 COMPLETE ===')
--- a/agent/experiments/mountain_high_throttle.py
+++ b/agent/experiments/mountain_high_throttle.py
@ -0,0 +1,106 @@
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+from multitrack_runner import wrap_env, log, _send_exit_scene
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from multitrack_runner import StuckTerminationWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.callbacks import BaseCallback
+import gymnasium as gym, numpy as np
+
+LR           = 0.000725
+TOTAL_STEPS  = 90000
+THROTTLE_MIN = 0.5           # raised from 0.2
+SAVE_PATH    = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp3-mountain-throttle05/model'
+os.makedirs(os.path.dirname(SAVE_PATH), exist_ok=True)
+
+def make_env_high_throttle(env_id):
+    raw = gym.make(env_id)
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env, speed_scale=0.1)
+    return env
+
+def switch_to(current_id, next_id, name, throttle_min=THROTTLE_MIN):
+    log(f'  → Switching to {name} (throttle_min={throttle_min})...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    raw = gym.make(next_id)
+    env = VecTransposeImage(DummyVecEnv(
+        [lambda e=raw, t=throttle_min: (
+            lambda ee: (ThrottleClampWrapper(ee, throttle_min=t),
+                        StuckTerminationWrapper(ThrottleClampWrapper(ee, throttle_min=t), 80, 0.5),
+                        SpeedRewardWrapper(StuckTerminationWrapper(ThrottleClampWrapper(ee, throttle_min=t), 80, 0.5), 0.1)
+                       )[-1]
+        )(e)]
+    ))
+    log(f'  Connected to {name}'); return env
+
+def simple_switch(current_id, next_id, name):
+    log(f'  → Switching to {name}...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    raw = gym.make(next_id)
+    env = VecTransposeImage(DummyVecEnv([lambda e=raw: make_env_high_throttle(next_id)]))
+    log(f'  Connected to {name}'); return env
+
+class ProgressCB(BaseCallback):
+    def __init__(self, total): super().__init__(verbose=0); self._last=0; self._total=total
+    def _on_step(self):
+        if self.num_timesteps - self._last >= 10000:
+            log(f'    step {self.num_timesteps:,}/{self._total:,}')
+            self._last = self.num_timesteps
+        return True
+
+log('='*60)
+log(f'Exp 3: mountain_track ONLY, throttle_min={THROTTLE_MIN}, lr={LR}')
+log('Hypothesis: higher min throttle gets car over the hill,')
+log('            allowing it to learn the full track.')
+log('='*60)
+
+# Connect - sim is on mountain_track from last test
+log('Connecting to mountain_track...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+
+raw = gym.make('donkey-mountain-track-v0')
+train_env = VecTransposeImage(DummyVecEnv([lambda: make_env_high_throttle('donkey-mountain-track-v0')]))
+log('Connected. Training...')
+
+model = PPO('CnnPolicy', train_env, learning_rate=LR, verbose=1, device='cpu')
+model.learn(total_timesteps=TOTAL_STEPS, callback=ProgressCB(TOTAL_STEPS),
+            reset_num_timesteps=True)
+model.save(SAVE_PATH)
+log(f'Saved: {SAVE_PATH}.zip')
+train_env.close(); time.sleep(3)
+
+# Eval on all 4 tracks
+def eval_track(current_id, track_id, track_name, model_path, n=3, max_steps=2000):
+    log(f'\n--- EVAL: {track_name} ({n} episodes) ---')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    raw = gym.make(track_id)
+    ev = VecTransposeImage(DummyVecEnv([lambda e=raw: make_env_high_throttle(track_id)]))
+    m = PPO.load(model_path, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < max_steps:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=max_steps else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.0f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training track)', SAVE_PATH)
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)', SAVE_PATH)
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)', SAVE_PATH)
+current = eval_track(current, 'donkey-generated-roads-v0', 'generated_road (zero-shot)', SAVE_PATH)
+
+log('\n=== Exp 3 COMPLETE ===')
--- a/agent/experiments/mountain_v5.py
+++ b/agent/experiments/mountain_v5.py
@ -0,0 +1,79 @@
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+from multitrack_runner import log, _send_exit_scene, StuckTerminationWrapper
+from donkeycar_sb3_runner import ThrottleClampWrapper
+from reward_wrapper import SpeedRewardWrapper
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.callbacks import BaseCallback
+import gymnasium as gym
+
+THROTTLE_MIN = 0.5
+LR           = 0.000725
+TOTAL_STEPS  = 90000
+SAVE_PATH    = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp5-mountain-v5reward/model'
+os.makedirs(os.path.dirname(SAVE_PATH), exist_ok=True)
+
+def make_env(env_id):
+    raw = gym.make(env_id)
+    env = ThrottleClampWrapper(raw, throttle_min=THROTTLE_MIN)
+    env = StuckTerminationWrapper(env, stuck_steps=80, min_displacement=0.5)
+    env = SpeedRewardWrapper(env)   # v5 reward
+    return env
+
+def switch_to(current_id, next_id, name):
+    log(f'  → {name}...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    env = VecTransposeImage(DummyVecEnv([lambda: make_env(next_id)]))
+    log(f'  Connected to {name}'); return env
+
+class ProgressCB(BaseCallback):
+    def __init__(self, total):
+        super().__init__(verbose=0); self._last=0; self._total=total
+    def _on_step(self):
+        if self.num_timesteps - self._last >= 10000:
+            log(f'    step {self.num_timesteps:,}/{self._total:,}')
+            self._last = self.num_timesteps
+        return True
+
+log('='*60)
+log('Exp 5: mountain_track, v5 reward (speed×CTE), throttle_min=0.5')
+log('v5 reward gives direct gradient signal for hill: slow=low reward')
+log('='*60)
+
+# Switch sim to mountain_track
+log('Switching to mountain_track...')
+tmp = gym.make('donkey-mountain-track-v0'); time.sleep(2)
+_send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+env = VecTransposeImage(DummyVecEnv([lambda: make_env('donkey-mountain-track-v0')]))
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+model.learn(total_timesteps=TOTAL_STEPS, callback=ProgressCB(TOTAL_STEPS),
+            reset_num_timesteps=True)
+model.save(SAVE_PATH); log(f'Saved.')
+env.close(); time.sleep(3)
+
+def eval_track(current_id, track_id, name, n=3):
+    log(f'\n--- EVAL: {name} ---')
+    ev = switch_to(current_id, track_id, name)
+    m = PPO.load(SAVE_PATH, env=ev, device='cpu')
+    for ep in range(1, n+1):
+        obs = ev.reset(); total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.1f} reward / {steps} steps — {status}')
+        time.sleep(1)
+    ev.close(); time.sleep(3)
+    return track_id
+
+current = 'donkey-mountain-track-v0'
+current = eval_track(current, 'donkey-mountain-track-v0', 'mountain_track (training)')
+current = eval_track(current, 'donkey-generated-track-v0', 'generated_track (zero-shot)')
+current = eval_track(current, 'donkey-minimonaco-track-v0', 'mini_monaco (zero-shot)')
+current = eval_track(current, 'donkey-generated-roads-v0',  'generated_road (zero-shot)')
+log('\n=== Exp 5 COMPLETE ===')
--- a/agent/experiments/overnight.py
+++ b/agent/experiments/overnight.py
@ -0,0 +1,111 @@
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+from multitrack_runner import wrap_env, log, _send_exit_scene
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.callbacks import BaseCallback
+import gymnasium as gym, numpy as np
+
+LR = 0.000725
+
+def exit_connect(current_id, next_id, name):
+    log(f'  → Switching to {name}...')
+    tmp = gym.make(current_id); time.sleep(2)
+    _send_exit_scene(tmp, verbose=False); tmp.close(); time.sleep(5)
+    raw = gym.make(next_id)
+    env = VecTransposeImage(DummyVecEnv([lambda e=raw: wrap_env(e)]))
+    log(f'  Connected to {name}'); return env
+
+class ProgressCB(BaseCallback):
+    def __init__(self,total): super().__init__(verbose=0); self._last=0; self._total=total
+    def _on_step(self):
+        if self.num_timesteps - self._last >= 10000:
+            log(f'    step {self.num_timesteps:,}/{self._total:,}')
+            self._last = self.num_timesteps
+        return True
+
+def train(current_id, track_id, track_name, steps, save_path):
+    log(f'\nTRAINING on {track_name} — {steps:,} steps, lr={LR}')
+    os.makedirs(os.path.dirname(save_path), exist_ok=True)
+    env = exit_connect(current_id, track_id, track_name)
+    model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+    model.learn(total_timesteps=steps, callback=ProgressCB(steps), reset_num_timesteps=True)
+    model.save(save_path); log(f'  Saved: {save_path}.zip')
+    env.close(); time.sleep(3)
+    return track_id
+
+def train_two_tracks(current_id, steps, switch, save_path):
+    """Round-robin training: generated_track + mountain_track."""
+    from multitrack_runner import close_and_switch
+    log(f'\nTRAINING generated_track+mountain_track — {steps:,} steps, switch={switch}, lr={LR}')
+    os.makedirs(os.path.dirname(save_path), exist_ok=True)
+    TRACKS = [('generated_track','donkey-generated-track-v0'),
+              ('mountain_track', 'donkey-mountain-track-v0')]
+    env = exit_connect(current_id, TRACKS[0][1], TRACKS[0][0])
+    model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+    steps_done, idx = 0, 0
+    while steps_done < steps:
+        seg = min(switch, steps - steps_done)
+        log(f'  Segment: {TRACKS[idx][0]} | {steps_done:,}/{steps:,}')
+        model.learn(total_timesteps=seg, reset_num_timesteps=False)
+        steps_done += seg
+        try: model.save(save_path)  # checkpoint
+        except: pass
+        if steps_done < steps:
+            nxt = (idx+1) % 2
+            env = close_and_switch(env, TRACKS[nxt][1])
+            model.set_env(env)
+            idx = nxt
+    model.save(save_path); log(f'  Saved: {save_path}.zip')
+    env.close(); time.sleep(3)
+    return TRACKS[idx][1]
+
+def eval_all(current_id, model_path, label):
+    log(f'\n{"="*60}')
+    log(f'EVAL: {label}')
+    log(f'{"="*60}')
+    tests = [
+        ('generated_track','donkey-generated-track-v0'),
+        ('mini_monaco',    'donkey-minimonaco-track-v0'),
+        ('generated_road', 'donkey-generated-roads-v0'),
+    ]
+    cur = current_id
+    for tname, tid in tests:
+        ev = exit_connect(cur, tid, tname)
+        m  = PPO.load(model_path, env=ev, device='cpu')
+        log(f'  --- {tname} (3 episodes) ---')
+        for ep in range(1,4):
+            obs = ev.reset(); total,steps,done = 0.0,0,False
+            while not done and steps < 2000:
+                action,_ = m.predict(obs, deterministic=True)
+                result = ev.step(action)
+                if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+                else: obs,r,d,info=result; done=bool(d[0])
+                total+=float(r[0]); steps+=1
+            status='✅ FULL 2000' if steps>=2000 else f'❌ crash@{steps}'
+            log(f'    ep{ep}: {total:.0f} reward/{steps} steps — {status}')
+            time.sleep(1)
+        ev.close(); time.sleep(3)
+        cur = tid
+    return cur
+
+# ── START ── sim is on mini_monaco
+current = 'donkey-minimonaco-track-v0'
+
+log('\n'+'#'*60)
+log('EXPERIMENT 1: mountain_track ONLY, 90k steps')
+log('#'*60)
+SAVE1 = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp1-mountain-only/model'
+current = train(current, 'donkey-mountain-track-v0', 'mountain_track', 90000, SAVE1)
+current = eval_all(current, SAVE1, 'Exp 1: mountain_track only model')
+
+log('\n'+'#'*60)
+log('EXPERIMENT 2: Trial 9 REPEAT — generated_track+mountain_track, 90k, switch=6851')
+log('#'*60)
+SAVE2 = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/exp2-trial9-repeat/model'
+current = train_two_tracks(current, steps=90000, switch=6851, save_path=SAVE2)
+current = eval_all(current, SAVE2, 'Exp 2: Trial 9 repeat model')
+
+log('\n'+'='*60)
+log('ALL OVERNIGHT EXPERIMENTS COMPLETE')
+log('='*60)
--- a/agent/experiments/wave5_train.py
+++ b/agent/experiments/wave5_train.py
@ -0,0 +1,74 @@
+import sys, os, time
+sys.path.insert(0, '/home/paulh/projects/donkeycar-rl-autoresearch/agent')
+from multitrack_runner import wrap_env, log, _send_exit_scene
+from stable_baselines3 import PPO
+from stable_baselines3.common.vec_env import DummyVecEnv, VecTransposeImage
+from stable_baselines3.common.callbacks import BaseCallback
+import gymnasium as gym
+
+TRAIN_TRACK  = 'donkey-generated-track-v0'
+LR           = 0.000725
+TOTAL_STEPS  = 90000
+SAVE_PATH    = '/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/wave5-gentrack-only/model'
+os.makedirs(os.path.dirname(SAVE_PATH), exist_ok=True)
+
+def exit_and_connect(current_track_id, next_track_id, next_name):
+    """Exit current scene cleanly then connect to next track."""
+    log(f'Exiting current scene, connecting to {next_name}...')
+    tmp = gym.make(current_track_id)
+    time.sleep(2)
+    _send_exit_scene(tmp, verbose=False)
+    tmp.close()
+    time.sleep(5)
+    raw = gym.make(next_track_id)
+    env = VecTransposeImage(DummyVecEnv([lambda e=raw: wrap_env(e)]))
+    log(f'Connected to {next_name}')
+    return env
+
+log('='*60)
+log('Wave 5: generated_track ONLY, from scratch, lr=0.000725')
+log('='*60)
+
+# The sim is currently on generated_road — exit and switch to generated_track
+env = exit_and_connect('donkey-generated-roads-v0', TRAIN_TRACK, 'generated_track')
+
+model = PPO('CnnPolicy', env, learning_rate=LR, verbose=1, device='cpu')
+log(f'Training from scratch on generated_track, {TOTAL_STEPS:,} steps...')
+
+class ProgressCB(BaseCallback):
+    def __init__(self): super().__init__(verbose=0); self._last=0
+    def _on_step(self):
+        if self.num_timesteps - self._last >= 10000:
+            log(f'  step {self.num_timesteps:,}/{TOTAL_STEPS:,}')
+            self._last = self.num_timesteps
+        return True
+
+model.learn(total_timesteps=TOTAL_STEPS, callback=ProgressCB(), reset_num_timesteps=True)
+model.save(SAVE_PATH)
+log(f'Model saved.')
+env.close()
+time.sleep(3)
+
+def eval_track(current_id, eval_id, track_name, n_eps=3):
+    log(f'\n--- EVAL: {track_name} (zero-shot) ---')
+    ev = exit_and_connect(current_id, eval_id, track_name)
+    m = PPO.load(SAVE_PATH, env=ev, device='cpu')
+    for ep in range(1, n_eps+1):
+        obs = ev.reset()
+        total, steps, done = 0.0, 0, False
+        while not done and steps < 2000:
+            action, _ = m.predict(obs, deterministic=True)
+            result = ev.step(action)
+            if len(result)==5: obs,r,t,tr,info=result; done=bool(t[0] or tr[0])
+            else: obs,r,d,info=result; done=bool(d[0])
+            total+=float(r[0]); steps+=1
+        status='✅ FULL' if steps>=2000 else f'❌ crash@{steps}'
+        log(f'  ep{ep}: {total:.0f} reward / {steps} steps — {status}')
+    ev.close()
+    time.sleep(3)
+    return eval_id
+
+current = eval_track(TRAIN_TRACK,        'donkey-minimonaco-track-v0',  'mini_monaco')
+current = eval_track(current,            'donkey-generated-roads-v0',   'generated_road')
+
+log('\n=== Wave 5 COMPLETE ===')