From 860e3d6610b57e8abbb831bf6f7a6c6da0113a95 Mon Sep 17 00:00:00 2001
From: Paul Huliganga <paje0101@gmail.com>
Date: Tue, 14 Apr 2026 22:44:22 -0400
Subject: [PATCH] =?UTF-8?q?fix:=20fresh=20PPO=20verbose=3D0=20suppressed?=
 =?UTF-8?q?=20all=20training=20output=20=E2=80=94=20set=20verbose=3D1?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Without this, Wave 4 scratch-trained models produce no rollout stats in
the log, making it impossible to monitor training progress or spot
degenerate policies early.

Warm-start models in Wave 3 showed stats because verbose=1 was baked
into the Phase-2 saved model state; fresh models default to verbose=0.

Agent: pi
Tests: 96 passed
Tests-Added: 0
TypeScript: N/A
---
 agent/multitrack_runner.py                     |  2 +-
 .../autoresearch_phase2_log.txt                | 13 +++++++++++++
 .../autoresearch_phase3_log.txt                |  5 +++++
 .../autoresearch_phase4_log.txt                | 18 ++++++++++++++++++
 4 files changed, 37 insertions(+), 1 deletion(-)
 create mode 100644 agent/outerloop-results/autoresearch_phase4_log.txt

diff --git a/agent/multitrack_runner.py b/agent/multitrack_runner.py
index d99fda9..748f493 100644
--- a/agent/multitrack_runner.py
+++ b/agent/multitrack_runner.py
@@ -230,7 +230,7 @@ def create_or_load_model(env, learning_rate, warm_start_path=None, seed=None):
         'CnnPolicy',
         env,
         learning_rate=learning_rate,
-        verbose=0,
+        verbose=1,  # show rollout stats so training progress is visible in log
         seed=seed,
     )
     return model
diff --git a/agent/outerloop-results/autoresearch_phase2_log.txt b/agent/outerloop-results/autoresearch_phase2_log.txt
index 0a1895c..27a0d59 100644
--- a/agent/outerloop-results/autoresearch_phase2_log.txt
+++ b/agent/outerloop-results/autoresearch_phase2_log.txt
@@ -593,3 +593,16 @@
 [2026-04-14 22:40:11] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
 [2026-04-14 22:40:11] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
 [2026-04-14 22:40:11] [AutoResearch] Only 1 results — using random proposal.
+[2026-04-14 22:43:59] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 22:43:59]   UCB=2.3107 mu=0.3981 sigma=0.9563 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.001405531880392808, 'timesteps': 26173}
+[2026-04-14 22:43:59]   UCB=2.3049 mu=0.8602 sigma=0.7224 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.001793493447174312, 'timesteps': 19198}
+[2026-04-14 22:43:59]   UCB=2.2813 mu=0.4904 sigma=0.8954 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011616192816742616, 'timesteps': 13887}
+[2026-04-14 22:43:59]   UCB=2.2767 mu=0.5194 sigma=0.8787 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011646447444663046, 'timesteps': 21199}
+[2026-04-14 22:43:59]   UCB=2.2525 mu=0.6254 sigma=0.8136 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0010196345864901517, 'timesteps': 22035}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
+[2026-04-14 22:43:59] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
+[2026-04-14 22:43:59] [AutoResearch] Only 1 results — using random proposal.
diff --git a/agent/outerloop-results/autoresearch_phase3_log.txt b/agent/outerloop-results/autoresearch_phase3_log.txt
index 41ccf64..27e4eb1 100644
--- a/agent/outerloop-results/autoresearch_phase3_log.txt
+++ b/agent/outerloop-results/autoresearch_phase3_log.txt
@@ -340,3 +340,8 @@
 [2026-04-14 22:40:23] [Wave3] Only 0 results — using random proposal.
 [2026-04-14 22:40:23] [Champion] 🏆 NEW BEST! Trial 3: score=1500.00 (mini_monaco=1500.0) params={'learning_rate': 0.0002, 'steps_per_switch': 8000, 'total_timesteps': 150000}
 [2026-04-14 22:40:23] [Champion] 🏆 NEW BEST! Trial 1: score=2000.00 (mini_monaco=2000.0) params={}
+[2026-04-14 22:44:13] [Wave3] Seed trial 1/2: using hardcoded params.
+[2026-04-14 22:44:13] [Wave3] Seed trial 2/2: using hardcoded params.
+[2026-04-14 22:44:13] [Wave3] Only 0 results — using random proposal.
+[2026-04-14 22:44:13] [Champion] 🏆 NEW BEST! Trial 3: score=1500.00 (mini_monaco=1500.0) params={'learning_rate': 0.0002, 'steps_per_switch': 8000, 'total_timesteps': 150000}
+[2026-04-14 22:44:13] [Champion] 🏆 NEW BEST! Trial 1: score=2000.00 (mini_monaco=2000.0) params={}
diff --git a/agent/outerloop-results/autoresearch_phase4_log.txt b/agent/outerloop-results/autoresearch_phase4_log.txt
new file mode 100644
index 0000000..ab4a670
--- /dev/null
+++ b/agent/outerloop-results/autoresearch_phase4_log.txt
@@ -0,0 +1,18 @@
+[2026-04-14 22:40:44] =================================================================
+[2026-04-14 22:40:44] [Wave4] Multi-Track Autoresearch — GP+UCB Generalization Search
+[2026-04-14 22:40:44] [Wave4] Training tracks : generated_track, mountain_track  (no generated_road, no warm-start)
+[2026-04-14 22:40:44] [Wave4] Test tracks     : mini_monaco only (zero-shot; warren removed — broken done condition)
+[2026-04-14 22:40:44] [Wave4] Max trials      : 25 | kappa=2.0 | push every 5
+[2026-04-14 22:40:44] [Wave4] Results file    : /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase4.jsonl
+[2026-04-14 22:40:44] [Wave4] Champion dir    : /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/wave4-champion
+[2026-04-14 22:40:44] [Wave4] Warm start      : NONE (training from scratch each trial)
+[2026-04-14 22:40:44] =================================================================
+[2026-04-14 22:40:44] [Wave4] Loaded 0 existing Phase 3 results.
+[2026-04-14 22:40:44] [Wave4] No Wave 3 champion yet.
+[2026-04-14 22:40:44] [Wave4] Starting from trial 1.
+[2026-04-14 22:40:44] 
+[Wave4] ========== Trial 1/25 ==========
+[2026-04-14 22:40:44] [Wave4] Seed trial 1/2: using hardcoded params.
+[2026-04-14 22:40:44] [Wave4] Proposed params: {'learning_rate': 0.0003, 'steps_per_switch': 6000, 'total_timesteps': 80000}
+[2026-04-14 22:40:46] [Wave4] Launching trial 1: {'learning_rate': 0.0003, 'steps_per_switch': 6000, 'total_timesteps': 80000}
+[2026-04-14 22:40:46] [Wave4] Command: python3 /home/paulh/projects/donkeycar-rl-autoresearch/agent/multitrack_runner.py --total-timesteps 80000 --steps-per-switch 6000 --learning-rate 0.0003 --eval-episodes 3 --save-dir /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/wave4-trial-0001