diff --git a/agent/outerloop-results/autoresearch_phase1_log.txt b/agent/outerloop-results/autoresearch_phase1_log.txt
new file mode 100644
index 0000000..c1bb6f9
--- /dev/null
+++ b/agent/outerloop-results/autoresearch_phase1_log.txt
@@ -0,0 +1,193 @@
+[2026-04-13 13:36:24] ============================================================
+[2026-04-13 13:36:24] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
+[2026-04-13 13:36:24] [AutoResearch] Max trials: 50 | kappa: 2.0 | push every: 10
+[2026-04-13 13:36:24] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase1.jsonl
+[2026-04-13 13:36:24] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
+[2026-04-13 13:36:24] ============================================================
+[2026-04-13 13:36:24] [AutoResearch] Loaded 0 existing Phase 1 results.
+[2026-04-13 13:36:24] [AutoResearch] Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:36:24] 
+[AutoResearch] ========== Trial 1/50 ==========
+[2026-04-13 13:36:24] [AutoResearch] Only 0 results — using random proposal.
+[2026-04-13 13:36:24] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:36:26] [AutoResearch] Launching trial 1: {'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:41:13] [AutoResearch] Trial 1 finished in 286.6s, returncode=0
+[2026-04-13 13:41:13] [AutoResearch] Trial 1: mean_reward=14.3331 std_reward=0.7924
+[2026-04-13 13:41:13] [AutoResearch] === Trial 1 Summary ===
+[2026-04-13 13:41:13]   Total Phase 1 runs: 1
+[2026-04-13 13:41:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:41:13]   Top 5:
+[2026-04-13 13:41:13]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:41:15] 
+[AutoResearch] ========== Trial 2/50 ==========
+[2026-04-13 13:41:15] [AutoResearch] Only 1 results — using random proposal.
+[2026-04-13 13:41:15] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:41:17] [AutoResearch] Launching trial 2: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:44:39] [AutoResearch] Trial 2 finished in 201.7s, returncode=0
+[2026-04-13 13:44:39] [AutoResearch] Trial 2: mean_reward=14.6781 std_reward=0.0047
+[2026-04-13 13:44:39] [AutoResearch] === Trial 2 Summary ===
+[2026-04-13 13:44:39]   Total Phase 1 runs: 2
+[2026-04-13 13:44:39]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:44:39]   Top 5:
+[2026-04-13 13:44:39]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:44:39]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:44:41] 
+[AutoResearch] ========== Trial 3/50 ==========
+[2026-04-13 13:44:41] [AutoResearch] Only 2 results — using random proposal.
+[2026-04-13 13:44:41] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:44:43] [AutoResearch] Launching trial 3: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:22] [AutoResearch] Trial 3 finished in 99.2s, returncode=0
+[2026-04-13 13:46:22] [AutoResearch] Trial 3: mean_reward=15.0946 std_reward=0.0381
+[2026-04-13 13:46:22] [AutoResearch] === Trial 3 Summary ===
+[2026-04-13 13:46:22]   Total Phase 1 runs: 3
+[2026-04-13 13:46:22]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:22]   Top 5:
+[2026-04-13 13:46:22]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:22]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:22]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:24] 
+[AutoResearch] ========== Trial 4/50 ==========
+[2026-04-13 13:46:24] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 13:46:24]   UCB=2.3657 mu=0.6683 sigma=0.8487 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497}
+[2026-04-13 13:46:24]   UCB=2.3642 mu=0.6129 sigma=0.8757 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003872092322417417, 'timesteps': 1454}
+[2026-04-13 13:46:24]   UCB=2.3627 mu=0.6363 sigma=0.8632 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002284233345527573, 'timesteps': 2792}
+[2026-04-13 13:46:24]   UCB=2.3611 mu=0.6142 sigma=0.8735 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0024387325888159195, 'timesteps': 1898}
+[2026-04-13 13:46:24]   UCB=2.3610 mu=0.6522 sigma=0.8544 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0007105241846548975, 'timesteps': 1492}
+[2026-04-13 13:46:24] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:46:26] [AutoResearch] Launching trial 4: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:00] [AutoResearch] Trial 4 finished in 273.6s, returncode=0
+[2026-04-13 13:51:00] [AutoResearch] Trial 4: mean_reward=14.6036 std_reward=0.0414
+[2026-04-13 13:51:00] [AutoResearch] === Trial 4 Summary ===
+[2026-04-13 13:51:00]   Total Phase 1 runs: 4
+[2026-04-13 13:51:00]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:00]   Top 5:
+[2026-04-13 13:51:00]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:00]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:00]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:00]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:02] 
+[AutoResearch] ========== Trial 5/50 ==========
+[2026-04-13 13:51:02] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 13:51:02]   UCB=2.6511 mu=1.1122 sigma=0.7695 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691}
+[2026-04-13 13:51:02]   UCB=2.6390 mu=1.1590 sigma=0.7400 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0023718639468651766, 'timesteps': 1039}
+[2026-04-13 13:51:02]   UCB=2.6371 mu=0.9686 sigma=0.8342 params={'n_steer': 9, 'n_throttle': 5, 'learning_rate': 0.0024714959214247904, 'timesteps': 1444}
+[2026-04-13 13:51:02]   UCB=2.6303 mu=1.0400 sigma=0.7951 params={'n_steer': 9, 'n_throttle': 5, 'learning_rate': 0.0028500094580389797, 'timesteps': 1932}
+[2026-04-13 13:51:02]   UCB=2.6281 mu=0.9823 sigma=0.8229 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0018569421425612218, 'timesteps': 1300}
+[2026-04-13 13:51:02] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:51:04] [AutoResearch] Launching trial 5: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58] [AutoResearch] Trial 5 finished in 114.3s, returncode=0
+[2026-04-13 13:52:58] [AutoResearch] Trial 5: mean_reward=92.4248 std_reward=0.2184
+[2026-04-13 13:52:58] [AutoResearch] === Trial 5 Summary ===
+[2026-04-13 13:52:58]   Total Phase 1 runs: 5
+[2026-04-13 13:52:58]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58]   Top 5:
+[2026-04-13 13:52:58]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:52:58]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:53:00] 
+[AutoResearch] ========== Trial 6/50 ==========
+[2026-04-13 13:53:00] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 13:53:00]   UCB=2.7680 mu=1.8581 sigma=0.4549 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150}
+[2026-04-13 13:53:00]   UCB=2.7571 mu=1.3859 sigma=0.6856 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0005903908533825176, 'timesteps': 2343}
+[2026-04-13 13:53:00]   UCB=2.6722 mu=1.7592 sigma=0.4565 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0007155529793779908, 'timesteps': 1801}
+[2026-04-13 13:53:00]   UCB=2.6514 mu=0.8841 sigma=0.8837 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00022184611967850532, 'timesteps': 1388}
+[2026-04-13 13:53:00]   UCB=2.6250 mu=1.2493 sigma=0.6879 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0007146109608951488, 'timesteps': 1192}
+[2026-04-13 13:53:00] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:53:02] [AutoResearch] Launching trial 6: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52] [AutoResearch] Trial 6 finished in 109.6s, returncode=0
+[2026-04-13 13:54:52] [AutoResearch] Trial 6: mean_reward=74.2498 std_reward=0.327
+[2026-04-13 13:54:52] [AutoResearch] === Trial 6 Summary ===
+[2026-04-13 13:54:52]   Total Phase 1 runs: 6
+[2026-04-13 13:54:52]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52]   Top 5:
+[2026-04-13 13:54:52]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:52]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:54] 
+[AutoResearch] ========== Trial 7/50 ==========
+[2026-04-13 13:54:54] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 13:54:54]   UCB=2.5933 mu=0.8355 sigma=0.8789 params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081}
+[2026-04-13 13:54:54]   UCB=2.5505 mu=0.7947 sigma=0.8779 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.00014230944957386966, 'timesteps': 2582}
+[2026-04-13 13:54:54]   UCB=2.5503 mu=0.8231 sigma=0.8636 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.00023514026888676683, 'timesteps': 3062}
+[2026-04-13 13:54:54]   UCB=2.5217 mu=1.2654 sigma=0.6281 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0006389418712953596, 'timesteps': 1932}
+[2026-04-13 13:54:54]   UCB=2.3784 mu=0.6315 sigma=0.8734 params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.00034403242394723434, 'timesteps': 2732}
+[2026-04-13 13:54:54] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:54:56] [AutoResearch] Launching trial 7: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28] [AutoResearch] Trial 7 finished in 212.1s, returncode=0
+[2026-04-13 13:58:28] [AutoResearch] Trial 7: mean_reward=326.6374 std_reward=2.3715
+[2026-04-13 13:58:28] [AutoResearch] === Trial 7 Summary ===
+[2026-04-13 13:58:28]   Total Phase 1 runs: 7
+[2026-04-13 13:58:28]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28]   Top 5:
+[2026-04-13 13:58:28]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:28]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:30] 
+[AutoResearch] ========== Trial 8/50 ==========
+[2026-04-13 13:58:30] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 13:58:30]   UCB=3.0530 mu=1.8512 sigma=0.6009 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293}
+[2026-04-13 13:58:30]   UCB=2.9620 mu=1.3333 sigma=0.8144 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0002690144955499583, 'timesteps': 2184}
+[2026-04-13 13:58:30]   UCB=2.9307 mu=1.5416 sigma=0.6945 params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0007634930463964747, 'timesteps': 2464}
+[2026-04-13 13:58:30]   UCB=2.8609 mu=1.2576 sigma=0.8017 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00030073926504989247, 'timesteps': 2405}
+[2026-04-13 13:58:30]   UCB=2.8085 mu=1.2678 sigma=0.7704 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0002460273175097693, 'timesteps': 2273}
+[2026-04-13 13:58:30] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 13:58:32] [AutoResearch] Launching trial 8: {'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13] [AutoResearch] Trial 8 finished in 221.7s, returncode=0
+[2026-04-13 14:02:13] [AutoResearch] Trial 8: mean_reward=492.1545 std_reward=20.4057
+[2026-04-13 14:02:13] [AutoResearch] === Trial 8 Summary ===
+[2026-04-13 14:02:13]   Total Phase 1 runs: 8
+[2026-04-13 14:02:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13]   Top 5:
+[2026-04-13 14:02:13]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:13]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:15] 
+[AutoResearch] ========== Trial 9/50 ==========
+[2026-04-13 14:02:15] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:02:15]   UCB=2.8782 mu=1.2806 sigma=0.7988 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405}
+[2026-04-13 14:02:15]   UCB=2.8699 mu=1.2136 sigma=0.8282 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0008951125166902782, 'timesteps': 1867}
+[2026-04-13 14:02:15]   UCB=2.7808 mu=1.0494 sigma=0.8657 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0007281373711988931, 'timesteps': 1628}
+[2026-04-13 14:02:15]   UCB=2.7699 mu=1.4417 sigma=0.6641 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0012071606973414922, 'timesteps': 1881}
+[2026-04-13 14:02:15]   UCB=2.7343 mu=1.6068 sigma=0.5638 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0008505460420664955, 'timesteps': 2487}
+[2026-04-13 14:02:15] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:02:17] [AutoResearch] Launching trial 9: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07] [AutoResearch] Trial 9 finished in 109.5s, returncode=0
+[2026-04-13 14:04:07] [AutoResearch] Trial 9: mean_reward=47.3482 std_reward=0.07
+[2026-04-13 14:04:07] [AutoResearch] === Trial 9 Summary ===
+[2026-04-13 14:04:07]   Total Phase 1 runs: 9
+[2026-04-13 14:04:07]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07]   Top 5:
+[2026-04-13 14:04:07]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:07]     mean_reward=47.3482  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:09] 
+[AutoResearch] ========== Trial 10/50 ==========
+[2026-04-13 14:04:09] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:04:09]   UCB=3.0861 mu=1.7282 sigma=0.6790 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717}
+[2026-04-13 14:04:09]   UCB=3.0467 mu=2.0076 sigma=0.5196 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00021279372557134375, 'timesteps': 2438}
+[2026-04-13 14:04:09]   UCB=3.0434 mu=2.2259 sigma=0.4088 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.00041913098323291125, 'timesteps': 2524}
+[2026-04-13 14:04:09]   UCB=2.9788 mu=1.7738 sigma=0.6025 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00031041165555133226, 'timesteps': 3122}
+[2026-04-13 14:04:09]   UCB=2.9735 mu=1.5955 sigma=0.6890 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0005830228901312196, 'timesteps': 2255}
+[2026-04-13 14:04:09] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:04:11] [AutoResearch] Launching trial 10: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58] [AutoResearch] Trial 10 finished in 226.7s, returncode=0
+[2026-04-13 14:07:58] [AutoResearch] Trial 10: mean_reward=1157.047 std_reward=0.7533
+[2026-04-13 14:07:58] [AutoResearch] === Trial 10 Summary ===
+[2026-04-13 14:07:58]   Total Phase 1 runs: 10
+[2026-04-13 14:07:58]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58]   Top 5:
+[2026-04-13 14:07:58]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:07:58]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
diff --git a/agent/outerloop-results/autoresearch_results_phase1.jsonl b/agent/outerloop-results/autoresearch_results_phase1.jsonl
new file mode 100644
index 0000000..17651ff
--- /dev/null
+++ b/agent/outerloop-results/autoresearch_results_phase1.jsonl
@@ -0,0 +1,10 @@
+{"trial": 1, "timestamp": "2026-04-13T13:41:13.596676", "params": {"n_steer": 5, "n_throttle": 5, "learning_rate": 0.0006023644308821473, "timesteps": 4723, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 14.3331, "std_reward": 0.7924, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0001/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 286.59828543663025, "reward_hacking_suspected": false}
+{"trial": 2, "timestamp": "2026-04-13T13:44:39.302407", "params": {"n_steer": 6, "n_throttle": 5, "learning_rate": 0.0026097080330405096, "timesteps": 3663, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 14.6781, "std_reward": 0.0047, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0002/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 201.69259881973267, "reward_hacking_suspected": false}
+{"trial": 3, "timestamp": "2026-04-13T13:46:22.496578", "params": {"n_steer": 8, "n_throttle": 4, "learning_rate": 0.0022425720960039287, "timesteps": 1878, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 15.0946, "std_reward": 0.0381, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0003/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 99.1833143234253, "reward_hacking_suspected": false}
+{"trial": 4, "timestamp": "2026-04-13T13:51:00.127471", "params": {"n_steer": 8, "n_throttle": 3, "learning_rate": 0.0030375027886947775, "timesteps": 2497, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 14.6036, "std_reward": 0.0414, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0004/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 273.6144378185272, "reward_hacking_suspected": false}
+{"trial": 5, "timestamp": "2026-04-13T13:52:58.464409", "params": {"n_steer": 8, "n_throttle": 5, "learning_rate": 0.0011131823295383878, "timesteps": 1691, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 92.4248, "std_reward": 0.2184, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0005/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 114.32034134864807, "reward_hacking_suspected": false}
+{"trial": 6, "timestamp": "2026-04-13T13:54:52.063747", "params": {"n_steer": 8, "n_throttle": 5, "learning_rate": 0.0010109905842864714, "timesteps": 1150, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 74.2498, "std_reward": 0.327, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0006/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 109.58684134483337, "reward_hacking_suspected": false}
+{"trial": 7, "timestamp": "2026-04-13T13:58:28.227359", "params": {"n_steer": 6, "n_throttle": 5, "learning_rate": 0.0001799978550884136, "timesteps": 2081, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 326.6374, "std_reward": 2.3715, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0007/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 212.14871382713318, "reward_hacking_suspected": false}
+{"trial": 8, "timestamp": "2026-04-13T14:02:13.939963", "params": {"n_steer": 5, "n_throttle": 4, "learning_rate": 0.0003046182905194233, "timesteps": 2293, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 492.1545, "std_reward": 20.4057, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0008/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 221.69839644432068, "reward_hacking_suspected": false}
+{"trial": 9, "timestamp": "2026-04-13T14:04:07.465136", "params": {"n_steer": 4, "n_throttle": 4, "learning_rate": 0.0010269810535699494, "timesteps": 1405, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 47.3482, "std_reward": 0.07, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0009/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 109.50906157493591, "reward_hacking_suspected": false}
+{"trial": 10, "timestamp": "2026-04-13T14:07:58.201720", "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.00037737321665256695, "timesteps": 2717, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 1157.047, "std_reward": 0.7533, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0010/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 226.72052145004272, "reward_hacking_suspected": false}