autoresearch: phase1 trial 30 results

Agent: pi Tests: N/A Tests-Added: 0 TypeScript: N/A
2026-04-13 15:13:21 -04:00 · 2026-04-13 15:13:21 -04:00 · 1734e1359e
parent 362c616457
commit 1734e1359e
2 changed files with 221 additions and 0 deletions
--- a/agent/outerloop-results/autoresearch_phase1_log.txt
+++ b/agent/outerloop-results/autoresearch_phase1_log.txt
@ -402,3 +402,214 @@
 [2026-04-13 14:41:55]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-13 14:41:55]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-13 14:41:55]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:41:56] [AutoResearch] Git push complete after trial 20
+[2026-04-13 14:41:58] 
+[AutoResearch] ========== Trial 21/50 ==========
+[2026-04-13 14:41:58] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:41:58]   UCB=3.8136 mu=2.8224 sigma=0.4956 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991}
+[2026-04-13 14:41:58]   UCB=3.5260 mu=1.8738 sigma=0.8261 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.00014906253326062445, 'timesteps': 1656}
+[2026-04-13 14:41:58]   UCB=3.3444 mu=1.6081 sigma=0.8681 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.0007228760687423513, 'timesteps': 2342}
+[2026-04-13 14:41:58]   UCB=3.2706 mu=1.4597 sigma=0.9054 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.00011495962027542093, 'timesteps': 1045}
+[2026-04-13 14:41:58]   UCB=2.9919 mu=1.9088 sigma=0.5415 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.00016186063350120652, 'timesteps': 2028}
+[2026-04-13 14:41:58] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:42:00] [AutoResearch] Launching trial 21: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56] [AutoResearch] Trial 21 finished in 115.4s, returncode=0
+[2026-04-13 14:43:56] [AutoResearch] Trial 21: mean_reward=23.9294 std_reward=0.0242
+[2026-04-13 14:43:56] [AutoResearch] === Trial 21 Summary ===
+[2026-04-13 14:43:56]   Total Phase 1 runs: 21
+[2026-04-13 14:43:56]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56]   Top 5:
+[2026-04-13 14:43:56]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:56]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:43:58] 
+[AutoResearch] ========== Trial 22/50 ==========
+[2026-04-13 14:43:58] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:43:58]   UCB=3.2203 mu=2.5187 sigma=0.3508 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156}
+[2026-04-13 14:43:58]   UCB=2.7442 mu=1.8625 sigma=0.4409 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0010289690181806371, 'timesteps': 1685}
+[2026-04-13 14:43:58]   UCB=2.6790 mu=1.0884 sigma=0.7953 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00025603119181826265, 'timesteps': 1153}
+[2026-04-13 14:43:58]   UCB=2.6591 mu=1.6599 sigma=0.4996 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0005948263081101674, 'timesteps': 2945}
+[2026-04-13 14:43:58]   UCB=2.6466 mu=1.0963 sigma=0.7752 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0014869800982187835, 'timesteps': 1534}
+[2026-04-13 14:43:58] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:44:00] [AutoResearch] Launching trial 22: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13] [AutoResearch] Trial 22 finished in 252.9s, returncode=0
+[2026-04-13 14:48:13] [AutoResearch] Trial 22: mean_reward=1859.847 std_reward=4.6351
+[2026-04-13 14:48:13] [AutoResearch] === Trial 22 Summary ===
+[2026-04-13 14:48:13]   Total Phase 1 runs: 22
+[2026-04-13 14:48:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13]   Top 5:
+[2026-04-13 14:48:13]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:13]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:15] 
+[AutoResearch] ========== Trial 23/50 ==========
+[2026-04-13 14:48:15] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:48:15]   UCB=3.4508 mu=2.2736 sigma=0.5886 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972}
+[2026-04-13 14:48:15]   UCB=3.4191 mu=1.9865 sigma=0.7163 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0006782346336585454, 'timesteps': 2316}
+[2026-04-13 14:48:15]   UCB=3.0160 mu=1.3590 sigma=0.8285 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.00015648799569206457, 'timesteps': 3627}
+[2026-04-13 14:48:15]   UCB=2.9983 mu=1.3451 sigma=0.8266 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006745921677002186, 'timesteps': 2926}
+[2026-04-13 14:48:15]   UCB=2.9502 mu=1.4387 sigma=0.7557 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.00046495943726949734, 'timesteps': 2735}
+[2026-04-13 14:48:15] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:48:17] [AutoResearch] Launching trial 23: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23] [AutoResearch] Trial 23 finished in 126.5s, returncode=0
+[2026-04-13 14:50:23] [AutoResearch] Trial 23: mean_reward=211.9381 std_reward=0.5943
+[2026-04-13 14:50:23] [AutoResearch] === Trial 23 Summary ===
+[2026-04-13 14:50:23]   Total Phase 1 runs: 23
+[2026-04-13 14:50:23]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23]   Top 5:
+[2026-04-13 14:50:23]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:23]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:25] 
+[AutoResearch] ========== Trial 24/50 ==========
+[2026-04-13 14:50:25] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:50:25]   UCB=2.9789 mu=1.2777 sigma=0.8506 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605}
+[2026-04-13 14:50:25]   UCB=2.9480 mu=2.4478 sigma=0.2501 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0008293839244973556, 'timesteps': 1800}
+[2026-04-13 14:50:25]   UCB=2.4588 mu=1.2989 sigma=0.5799 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0003778611590363342, 'timesteps': 2517}
+[2026-04-13 14:50:25]   UCB=2.4403 mu=1.0025 sigma=0.7189 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0019303183103883325, 'timesteps': 1569}
+[2026-04-13 14:50:25]   UCB=2.4358 mu=0.6432 sigma=0.8963 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0027965188439229814, 'timesteps': 1004}
+[2026-04-13 14:50:25] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:50:27] [AutoResearch] Launching trial 24: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21] [AutoResearch] Trial 24 finished in 233.3s, returncode=0
+[2026-04-13 14:54:21] [AutoResearch] Trial 24: mean_reward=22.2095 std_reward=0.0496
+[2026-04-13 14:54:21] [AutoResearch] === Trial 24 Summary ===
+[2026-04-13 14:54:21]   Total Phase 1 runs: 24
+[2026-04-13 14:54:21]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21]   Top 5:
+[2026-04-13 14:54:21]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:21]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:23] 
+[AutoResearch] ========== Trial 25/50 ==========
+[2026-04-13 14:54:23] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:54:23]   UCB=3.1390 mu=2.4425 sigma=0.3483 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313}
+[2026-04-13 14:54:23]   UCB=2.6722 mu=2.0120 sigma=0.3301 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0001025090708476032, 'timesteps': 3502}
+[2026-04-13 14:54:23]   UCB=2.4749 mu=1.8672 sigma=0.3039 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012006077737121994, 'timesteps': 2179}
+[2026-04-13 14:54:23]   UCB=2.4596 mu=0.6881 sigma=0.8858 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004688975887028294, 'timesteps': 2780}
+[2026-04-13 14:54:23]   UCB=2.4093 mu=0.6759 sigma=0.8667 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004722071725864288, 'timesteps': 2896}
+[2026-04-13 14:54:23] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:54:25] [AutoResearch] Launching trial 25: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54] [AutoResearch] Trial 25 finished in 209.9s, returncode=0
+[2026-04-13 14:57:54] [AutoResearch] Trial 25: mean_reward=237.8844 std_reward=0.2589
+[2026-04-13 14:57:54] [AutoResearch] === Trial 25 Summary ===
+[2026-04-13 14:57:54]   Total Phase 1 runs: 25
+[2026-04-13 14:57:54]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54]   Top 5:
+[2026-04-13 14:57:54]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:54]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:56] 
+[AutoResearch] ========== Trial 26/50 ==========
+[2026-04-13 14:57:56] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 14:57:56]   UCB=2.5652 mu=0.7504 sigma=0.9074 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543}
+[2026-04-13 14:57:56]   UCB=2.4423 mu=0.5942 sigma=0.9241 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.004973066114846697, 'timesteps': 2444}
+[2026-04-13 14:57:56]   UCB=2.4395 mu=0.7410 sigma=0.8492 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0045180303501340955, 'timesteps': 3047}
+[2026-04-13 14:57:56]   UCB=2.4381 mu=0.5876 sigma=0.9252 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004911706851291294, 'timesteps': 1756}
+[2026-04-13 14:57:56]   UCB=2.4131 mu=0.5551 sigma=0.9290 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.004522587810616554, 'timesteps': 1800}
+[2026-04-13 14:57:56] [AutoResearch] Proposed: {'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 14:57:59] [AutoResearch] Launching trial 26: {'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34] [AutoResearch] Trial 26 finished in 275.5s, returncode=0
+[2026-04-13 15:02:34] [AutoResearch] Trial 26: mean_reward=15.0771 std_reward=0.0213
+[2026-04-13 15:02:34] [AutoResearch] === Trial 26 Summary ===
+[2026-04-13 15:02:34]   Total Phase 1 runs: 26
+[2026-04-13 15:02:34]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34]   Top 5:
+[2026-04-13 15:02:34]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:34]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:36] 
+[AutoResearch] ========== Trial 27/50 ==========
+[2026-04-13 15:02:36] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 15:02:36]   UCB=3.0288 mu=2.4828 sigma=0.2730 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278}
+[2026-04-13 15:02:36]   UCB=2.9336 mu=2.1217 sigma=0.4059 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0003943076736423479, 'timesteps': 1928}
+[2026-04-13 15:02:36]   UCB=2.7988 mu=2.2863 sigma=0.2562 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0011223236314925372, 'timesteps': 1871}
+[2026-04-13 15:02:36]   UCB=2.3913 mu=1.5376 sigma=0.4269 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0005593634601157492, 'timesteps': 1747}
+[2026-04-13 15:02:36]   UCB=2.2062 mu=0.6541 sigma=0.7761 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 8.72586099538617e-05, 'timesteps': 1047}
+[2026-04-13 15:02:36] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:02:38] [AutoResearch] Launching trial 27: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12] [AutoResearch] Trial 27 finished in 214.4s, returncode=0
+[2026-04-13 15:06:12] [AutoResearch] Trial 27: mean_reward=435.0689 std_reward=72.8002
+[2026-04-13 15:06:12] [AutoResearch] === Trial 27 Summary ===
+[2026-04-13 15:06:12]   Total Phase 1 runs: 27
+[2026-04-13 15:06:12]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12]   Top 5:
+[2026-04-13 15:06:12]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:12]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:14] 
+[AutoResearch] ========== Trial 28/50 ==========
+[2026-04-13 15:06:14] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 15:06:14]   UCB=8.1497 mu=7.3892 sigma=0.3802 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795}
+[2026-04-13 15:06:14]   UCB=6.4243 mu=5.1219 sigma=0.6512 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.00027636763846234557, 'timesteps': 1049}
+[2026-04-13 15:06:14]   UCB=5.0712 mu=3.2994 sigma=0.8859 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.003481351347296331, 'timesteps': 1124}
+[2026-04-13 15:06:14]   UCB=4.9277 mu=3.5508 sigma=0.6884 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0028061703799304324, 'timesteps': 1078}
+[2026-04-13 15:06:14]   UCB=4.7717 mu=3.0410 sigma=0.8654 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0037370286662698512, 'timesteps': 1034}
+[2026-04-13 15:06:14] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:06:16] [AutoResearch] Launching trial 28: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07] [AutoResearch] Trial 28 finished in 110.7s, returncode=0
+[2026-04-13 15:08:07] [AutoResearch] Trial 28: mean_reward=82.7727 std_reward=0.8551
+[2026-04-13 15:08:07] [AutoResearch] === Trial 28 Summary ===
+[2026-04-13 15:08:07]   Total Phase 1 runs: 28
+[2026-04-13 15:08:07]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07]   Top 5:
+[2026-04-13 15:08:07]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:07]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:09] 
+[AutoResearch] ========== Trial 29/50 ==========
+[2026-04-13 15:08:09] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 15:08:09]   UCB=5.2779 mu=3.9398 sigma=0.6691 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630}
+[2026-04-13 15:08:09]   UCB=4.6112 mu=2.8243 sigma=0.8935 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0040377757528288795, 'timesteps': 1025}
+[2026-04-13 15:08:09]   UCB=4.5876 mu=3.6875 sigma=0.4500 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.003898240324417907, 'timesteps': 2181}
+[2026-04-13 15:08:09]   UCB=4.3613 mu=3.1401 sigma=0.6106 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.003711559821615946, 'timesteps': 1966}
+[2026-04-13 15:08:09]   UCB=4.2189 mu=2.7285 sigma=0.7452 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003452590260446862, 'timesteps': 1304}
+[2026-04-13 15:08:09] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:08:11] [AutoResearch] Launching trial 29: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54] [AutoResearch] Trial 29 finished in 102.6s, returncode=0
+[2026-04-13 15:09:54] [AutoResearch] Trial 29: mean_reward=15.5211 std_reward=0.0294
+[2026-04-13 15:09:54] [AutoResearch] === Trial 29 Summary ===
+[2026-04-13 15:09:54]   Total Phase 1 runs: 29
+[2026-04-13 15:09:54]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54]   Top 5:
+[2026-04-13 15:09:54]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:54]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:56] 
+[AutoResearch] ========== Trial 30/50 ==========
+[2026-04-13 15:09:56] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-13 15:09:56]   UCB=4.4896 mu=4.1988 sigma=0.1454 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708}
+[2026-04-13 15:09:56]   UCB=4.2126 mu=3.5464 sigma=0.3331 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001083987083551113, 'timesteps': 3033}
+[2026-04-13 15:09:56]   UCB=4.1748 mu=2.4436 sigma=0.8656 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004047059120159478, 'timesteps': 3889}
+[2026-04-13 15:09:56]   UCB=4.0196 mu=3.0474 sigma=0.4861 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.003963695470731348, 'timesteps': 2883}
+[2026-04-13 15:09:56]   UCB=3.9599 mu=2.3481 sigma=0.8059 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.004271745963239979, 'timesteps': 3390}
+[2026-04-13 15:09:56] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:09:58] [AutoResearch] Launching trial 30: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21] [AutoResearch] Trial 30 finished in 203.3s, returncode=0
+[2026-04-13 15:13:21] [AutoResearch] Trial 30: mean_reward=267.9527 std_reward=7.4167
+[2026-04-13 15:13:21] [AutoResearch] === Trial 30 Summary ===
+[2026-04-13 15:13:21]   Total Phase 1 runs: 30
+[2026-04-13 15:13:21]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21]   Top 5:
+[2026-04-13 15:13:21]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-13 15:13:21]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
--- a/agent/outerloop-results/autoresearch_results_phase1.jsonl
+++ b/agent/outerloop-results/autoresearch_results_phase1.jsonl
@ -18,3 +18,13 @@
 {"trial": 18, "timestamp": "2026-04-13T14:35:35.102980", "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005504110507719487, "timesteps": 2472, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 1389.3806, "std_reward": 4.4479, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0018/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 252.75571608543396, "reward_hacking_suspected": false}
 {"trial": 19, "timestamp": "2026-04-13T14:39:40.830648", "params": {"n_steer": 6, "n_throttle": 3, "learning_rate": 0.00038717401417690916, "timesteps": 2914, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 1072.7063, "std_reward": 4.9159, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0019/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 241.70746493339539, "reward_hacking_suspected": false}
 {"trial": 20, "timestamp": "2026-04-13T14:41:55.423640", "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0012685117683148405, "timesteps": 1382, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 821.1389, "std_reward": 234.0365, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0020/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 130.5800895690918, "reward_hacking_suspected": false}
+{"trial": 21, "timestamp": "2026-04-13T14:43:56.251844", "params": {"n_steer": 8, "n_throttle": 3, "learning_rate": 0.0007169004126896797, "timesteps": 1991, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 23.9294, "std_reward": 0.0242, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0021/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 115.37457752227783, "reward_hacking_suspected": false}
+{"trial": 22, "timestamp": "2026-04-13T14:48:13.193921", "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0005669006119489946, "timesteps": 2156, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 1859.847, "std_reward": 4.6351, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0022/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 252.9263985157013, "reward_hacking_suspected": false}
+{"trial": 23, "timestamp": "2026-04-13T14:50:23.750904", "params": {"n_steer": 7, "n_throttle": 2, "learning_rate": 0.0004810438536887613, "timesteps": 1972, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 211.9381, "std_reward": 0.5943, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0023/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 126.54201912879944, "reward_hacking_suspected": false}
+{"trial": 24, "timestamp": "2026-04-13T14:54:21.062475", "params": {"n_steer": 3, "n_throttle": 5, "learning_rate": 0.0007945313135188126, "timesteps": 2605, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 22.2095, "std_reward": 0.0496, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0024/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 233.29623174667358, "reward_hacking_suspected": false}
+{"trial": 25, "timestamp": "2026-04-13T14:57:54.993298", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 5.954273148103271e-05, "timesteps": 3313, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 237.8844, "std_reward": 0.2589, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0025/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 209.91456937789917, "reward_hacking_suspected": false}
+{"trial": 26, "timestamp": "2026-04-13T15:02:34.497214", "params": {"n_steer": 9, "n_throttle": 3, "learning_rate": 0.004801715827187974, "timesteps": 2543, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 15.0771, "std_reward": 0.0213, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0026/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 275.487854719162, "reward_hacking_suspected": false}
+{"trial": 27, "timestamp": "2026-04-13T15:06:12.874955", "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 0.0007139046027489641, "timesteps": 2278, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 435.0689, "std_reward": 72.8002, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0027/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 214.36268377304077, "reward_hacking_suspected": false}
+{"trial": 28, "timestamp": "2026-04-13T15:08:07.609903", "params": {"n_steer": 7, "n_throttle": 3, "learning_rate": 7.57033141698586e-05, "timesteps": 1795, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 82.7727, "std_reward": 0.8551, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0028/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 110.72014856338501, "reward_hacking_suspected": false}
+{"trial": 29, "timestamp": "2026-04-13T15:09:54.212428", "params": {"n_steer": 8, "n_throttle": 3, "learning_rate": 0.0038702768940272764, "timesteps": 1630, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 15.5211, "std_reward": 0.0294, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0029/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 102.58456087112427, "reward_hacking_suspected": false}
+{"trial": 30, "timestamp": "2026-04-13T15:13:21.531295", "params": {"n_steer": 6, "n_throttle": 3, "learning_rate": 6.732545053457424e-05, "timesteps": 2708, "agent": "ppo", "eval_episodes": 3, "reward_shaping": true}, "mean_reward": 267.9527, "std_reward": 7.4167, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0030/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 203.30307364463806, "reward_hacking_suspected": false}