donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_phase2_log.txt

[2026-04-13 19:33:13] ============================================================
[2026-04-13 19:33:13] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
[2026-04-13 19:33:13] [AutoResearch] Max trials: 20 | kappa: 2.0 | push every: 5
[2026-04-13 19:33:13] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase2.jsonl
[2026-04-13 19:33:13] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
[2026-04-13 19:33:13] ============================================================
[2026-04-13 19:33:13] [AutoResearch] Loaded 0 existing Phase 1 results.
[2026-04-13 19:33:13] [AutoResearch] Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 19:33:13]
[AutoResearch] ========== Trial 1/20 ==========
[2026-04-13 19:33:13] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 19:33:13] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 19:33:15] [AutoResearch] Launching trial 1: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 20:05:03] [AutoResearch] Trial 1 finished in 1908.3s, returncode=0
[2026-04-13 20:05:03] [AutoResearch] Trial 1: mean_reward=234.5386 std_reward=3.1547
[2026-04-13 20:05:03] [AutoResearch] === Trial 1 Summary ===
[2026-04-13 20:05:03]   Total Phase 1 runs: 1
[2026-04-13 20:05:03]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 20:05:03]   Top 5:
[2026-04-13 20:05:03]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 20:05:05]
[AutoResearch] ========== Trial 2/20 ==========
[2026-04-13 20:05:05] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 20:05:05] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0012285179829782996, 'timesteps': 39101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 20:05:07] [AutoResearch] Launching trial 2: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0012285179829782996, 'timesteps': 39101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 20:55:43] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 20:55:43]   UCB=2.3107 mu=0.3981 sigma=0.9563 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.001405531880392808, 'timesteps': 26173}
[2026-04-13 20:55:43]   UCB=2.3049 mu=0.8602 sigma=0.7224 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.001793493447174312, 'timesteps': 19198}
[2026-04-13 20:55:43]   UCB=2.2813 mu=0.4904 sigma=0.8954 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011616192816742616, 'timesteps': 13887}
[2026-04-13 20:55:43]   UCB=2.2767 mu=0.5194 sigma=0.8787 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011646447444663046, 'timesteps': 21199}
[2026-04-13 20:55:43]   UCB=2.2525 mu=0.6254 sigma=0.8136 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0010196345864901517, 'timesteps': 22035}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 20:55:43] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 20:55:43] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 20:55:59] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 20:55:59]   UCB=2.3107 mu=0.3981 sigma=0.9563 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.001405531880392808, 'timesteps': 26173}
[2026-04-13 20:55:59]   UCB=2.3049 mu=0.8602 sigma=0.7224 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.001793493447174312, 'timesteps': 19198}
[2026-04-13 20:55:59]   UCB=2.2813 mu=0.4904 sigma=0.8954 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011616192816742616, 'timesteps': 13887}
[2026-04-13 20:55:59]   UCB=2.2767 mu=0.5194 sigma=0.8787 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0011646447444663046, 'timesteps': 21199}
[2026-04-13 20:55:59]   UCB=2.2525 mu=0.6254 sigma=0.8136 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0010196345864901517, 'timesteps': 22035}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 20:55:59] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 20:55:59] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 20:56:39] ============================================================
[2026-04-13 20:56:39] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
[2026-04-13 20:56:39] [AutoResearch] Max trials: 20 | kappa: 2.0 | push every: 5
[2026-04-13 20:56:39] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase2.jsonl
[2026-04-13 20:56:39] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
[2026-04-13 20:56:39] ============================================================
[2026-04-13 20:56:39] [AutoResearch] Loaded 1 existing Phase 1 results.
[2026-04-13 20:56:39] [AutoResearch] Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 20:56:39]
[AutoResearch] ========== Trial 1/20 ==========
[2026-04-13 20:56:39] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 20:56:39] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 20:56:41] [AutoResearch] Launching trial 1: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:09:13] [AutoResearch] Trial 1 finished in 751.5s, returncode=0
[2026-04-13 21:09:13] [AutoResearch] Trial 1: mean_reward=177.7416 std_reward=142.3977
[2026-04-13 21:09:13] [AutoResearch] === Trial 1 Summary ===
[2026-04-13 21:09:13]   Total Phase 1 runs: 2
[2026-04-13 21:09:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 21:09:13]   Top 5:
[2026-04-13 21:09:13]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:09:13]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:09:15]
[AutoResearch] ========== Trial 2/20 ==========
[2026-04-13 21:09:15] [AutoResearch] Only 2 results — using random proposal.
[2026-04-13 21:09:15] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0012716386940916763, 'timesteps': 40768, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:09:17] [AutoResearch] Launching trial 2: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0012716386940916763, 'timesteps': 40768, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:32:22] [AutoResearch] Trial 2 finished in 1384.9s, returncode=0
[2026-04-13 21:32:22] [AutoResearch] Trial 2: mean_reward=38.1267 std_reward=0.3364
[2026-04-13 21:32:22] [AutoResearch] === Trial 2 Summary ===
[2026-04-13 21:32:22]   Total Phase 1 runs: 3
[2026-04-13 21:32:22]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 21:32:22]   Top 5:
[2026-04-13 21:32:22]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:32:22]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:32:22]     mean_reward=38.1267  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0012716386940916763, 'timesteps': 40768, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:32:24]
[AutoResearch] ========== Trial 3/20 ==========
[2026-04-13 21:32:24] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 21:32:24]   UCB=2.2673 mu=0.5045 sigma=0.8814 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596}
[2026-04-13 21:32:24]   UCB=2.2663 mu=0.4912 sigma=0.8876 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0012733685738093425, 'timesteps': 41802}
[2026-04-13 21:32:24]   UCB=2.2632 mu=0.5326 sigma=0.8653 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0003737785062265609, 'timesteps': 48369}
[2026-04-13 21:32:24]   UCB=2.2622 mu=0.4884 sigma=0.8869 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0009593125016626112, 'timesteps': 41226}
[2026-04-13 21:32:24]   UCB=2.2594 mu=0.4092 sigma=0.9251 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0006680173697602083, 'timesteps': 33139}
[2026-04-13 21:32:24] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:32:26] [AutoResearch] Launching trial 3: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:48] [AutoResearch] Trial 3 finished in 1522.1s, returncode=0
[2026-04-13 21:57:48] [AutoResearch] Trial 3: mean_reward=615.6443 std_reward=2.4555
[2026-04-13 21:57:48] [AutoResearch] === Trial 3 Summary ===
[2026-04-13 21:57:48]   Total Phase 1 runs: 4
[2026-04-13 21:57:48]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 21:57:48]   Top 5:
[2026-04-13 21:57:48]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:48]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:48]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:48]     mean_reward=38.1267  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0012716386940916763, 'timesteps': 40768, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:50]
[AutoResearch] ========== Trial 4/20 ==========
[2026-04-13 21:57:50] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 21:57:50]   UCB=2.6247 mu=1.1138 sigma=0.7554 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006446108743181142, 'timesteps': 25224}
[2026-04-13 21:57:50]   UCB=2.6201 mu=1.0985 sigma=0.7608 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.00040076107708415066, 'timesteps': 34530}
[2026-04-13 21:57:50]   UCB=2.6128 mu=0.9229 sigma=0.8449 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.0007783797179569566, 'timesteps': 28443}
[2026-04-13 21:57:50]   UCB=2.5877 mu=1.1874 sigma=0.7001 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.000483120120780932, 'timesteps': 32645}
[2026-04-13 21:57:50]   UCB=2.5805 mu=1.1160 sigma=0.7322 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004185314575094028, 'timesteps': 31606}
[2026-04-13 21:57:50] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006446108743181142, 'timesteps': 25224, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 21:57:52] [AutoResearch] Launching trial 4: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006446108743181142, 'timesteps': 25224, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:49] [AutoResearch] Trial 4 finished in 1196.7s, returncode=0
[2026-04-13 22:17:49] [AutoResearch] Trial 4: mean_reward=56.9474 std_reward=0.4525
[2026-04-13 22:17:49] [AutoResearch] === Trial 4 Summary ===
[2026-04-13 22:17:49]   Total Phase 1 runs: 5
[2026-04-13 22:17:49]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 22:17:49]   Top 5:
[2026-04-13 22:17:49]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:49]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:49]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:49]     mean_reward=56.9474  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006446108743181142, 'timesteps': 25224, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:49]     mean_reward=38.1267  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0012716386940916763, 'timesteps': 40768, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:51]
[AutoResearch] ========== Trial 5/20 ==========
[2026-04-13 22:17:51] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 22:17:51]   UCB=3.2705 mu=1.9137 sigma=0.6784 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721}
[2026-04-13 22:17:51]   UCB=3.0915 mu=1.4459 sigma=0.8228 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0013020888853863901, 'timesteps': 44447}
[2026-04-13 22:17:51]   UCB=3.0371 mu=1.3845 sigma=0.8263 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0014826204762677822, 'timesteps': 36122}
[2026-04-13 22:17:51]   UCB=3.0172 mu=1.1871 sigma=0.9150 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0008990881268700197, 'timesteps': 47181}
[2026-04-13 22:17:51]   UCB=3.0156 mu=1.6493 sigma=0.6832 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.0009711471794993783, 'timesteps': 36714}
[2026-04-13 22:17:51] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:17:53] [AutoResearch] Launching trial 5: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:54] [AutoResearch] Trial 5 finished in 1741.0s, returncode=0
[2026-04-13 22:46:54] [AutoResearch] Trial 5: mean_reward=254.5237 std_reward=34.6249
[2026-04-13 22:46:54] [AutoResearch] === Trial 5 Summary ===
[2026-04-13 22:46:54]   Total Phase 1 runs: 6
[2026-04-13 22:46:54]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 22:46:54]   Top 5:
[2026-04-13 22:46:54]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:54]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:54]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:54]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:54]     mean_reward=56.9474  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006446108743181142, 'timesteps': 25224, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:55] [AutoResearch] Git push complete after trial 5
[2026-04-13 22:46:57]
[AutoResearch] ========== Trial 6/20 ==========
[2026-04-13 22:46:57] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 22:46:57]   UCB=2.8976 mu=1.3885 sigma=0.7545 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159}
[2026-04-13 22:46:57]   UCB=2.7044 mu=1.9380 sigma=0.3832 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0008675754116606385, 'timesteps': 37769}
[2026-04-13 22:46:57]   UCB=2.5483 mu=1.0014 sigma=0.7734 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0013296606512799647, 'timesteps': 32320}
[2026-04-13 22:46:57]   UCB=2.3786 mu=0.5746 sigma=0.9020 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0002809430632146512, 'timesteps': 38162}
[2026-04-13 22:46:57]   UCB=2.3450 mu=0.6872 sigma=0.8289 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.000691104912585418, 'timesteps': 43009}
[2026-04-13 22:46:57] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 22:46:59] [AutoResearch] Launching trial 6: {'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:15:59] [AutoResearch] Trial 6 finished in 1740.1s, returncode=0
[2026-04-13 23:15:59] [AutoResearch] Trial 6: mean_reward=230.3458 std_reward=3.0194
[2026-04-13 23:15:59] [AutoResearch] === Trial 6 Summary ===
[2026-04-13 23:15:59]   Total Phase 1 runs: 7
[2026-04-13 23:15:59]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 23:15:59]   Top 5:
[2026-04-13 23:15:59]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:15:59]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:15:59]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:15:59]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:15:59]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:16:01]
[AutoResearch] ========== Trial 7/20 ==========
[2026-04-13 23:16:01] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 23:16:01]   UCB=2.8151 mu=0.9820 sigma=0.9165 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.001574375789043505, 'timesteps': 34055}
[2026-04-13 23:16:01]   UCB=2.6240 mu=1.0426 sigma=0.7907 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.001137097715700357, 'timesteps': 30159}
[2026-04-13 23:16:01]   UCB=2.3629 mu=0.6057 sigma=0.8786 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0013640068427189318, 'timesteps': 36432}
[2026-04-13 23:16:01]   UCB=2.3445 mu=0.4178 sigma=0.9633 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0017303620708703264, 'timesteps': 25882}
[2026-04-13 23:16:01]   UCB=2.3407 mu=0.7245 sigma=0.8081 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.000811303710708658, 'timesteps': 34107}
[2026-04-13 23:16:01] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.001574375789043505, 'timesteps': 34055, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:16:03] [AutoResearch] Launching trial 7: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.001574375789043505, 'timesteps': 34055, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:53] [AutoResearch] Trial 7 finished in 1729.5s, returncode=0
[2026-04-13 23:44:53] [AutoResearch] Trial 7: mean_reward=69.0259 std_reward=10.9909
[2026-04-13 23:44:53] [AutoResearch] === Trial 7 Summary ===
[2026-04-13 23:44:53]   Total Phase 1 runs: 8
[2026-04-13 23:44:53]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 23:44:53]   Top 5:
[2026-04-13 23:44:53]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:53]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:53]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:53]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:53]     mean_reward=177.7416  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0016410214223984076, 'timesteps': 16101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:55]
[AutoResearch] ========== Trial 8/20 ==========
[2026-04-13 23:44:55] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 23:44:55]   UCB=2.6819 mu=1.1218 sigma=0.7800 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177}
[2026-04-13 23:44:55]   UCB=2.5982 mu=0.9843 sigma=0.8069 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.001106072643855368, 'timesteps': 28977}
[2026-04-13 23:44:55]   UCB=2.5885 mu=1.2137 sigma=0.6874 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009950286097591902, 'timesteps': 31387}
[2026-04-13 23:44:55]   UCB=2.5042 mu=0.6672 sigma=0.9185 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0015134650324881223, 'timesteps': 31708}
[2026-04-13 23:44:55]   UCB=2.4989 mu=0.7372 sigma=0.8808 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0011556578968693356, 'timesteps': 30629}
[2026-04-13 23:44:55] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 23:44:57] [AutoResearch] Launching trial 8: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:12] [AutoResearch] Trial 8 finished in 1395.2s, returncode=0
[2026-04-14 00:08:12] [AutoResearch] Trial 8: mean_reward=2296.1891 std_reward=14.0346
[2026-04-14 00:08:12] [AutoResearch] === Trial 8 Summary ===
[2026-04-14 00:08:12]   Total Phase 1 runs: 9
[2026-04-14 00:08:12]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-14 00:08:12]   Top 5:
[2026-04-14 00:08:12]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:12]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:12]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:12]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:12]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:14]
[AutoResearch] ========== Trial 9/20 ==========
[2026-04-14 00:08:14] [AutoResearch] GP UCB top-5 candidates:
[2026-04-14 00:08:14]   UCB=3.4249 mu=2.1949 sigma=0.6150 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0010038571924825726, 'timesteps': 29380}
[2026-04-14 00:08:14]   UCB=3.4098 mu=1.9348 sigma=0.7375 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0016876197465002791, 'timesteps': 29946}
[2026-04-14 00:08:14]   UCB=3.3195 mu=1.8981 sigma=0.7107 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0015133213029551393, 'timesteps': 29545}
[2026-04-14 00:08:14]   UCB=3.3002 mu=1.7970 sigma=0.7516 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0009092257531208215, 'timesteps': 26759}
[2026-04-14 00:08:14]   UCB=3.2755 mu=1.8436 sigma=0.7159 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.001032563222262004, 'timesteps': 29035}
[2026-04-14 00:08:14] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0010038571924825726, 'timesteps': 29380, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:08:16] [AutoResearch] Launching trial 9: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0010038571924825726, 'timesteps': 29380, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:30] [AutoResearch] Trial 9 finished in 1454.2s, returncode=0
[2026-04-14 00:32:30] [AutoResearch] Trial 9: mean_reward=62.5084 std_reward=9.1358
[2026-04-14 00:32:30] [AutoResearch] === Trial 9 Summary ===
[2026-04-14 00:32:30]   Total Phase 1 runs: 10
[2026-04-14 00:32:30]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-14 00:32:30]   Top 5:
[2026-04-14 00:32:30]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:30]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:30]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:30]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:30]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:32]
[AutoResearch] ========== Trial 10/20 ==========
[2026-04-14 00:32:32] [AutoResearch] GP UCB top-5 candidates:
[2026-04-14 00:32:32]   UCB=4.3821 mu=3.5544 sigma=0.4138 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0011311496831886009, 'timesteps': 35197}
[2026-04-14 00:32:32]   UCB=3.9901 mu=2.2172 sigma=0.8864 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0019647588641987608, 'timesteps': 35583}
[2026-04-14 00:32:32]   UCB=3.9576 mu=3.1158 sigma=0.4209 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0013877163147355273, 'timesteps': 34726}
[2026-04-14 00:32:32]   UCB=3.9250 mu=2.5046 sigma=0.7102 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0016362435570891763, 'timesteps': 38090}
[2026-04-14 00:32:32]   UCB=3.8792 mu=2.3746 sigma=0.7523 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.001709600322137922, 'timesteps': 32114}
[2026-04-14 00:32:32] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0011311496831886009, 'timesteps': 35197, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:32:34] [AutoResearch] Launching trial 10: {'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0011311496831886009, 'timesteps': 35197, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:56:14] [AutoResearch] Trial 10 finished in 1420.1s, returncode=0
[2026-04-14 00:56:14] [AutoResearch] Trial 10: mean_reward=144.7129 std_reward=26.0347
[2026-04-14 00:56:14] [AutoResearch] === Trial 10 Summary ===
[2026-04-14 00:56:14]   Total Phase 1 runs: 11
[2026-04-14 00:56:14]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-14 00:56:14]   Top 5:
[2026-04-14 00:56:14]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:56:14]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:56:14]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:56:14]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-14 00:56:14]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}