donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_phase1_log.txt

[2026-04-13 13:36:24] ============================================================
[2026-04-13 13:36:24] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
[2026-04-13 13:36:24] [AutoResearch] Max trials: 50 | kappa: 2.0 | push every: 10
[2026-04-13 13:36:24] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase1.jsonl
[2026-04-13 13:36:24] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
[2026-04-13 13:36:24] ============================================================
[2026-04-13 13:36:24] [AutoResearch] Loaded 0 existing Phase 1 results.
[2026-04-13 13:36:24] [AutoResearch] Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:36:24]
[AutoResearch] ========== Trial 1/50 ==========
[2026-04-13 13:36:24] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 13:36:24] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:36:26] [AutoResearch] Launching trial 1: {'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:41:13] [AutoResearch] Trial 1 finished in 286.6s, returncode=0
[2026-04-13 13:41:13] [AutoResearch] Trial 1: mean_reward=14.3331 std_reward=0.7924
[2026-04-13 13:41:13] [AutoResearch] === Trial 1 Summary ===
[2026-04-13 13:41:13]   Total Phase 1 runs: 1
[2026-04-13 13:41:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:41:13]   Top 5:
[2026-04-13 13:41:13]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:41:15]
[AutoResearch] ========== Trial 2/50 ==========
[2026-04-13 13:41:15] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 13:41:15] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:41:17] [AutoResearch] Launching trial 2: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:44:39] [AutoResearch] Trial 2 finished in 201.7s, returncode=0
[2026-04-13 13:44:39] [AutoResearch] Trial 2: mean_reward=14.6781 std_reward=0.0047
[2026-04-13 13:44:39] [AutoResearch] === Trial 2 Summary ===
[2026-04-13 13:44:39]   Total Phase 1 runs: 2
[2026-04-13 13:44:39]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:44:39]   Top 5:
[2026-04-13 13:44:39]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:44:39]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:44:41]
[AutoResearch] ========== Trial 3/50 ==========
[2026-04-13 13:44:41] [AutoResearch] Only 2 results — using random proposal.
[2026-04-13 13:44:41] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:44:43] [AutoResearch] Launching trial 3: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:22] [AutoResearch] Trial 3 finished in 99.2s, returncode=0
[2026-04-13 13:46:22] [AutoResearch] Trial 3: mean_reward=15.0946 std_reward=0.0381
[2026-04-13 13:46:22] [AutoResearch] === Trial 3 Summary ===
[2026-04-13 13:46:22]   Total Phase 1 runs: 3
[2026-04-13 13:46:22]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:22]   Top 5:
[2026-04-13 13:46:22]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:22]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:22]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:24]
[AutoResearch] ========== Trial 4/50 ==========
[2026-04-13 13:46:24] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 13:46:24]   UCB=2.3657 mu=0.6683 sigma=0.8487 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497}
[2026-04-13 13:46:24]   UCB=2.3642 mu=0.6129 sigma=0.8757 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003872092322417417, 'timesteps': 1454}
[2026-04-13 13:46:24]   UCB=2.3627 mu=0.6363 sigma=0.8632 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002284233345527573, 'timesteps': 2792}
[2026-04-13 13:46:24]   UCB=2.3611 mu=0.6142 sigma=0.8735 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0024387325888159195, 'timesteps': 1898}
[2026-04-13 13:46:24]   UCB=2.3610 mu=0.6522 sigma=0.8544 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0007105241846548975, 'timesteps': 1492}
[2026-04-13 13:46:24] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:46:26] [AutoResearch] Launching trial 4: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:00] [AutoResearch] Trial 4 finished in 273.6s, returncode=0
[2026-04-13 13:51:00] [AutoResearch] Trial 4: mean_reward=14.6036 std_reward=0.0414
[2026-04-13 13:51:00] [AutoResearch] === Trial 4 Summary ===
[2026-04-13 13:51:00]   Total Phase 1 runs: 4
[2026-04-13 13:51:00]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:00]   Top 5:
[2026-04-13 13:51:00]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:00]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:00]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:00]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:02]
[AutoResearch] ========== Trial 5/50 ==========
[2026-04-13 13:51:02] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 13:51:02]   UCB=2.6511 mu=1.1122 sigma=0.7695 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691}
[2026-04-13 13:51:02]   UCB=2.6390 mu=1.1590 sigma=0.7400 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0023718639468651766, 'timesteps': 1039}
[2026-04-13 13:51:02]   UCB=2.6371 mu=0.9686 sigma=0.8342 params={'n_steer': 9, 'n_throttle': 5, 'learning_rate': 0.0024714959214247904, 'timesteps': 1444}
[2026-04-13 13:51:02]   UCB=2.6303 mu=1.0400 sigma=0.7951 params={'n_steer': 9, 'n_throttle': 5, 'learning_rate': 0.0028500094580389797, 'timesteps': 1932}
[2026-04-13 13:51:02]   UCB=2.6281 mu=0.9823 sigma=0.8229 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0018569421425612218, 'timesteps': 1300}
[2026-04-13 13:51:02] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:51:04] [AutoResearch] Launching trial 5: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58] [AutoResearch] Trial 5 finished in 114.3s, returncode=0
[2026-04-13 13:52:58] [AutoResearch] Trial 5: mean_reward=92.4248 std_reward=0.2184
[2026-04-13 13:52:58] [AutoResearch] === Trial 5 Summary ===
[2026-04-13 13:52:58]   Total Phase 1 runs: 5
[2026-04-13 13:52:58]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58]   Top 5:
[2026-04-13 13:52:58]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:52:58]     mean_reward=14.3331  params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0006023644308821473, 'timesteps': 4723, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:53:00]
[AutoResearch] ========== Trial 6/50 ==========
[2026-04-13 13:53:00] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 13:53:00]   UCB=2.7680 mu=1.8581 sigma=0.4549 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150}
[2026-04-13 13:53:00]   UCB=2.7571 mu=1.3859 sigma=0.6856 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0005903908533825176, 'timesteps': 2343}
[2026-04-13 13:53:00]   UCB=2.6722 mu=1.7592 sigma=0.4565 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0007155529793779908, 'timesteps': 1801}
[2026-04-13 13:53:00]   UCB=2.6514 mu=0.8841 sigma=0.8837 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00022184611967850532, 'timesteps': 1388}
[2026-04-13 13:53:00]   UCB=2.6250 mu=1.2493 sigma=0.6879 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0007146109608951488, 'timesteps': 1192}
[2026-04-13 13:53:00] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:53:02] [AutoResearch] Launching trial 6: {'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52] [AutoResearch] Trial 6 finished in 109.6s, returncode=0
[2026-04-13 13:54:52] [AutoResearch] Trial 6: mean_reward=74.2498 std_reward=0.327
[2026-04-13 13:54:52] [AutoResearch] === Trial 6 Summary ===
[2026-04-13 13:54:52]   Total Phase 1 runs: 6
[2026-04-13 13:54:52]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52]   Top 5:
[2026-04-13 13:54:52]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:52]     mean_reward=14.6036  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0030375027886947775, 'timesteps': 2497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:54]
[AutoResearch] ========== Trial 7/50 ==========
[2026-04-13 13:54:54] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 13:54:54]   UCB=2.5933 mu=0.8355 sigma=0.8789 params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081}
[2026-04-13 13:54:54]   UCB=2.5505 mu=0.7947 sigma=0.8779 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.00014230944957386966, 'timesteps': 2582}
[2026-04-13 13:54:54]   UCB=2.5503 mu=0.8231 sigma=0.8636 params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.00023514026888676683, 'timesteps': 3062}
[2026-04-13 13:54:54]   UCB=2.5217 mu=1.2654 sigma=0.6281 params={'n_steer': 7, 'n_throttle': 5, 'learning_rate': 0.0006389418712953596, 'timesteps': 1932}
[2026-04-13 13:54:54]   UCB=2.3784 mu=0.6315 sigma=0.8734 params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.00034403242394723434, 'timesteps': 2732}
[2026-04-13 13:54:54] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:54:56] [AutoResearch] Launching trial 7: {'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28] [AutoResearch] Trial 7 finished in 212.1s, returncode=0
[2026-04-13 13:58:28] [AutoResearch] Trial 7: mean_reward=326.6374 std_reward=2.3715
[2026-04-13 13:58:28] [AutoResearch] === Trial 7 Summary ===
[2026-04-13 13:58:28]   Total Phase 1 runs: 7
[2026-04-13 13:58:28]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28]   Top 5:
[2026-04-13 13:58:28]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:28]     mean_reward=14.6781  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0026097080330405096, 'timesteps': 3663, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:30]
[AutoResearch] ========== Trial 8/50 ==========
[2026-04-13 13:58:30] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 13:58:30]   UCB=3.0530 mu=1.8512 sigma=0.6009 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293}
[2026-04-13 13:58:30]   UCB=2.9620 mu=1.3333 sigma=0.8144 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0002690144955499583, 'timesteps': 2184}
[2026-04-13 13:58:30]   UCB=2.9307 mu=1.5416 sigma=0.6945 params={'n_steer': 5, 'n_throttle': 5, 'learning_rate': 0.0007634930463964747, 'timesteps': 2464}
[2026-04-13 13:58:30]   UCB=2.8609 mu=1.2576 sigma=0.8017 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00030073926504989247, 'timesteps': 2405}
[2026-04-13 13:58:30]   UCB=2.8085 mu=1.2678 sigma=0.7704 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0002460273175097693, 'timesteps': 2273}
[2026-04-13 13:58:30] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 13:58:32] [AutoResearch] Launching trial 8: {'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13] [AutoResearch] Trial 8 finished in 221.7s, returncode=0
[2026-04-13 14:02:13] [AutoResearch] Trial 8: mean_reward=492.1545 std_reward=20.4057
[2026-04-13 14:02:13] [AutoResearch] === Trial 8 Summary ===
[2026-04-13 14:02:13]   Total Phase 1 runs: 8
[2026-04-13 14:02:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13]   Top 5:
[2026-04-13 14:02:13]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:13]     mean_reward=15.0946  params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0022425720960039287, 'timesteps': 1878, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:15]
[AutoResearch] ========== Trial 9/50 ==========
[2026-04-13 14:02:15] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:02:15]   UCB=2.8782 mu=1.2806 sigma=0.7988 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405}
[2026-04-13 14:02:15]   UCB=2.8699 mu=1.2136 sigma=0.8282 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0008951125166902782, 'timesteps': 1867}
[2026-04-13 14:02:15]   UCB=2.7808 mu=1.0494 sigma=0.8657 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0007281373711988931, 'timesteps': 1628}
[2026-04-13 14:02:15]   UCB=2.7699 mu=1.4417 sigma=0.6641 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0012071606973414922, 'timesteps': 1881}
[2026-04-13 14:02:15]   UCB=2.7343 mu=1.6068 sigma=0.5638 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0008505460420664955, 'timesteps': 2487}
[2026-04-13 14:02:15] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:02:17] [AutoResearch] Launching trial 9: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07] [AutoResearch] Trial 9 finished in 109.5s, returncode=0
[2026-04-13 14:04:07] [AutoResearch] Trial 9: mean_reward=47.3482 std_reward=0.07
[2026-04-13 14:04:07] [AutoResearch] === Trial 9 Summary ===
[2026-04-13 14:04:07]   Total Phase 1 runs: 9
[2026-04-13 14:04:07]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07]   Top 5:
[2026-04-13 14:04:07]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:07]     mean_reward=47.3482  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010269810535699494, 'timesteps': 1405, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:09]
[AutoResearch] ========== Trial 10/50 ==========
[2026-04-13 14:04:09] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:04:09]   UCB=3.0861 mu=1.7282 sigma=0.6790 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717}
[2026-04-13 14:04:09]   UCB=3.0467 mu=2.0076 sigma=0.5196 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00021279372557134375, 'timesteps': 2438}
[2026-04-13 14:04:09]   UCB=3.0434 mu=2.2259 sigma=0.4088 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.00041913098323291125, 'timesteps': 2524}
[2026-04-13 14:04:09]   UCB=2.9788 mu=1.7738 sigma=0.6025 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.00031041165555133226, 'timesteps': 3122}
[2026-04-13 14:04:09]   UCB=2.9735 mu=1.5955 sigma=0.6890 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0005830228901312196, 'timesteps': 2255}
[2026-04-13 14:04:09] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:04:11] [AutoResearch] Launching trial 10: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58] [AutoResearch] Trial 10 finished in 226.7s, returncode=0
[2026-04-13 14:07:58] [AutoResearch] Trial 10: mean_reward=1157.047 std_reward=0.7533
[2026-04-13 14:07:58] [AutoResearch] === Trial 10 Summary ===
[2026-04-13 14:07:58]   Total Phase 1 runs: 10
[2026-04-13 14:07:58]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58]   Top 5:
[2026-04-13 14:07:58]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:58]     mean_reward=74.2498  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0010109905842864714, 'timesteps': 1150, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:07:59] [AutoResearch] Git push complete after trial 10
[2026-04-13 14:08:01]
[AutoResearch] ========== Trial 11/50 ==========
[2026-04-13 14:08:01] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:08:01]   UCB=3.4245 mu=2.1335 sigma=0.6455 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497}
[2026-04-13 14:08:01]   UCB=3.4026 mu=2.4787 sigma=0.4619 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0005509497648997503, 'timesteps': 3181}
[2026-04-13 14:08:01]   UCB=3.3530 mu=1.8438 sigma=0.7546 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00021061724588262036, 'timesteps': 3814}
[2026-04-13 14:08:01]   UCB=3.2826 mu=1.7314 sigma=0.7756 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0003018922088252074, 'timesteps': 2774}
[2026-04-13 14:08:01]   UCB=3.2756 mu=1.6815 sigma=0.7971 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.000520158505476463, 'timesteps': 3742}
[2026-04-13 14:08:01] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:08:03] [AutoResearch] Launching trial 11: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29] [AutoResearch] Trial 11 finished in 205.5s, returncode=0
[2026-04-13 14:11:29] [AutoResearch] Trial 11: mean_reward=295.0942 std_reward=8.7983
[2026-04-13 14:11:29] [AutoResearch] === Trial 11 Summary ===
[2026-04-13 14:11:29]   Total Phase 1 runs: 11
[2026-04-13 14:11:29]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29]   Top 5:
[2026-04-13 14:11:29]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:29]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:31]
[AutoResearch] ========== Trial 12/50 ==========
[2026-04-13 14:11:31] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:11:31]   UCB=3.8974 mu=2.3114 sigma=0.7930 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00036708488973799465, 'timesteps': 1708}
[2026-04-13 14:11:31]   UCB=3.8307 mu=2.4987 sigma=0.6660 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.00029894659146815144, 'timesteps': 2429}
[2026-04-13 14:11:31]   UCB=3.7947 mu=2.3099 sigma=0.7424 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0009005388399341564, 'timesteps': 2218}
[2026-04-13 14:11:31]   UCB=3.7156 mu=2.0628 sigma=0.8264 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007350352970779585, 'timesteps': 1803}
[2026-04-13 14:11:31]   UCB=3.6879 mu=2.2851 sigma=0.7014 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001344651976676164, 'timesteps': 2228}
[2026-04-13 14:11:31] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00036708488973799465, 'timesteps': 1708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:11:33] [AutoResearch] Launching trial 12: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00036708488973799465, 'timesteps': 1708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24] [AutoResearch] Trial 12 finished in 111.4s, returncode=0
[2026-04-13 14:13:24] [AutoResearch] Trial 12: mean_reward=57.3599 std_reward=0.3574
[2026-04-13 14:13:24] [AutoResearch] === Trial 12 Summary ===
[2026-04-13 14:13:24]   Total Phase 1 runs: 12
[2026-04-13 14:13:24]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24]   Top 5:
[2026-04-13 14:13:24]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:24]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:26]
[AutoResearch] ========== Trial 13/50 ==========
[2026-04-13 14:13:26] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:13:26]   UCB=3.8867 mu=2.4252 sigma=0.7308 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0007540639059045701, 'timesteps': 2616}
[2026-04-13 14:13:26]   UCB=3.4762 mu=1.6947 sigma=0.8907 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0006448520560867668, 'timesteps': 1828}
[2026-04-13 14:13:26]   UCB=3.4298 mu=1.6469 sigma=0.8914 params={'n_steer': 3, 'n_throttle': 2, 'learning_rate': 6.829619904851873e-05, 'timesteps': 3068}
[2026-04-13 14:13:26]   UCB=3.0569 mu=1.6819 sigma=0.6875 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004803523239302434, 'timesteps': 2203}
[2026-04-13 14:13:26]   UCB=2.9155 mu=1.2471 sigma=0.8342 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0014019934947968622, 'timesteps': 2871}
[2026-04-13 14:13:26] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0007540639059045701, 'timesteps': 2616, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:13:28] [AutoResearch] Launching trial 13: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0007540639059045701, 'timesteps': 2616, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13] [AutoResearch] Trial 13 finished in 225.0s, returncode=0
[2026-04-13 14:17:13] [AutoResearch] Trial 13: mean_reward=33.683 std_reward=0.1015
[2026-04-13 14:17:13] [AutoResearch] === Trial 13 Summary ===
[2026-04-13 14:17:13]   Total Phase 1 runs: 13
[2026-04-13 14:17:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13]   Top 5:
[2026-04-13 14:17:13]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:13]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:15]
[AutoResearch] ========== Trial 14/50 ==========
[2026-04-13 14:17:15] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:17:15]   UCB=3.7132 mu=2.7971 sigma=0.4580 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.00065796575384948, 'timesteps': 2500}
[2026-04-13 14:17:15]   UCB=3.6826 mu=2.7276 sigma=0.4775 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0005935435040011074, 'timesteps': 2295}
[2026-04-13 14:17:15]   UCB=3.0544 mu=1.7790 sigma=0.6377 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0013345870493340923, 'timesteps': 2444}
[2026-04-13 14:17:15]   UCB=3.0393 mu=1.4606 sigma=0.7893 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0010072545445081315, 'timesteps': 2556}
[2026-04-13 14:17:15]   UCB=2.9760 mu=1.4846 sigma=0.7457 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000290256920789712, 'timesteps': 2875}
[2026-04-13 14:17:15] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.00065796575384948, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:17:17] [AutoResearch] Launching trial 14: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.00065796575384948, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31] [AutoResearch] Trial 14 finished in 193.8s, returncode=0
[2026-04-13 14:20:31] [AutoResearch] Trial 14: mean_reward=28.9888 std_reward=0.0928
[2026-04-13 14:20:31] [AutoResearch] === Trial 14 Summary ===
[2026-04-13 14:20:31]   Total Phase 1 runs: 14
[2026-04-13 14:20:31]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31]   Top 5:
[2026-04-13 14:20:31]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:31]     mean_reward=92.4248  params={'n_steer': 8, 'n_throttle': 5, 'learning_rate': 0.0011131823295383878, 'timesteps': 1691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:33]
[AutoResearch] ========== Trial 15/50 ==========
[2026-04-13 14:20:33] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:20:33]   UCB=4.1822 mu=3.8136 sigma=0.1843 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500}
[2026-04-13 14:20:33]   UCB=3.9849 mu=3.6984 sigma=0.1432 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00020203299697276424, 'timesteps': 2915}
[2026-04-13 14:20:33]   UCB=3.1212 mu=1.3239 sigma=0.8986 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 5.1439595083155936e-05, 'timesteps': 3411}
[2026-04-13 14:20:33]   UCB=3.0219 mu=1.3426 sigma=0.8396 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005125080920325789, 'timesteps': 3284}
[2026-04-13 14:20:33]   UCB=2.8614 mu=2.3902 sigma=0.2356 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00013318306340867736, 'timesteps': 2174}
[2026-04-13 14:20:33] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:20:35] [AutoResearch] Launching trial 15: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58] [AutoResearch] Trial 15 finished in 203.6s, returncode=0
[2026-04-13 14:23:58] [AutoResearch] Trial 15: mean_reward=296.5245 std_reward=0.8544
[2026-04-13 14:23:58] [AutoResearch] === Trial 15 Summary ===
[2026-04-13 14:23:58]   Total Phase 1 runs: 15
[2026-04-13 14:23:58]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58]   Top 5:
[2026-04-13 14:23:58]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58]     mean_reward=296.5245  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:23:58]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:24:00]
[AutoResearch] ========== Trial 16/50 ==========
[2026-04-13 14:24:00] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:24:00]   UCB=8.3198 mu=7.2782 sigma=0.5208 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0012899142850653915, 'timesteps': 2451}
[2026-04-13 14:24:00]   UCB=8.2069 mu=7.0019 sigma=0.6025 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.001243494300822533, 'timesteps': 2623}
[2026-04-13 14:24:00]   UCB=7.7757 mu=6.8085 sigma=0.4836 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0006531958020221599, 'timesteps': 2717}
[2026-04-13 14:24:00]   UCB=7.4949 mu=6.2955 sigma=0.5997 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0010665298887244244, 'timesteps': 2471}
[2026-04-13 14:24:00]   UCB=7.0435 mu=6.1542 sigma=0.4446 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0012582252159183014, 'timesteps': 2805}
[2026-04-13 14:24:00] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0012899142850653915, 'timesteps': 2451, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:24:02] [AutoResearch] Launching trial 16: {'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0012899142850653915, 'timesteps': 2451, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35] [AutoResearch] Trial 16 finished in 212.5s, returncode=0
[2026-04-13 14:27:35] [AutoResearch] Trial 16: mean_reward=15.5282 std_reward=0.0252
[2026-04-13 14:27:35] [AutoResearch] === Trial 16 Summary ===
[2026-04-13 14:27:35]   Total Phase 1 runs: 16
[2026-04-13 14:27:35]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35]   Top 5:
[2026-04-13 14:27:35]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35]     mean_reward=296.5245  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:35]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:37]
[AutoResearch] ========== Trial 17/50 ==========
[2026-04-13 14:27:37] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:27:37]   UCB=8.1359 mu=7.3725 sigma=0.3817 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0012604760157625598, 'timesteps': 2679}
[2026-04-13 14:27:37]   UCB=8.0777 mu=6.9461 sigma=0.5658 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0017255017088966425, 'timesteps': 2530}
[2026-04-13 14:27:37]   UCB=6.8693 mu=5.2870 sigma=0.7911 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0009439788338821218, 'timesteps': 2931}
[2026-04-13 14:27:37]   UCB=6.8669 mu=5.7551 sigma=0.5559 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0016476310168858867, 'timesteps': 2769}
[2026-04-13 14:27:37]   UCB=6.6556 mu=5.4318 sigma=0.6119 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0009292913262432035, 'timesteps': 2642}
[2026-04-13 14:27:37] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0012604760157625598, 'timesteps': 2679, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:27:39] [AutoResearch] Launching trial 17: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0012604760157625598, 'timesteps': 2679, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18] [AutoResearch] Trial 17 finished in 218.8s, returncode=0
[2026-04-13 14:31:18] [AutoResearch] Trial 17: mean_reward=25.041 std_reward=0.2538
[2026-04-13 14:31:18] [AutoResearch] === Trial 17 Summary ===
[2026-04-13 14:31:18]   Total Phase 1 runs: 17
[2026-04-13 14:31:18]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18]   Top 5:
[2026-04-13 14:31:18]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18]     mean_reward=296.5245  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:18]     mean_reward=295.0942  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0006487801810851401, 'timesteps': 3497, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:20]
[AutoResearch] ========== Trial 18/50 ==========
[2026-04-13 14:31:20] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:31:20]   UCB=7.0244 mu=5.9003 sigma=0.5621 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472}
[2026-04-13 14:31:20]   UCB=6.0955 mu=4.8517 sigma=0.6219 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.00020480510091558957, 'timesteps': 2306}
[2026-04-13 14:31:20]   UCB=6.0818 mu=4.6603 sigma=0.7107 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0007009084549222966, 'timesteps': 3007}
[2026-04-13 14:31:20]   UCB=5.7812 mu=4.0041 sigma=0.8885 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007689592895820599, 'timesteps': 2581}
[2026-04-13 14:31:20]   UCB=5.6269 mu=4.0968 sigma=0.7651 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0009037770199337085, 'timesteps': 2594}
[2026-04-13 14:31:20] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:31:22] [AutoResearch] Launching trial 18: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35] [AutoResearch] Trial 18 finished in 252.8s, returncode=0
[2026-04-13 14:35:35] [AutoResearch] Trial 18: mean_reward=1389.3806 std_reward=4.4479
[2026-04-13 14:35:35] [AutoResearch] === Trial 18 Summary ===
[2026-04-13 14:35:35]   Total Phase 1 runs: 18
[2026-04-13 14:35:35]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35]   Top 5:
[2026-04-13 14:35:35]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:35]     mean_reward=296.5245  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00015967596710454723, 'timesteps': 2500, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:37]
[AutoResearch] ========== Trial 19/50 ==========
[2026-04-13 14:35:37] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:35:37]   UCB=3.7303 mu=3.1686 sigma=0.2808 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914}
[2026-04-13 14:35:37]   UCB=3.6627 mu=3.1516 sigma=0.2556 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00030687648195598525, 'timesteps': 2754}
[2026-04-13 14:35:37]   UCB=3.3895 mu=2.0524 sigma=0.6685 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005669280868608377, 'timesteps': 2176}
[2026-04-13 14:35:37]   UCB=3.2511 mu=1.6136 sigma=0.8188 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0005635699313680674, 'timesteps': 2489}
[2026-04-13 14:35:37]   UCB=3.2373 mu=1.7930 sigma=0.7222 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005912469317752097, 'timesteps': 1811}
[2026-04-13 14:35:37] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:35:39] [AutoResearch] Launching trial 19: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40] [AutoResearch] Trial 19 finished in 241.7s, returncode=0
[2026-04-13 14:39:40] [AutoResearch] Trial 19: mean_reward=1072.7063 std_reward=4.9159
[2026-04-13 14:39:40] [AutoResearch] === Trial 19 Summary ===
[2026-04-13 14:39:40]   Total Phase 1 runs: 19
[2026-04-13 14:39:40]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40]   Top 5:
[2026-04-13 14:39:40]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:40]     mean_reward=326.6374  params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0001799978550884136, 'timesteps': 2081, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:42]
[AutoResearch] ========== Trial 20/50 ==========
[2026-04-13 14:39:42] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:39:42]   UCB=4.1899 mu=2.9389 sigma=0.6255 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382}
[2026-04-13 14:39:42]   UCB=4.0210 mu=2.6315 sigma=0.6947 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0008397617990643678, 'timesteps': 2216}
[2026-04-13 14:39:42]   UCB=3.9967 mu=2.3696 sigma=0.8136 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0013674551870704959, 'timesteps': 1522}
[2026-04-13 14:39:42]   UCB=3.8338 mu=2.1883 sigma=0.8228 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0005541858758139742, 'timesteps': 1280}
[2026-04-13 14:39:42]   UCB=3.7481 mu=2.5203 sigma=0.6139 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 7.025023485216959e-05, 'timesteps': 2093}
[2026-04-13 14:39:42] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:39:44] [AutoResearch] Launching trial 20: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55] [AutoResearch] Trial 20 finished in 130.6s, returncode=0
[2026-04-13 14:41:55] [AutoResearch] Trial 20: mean_reward=821.1389 std_reward=234.0365
[2026-04-13 14:41:55] [AutoResearch] === Trial 20 Summary ===
[2026-04-13 14:41:55]   Total Phase 1 runs: 20
[2026-04-13 14:41:55]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55]   Top 5:
[2026-04-13 14:41:55]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:55]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:41:56] [AutoResearch] Git push complete after trial 20
[2026-04-13 14:41:58]
[AutoResearch] ========== Trial 21/50 ==========
[2026-04-13 14:41:58] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:41:58]   UCB=3.8136 mu=2.8224 sigma=0.4956 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991}
[2026-04-13 14:41:58]   UCB=3.5260 mu=1.8738 sigma=0.8261 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.00014906253326062445, 'timesteps': 1656}
[2026-04-13 14:41:58]   UCB=3.3444 mu=1.6081 sigma=0.8681 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.0007228760687423513, 'timesteps': 2342}
[2026-04-13 14:41:58]   UCB=3.2706 mu=1.4597 sigma=0.9054 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.00011495962027542093, 'timesteps': 1045}
[2026-04-13 14:41:58]   UCB=2.9919 mu=1.9088 sigma=0.5415 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.00016186063350120652, 'timesteps': 2028}
[2026-04-13 14:41:58] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:42:00] [AutoResearch] Launching trial 21: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0007169004126896797, 'timesteps': 1991, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56] [AutoResearch] Trial 21 finished in 115.4s, returncode=0
[2026-04-13 14:43:56] [AutoResearch] Trial 21: mean_reward=23.9294 std_reward=0.0242
[2026-04-13 14:43:56] [AutoResearch] === Trial 21 Summary ===
[2026-04-13 14:43:56]   Total Phase 1 runs: 21
[2026-04-13 14:43:56]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56]   Top 5:
[2026-04-13 14:43:56]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:56]     mean_reward=492.1545  params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0003046182905194233, 'timesteps': 2293, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:43:58]
[AutoResearch] ========== Trial 22/50 ==========
[2026-04-13 14:43:58] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:43:58]   UCB=3.2203 mu=2.5187 sigma=0.3508 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156}
[2026-04-13 14:43:58]   UCB=2.7442 mu=1.8625 sigma=0.4409 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0010289690181806371, 'timesteps': 1685}
[2026-04-13 14:43:58]   UCB=2.6790 mu=1.0884 sigma=0.7953 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00025603119181826265, 'timesteps': 1153}
[2026-04-13 14:43:58]   UCB=2.6591 mu=1.6599 sigma=0.4996 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0005948263081101674, 'timesteps': 2945}
[2026-04-13 14:43:58]   UCB=2.6466 mu=1.0963 sigma=0.7752 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0014869800982187835, 'timesteps': 1534}
[2026-04-13 14:43:58] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:44:00] [AutoResearch] Launching trial 22: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13] [AutoResearch] Trial 22 finished in 252.9s, returncode=0
[2026-04-13 14:48:13] [AutoResearch] Trial 22: mean_reward=1859.847 std_reward=4.6351
[2026-04-13 14:48:13] [AutoResearch] === Trial 22 Summary ===
[2026-04-13 14:48:13]   Total Phase 1 runs: 22
[2026-04-13 14:48:13]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13]   Top 5:
[2026-04-13 14:48:13]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:13]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:15]
[AutoResearch] ========== Trial 23/50 ==========
[2026-04-13 14:48:15] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:48:15]   UCB=3.4508 mu=2.2736 sigma=0.5886 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972}
[2026-04-13 14:48:15]   UCB=3.4191 mu=1.9865 sigma=0.7163 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0006782346336585454, 'timesteps': 2316}
[2026-04-13 14:48:15]   UCB=3.0160 mu=1.3590 sigma=0.8285 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.00015648799569206457, 'timesteps': 3627}
[2026-04-13 14:48:15]   UCB=2.9983 mu=1.3451 sigma=0.8266 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0006745921677002186, 'timesteps': 2926}
[2026-04-13 14:48:15]   UCB=2.9502 mu=1.4387 sigma=0.7557 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.00046495943726949734, 'timesteps': 2735}
[2026-04-13 14:48:15] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:48:17] [AutoResearch] Launching trial 23: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0004810438536887613, 'timesteps': 1972, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23] [AutoResearch] Trial 23 finished in 126.5s, returncode=0
[2026-04-13 14:50:23] [AutoResearch] Trial 23: mean_reward=211.9381 std_reward=0.5943
[2026-04-13 14:50:23] [AutoResearch] === Trial 23 Summary ===
[2026-04-13 14:50:23]   Total Phase 1 runs: 23
[2026-04-13 14:50:23]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23]   Top 5:
[2026-04-13 14:50:23]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:23]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:25]
[AutoResearch] ========== Trial 24/50 ==========
[2026-04-13 14:50:25] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:50:25]   UCB=2.9789 mu=1.2777 sigma=0.8506 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605}
[2026-04-13 14:50:25]   UCB=2.9480 mu=2.4478 sigma=0.2501 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0008293839244973556, 'timesteps': 1800}
[2026-04-13 14:50:25]   UCB=2.4588 mu=1.2989 sigma=0.5799 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0003778611590363342, 'timesteps': 2517}
[2026-04-13 14:50:25]   UCB=2.4403 mu=1.0025 sigma=0.7189 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0019303183103883325, 'timesteps': 1569}
[2026-04-13 14:50:25]   UCB=2.4358 mu=0.6432 sigma=0.8963 params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0027965188439229814, 'timesteps': 1004}
[2026-04-13 14:50:25] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:50:27] [AutoResearch] Launching trial 24: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007945313135188126, 'timesteps': 2605, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21] [AutoResearch] Trial 24 finished in 233.3s, returncode=0
[2026-04-13 14:54:21] [AutoResearch] Trial 24: mean_reward=22.2095 std_reward=0.0496
[2026-04-13 14:54:21] [AutoResearch] === Trial 24 Summary ===
[2026-04-13 14:54:21]   Total Phase 1 runs: 24
[2026-04-13 14:54:21]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21]   Top 5:
[2026-04-13 14:54:21]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:21]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:23]
[AutoResearch] ========== Trial 25/50 ==========
[2026-04-13 14:54:23] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:54:23]   UCB=3.1390 mu=2.4425 sigma=0.3483 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313}
[2026-04-13 14:54:23]   UCB=2.6722 mu=2.0120 sigma=0.3301 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0001025090708476032, 'timesteps': 3502}
[2026-04-13 14:54:23]   UCB=2.4749 mu=1.8672 sigma=0.3039 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012006077737121994, 'timesteps': 2179}
[2026-04-13 14:54:23]   UCB=2.4596 mu=0.6881 sigma=0.8858 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004688975887028294, 'timesteps': 2780}
[2026-04-13 14:54:23]   UCB=2.4093 mu=0.6759 sigma=0.8667 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004722071725864288, 'timesteps': 2896}
[2026-04-13 14:54:23] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:54:25] [AutoResearch] Launching trial 25: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 5.954273148103271e-05, 'timesteps': 3313, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54] [AutoResearch] Trial 25 finished in 209.9s, returncode=0
[2026-04-13 14:57:54] [AutoResearch] Trial 25: mean_reward=237.8844 std_reward=0.2589
[2026-04-13 14:57:54] [AutoResearch] === Trial 25 Summary ===
[2026-04-13 14:57:54]   Total Phase 1 runs: 25
[2026-04-13 14:57:54]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54]   Top 5:
[2026-04-13 14:57:54]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:54]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:56]
[AutoResearch] ========== Trial 26/50 ==========
[2026-04-13 14:57:56] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 14:57:56]   UCB=2.5652 mu=0.7504 sigma=0.9074 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543}
[2026-04-13 14:57:56]   UCB=2.4423 mu=0.5942 sigma=0.9241 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.004973066114846697, 'timesteps': 2444}
[2026-04-13 14:57:56]   UCB=2.4395 mu=0.7410 sigma=0.8492 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0045180303501340955, 'timesteps': 3047}
[2026-04-13 14:57:56]   UCB=2.4381 mu=0.5876 sigma=0.9252 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004911706851291294, 'timesteps': 1756}
[2026-04-13 14:57:56]   UCB=2.4131 mu=0.5551 sigma=0.9290 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.004522587810616554, 'timesteps': 1800}
[2026-04-13 14:57:56] [AutoResearch] Proposed: {'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 14:57:59] [AutoResearch] Launching trial 26: {'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.004801715827187974, 'timesteps': 2543, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34] [AutoResearch] Trial 26 finished in 275.5s, returncode=0
[2026-04-13 15:02:34] [AutoResearch] Trial 26: mean_reward=15.0771 std_reward=0.0213
[2026-04-13 15:02:34] [AutoResearch] === Trial 26 Summary ===
[2026-04-13 15:02:34]   Total Phase 1 runs: 26
[2026-04-13 15:02:34]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34]   Top 5:
[2026-04-13 15:02:34]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:34]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:36]
[AutoResearch] ========== Trial 27/50 ==========
[2026-04-13 15:02:36] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 15:02:36]   UCB=3.0288 mu=2.4828 sigma=0.2730 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278}
[2026-04-13 15:02:36]   UCB=2.9336 mu=2.1217 sigma=0.4059 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0003943076736423479, 'timesteps': 1928}
[2026-04-13 15:02:36]   UCB=2.7988 mu=2.2863 sigma=0.2562 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0011223236314925372, 'timesteps': 1871}
[2026-04-13 15:02:36]   UCB=2.3913 mu=1.5376 sigma=0.4269 params={'n_steer': 6, 'n_throttle': 4, 'learning_rate': 0.0005593634601157492, 'timesteps': 1747}
[2026-04-13 15:02:36]   UCB=2.2062 mu=0.6541 sigma=0.7761 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 8.72586099538617e-05, 'timesteps': 1047}
[2026-04-13 15:02:36] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:02:38] [AutoResearch] Launching trial 27: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0007139046027489641, 'timesteps': 2278, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12] [AutoResearch] Trial 27 finished in 214.4s, returncode=0
[2026-04-13 15:06:12] [AutoResearch] Trial 27: mean_reward=435.0689 std_reward=72.8002
[2026-04-13 15:06:12] [AutoResearch] === Trial 27 Summary ===
[2026-04-13 15:06:12]   Total Phase 1 runs: 27
[2026-04-13 15:06:12]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12]   Top 5:
[2026-04-13 15:06:12]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:12]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:14]
[AutoResearch] ========== Trial 28/50 ==========
[2026-04-13 15:06:14] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 15:06:14]   UCB=8.1497 mu=7.3892 sigma=0.3802 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795}
[2026-04-13 15:06:14]   UCB=6.4243 mu=5.1219 sigma=0.6512 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.00027636763846234557, 'timesteps': 1049}
[2026-04-13 15:06:14]   UCB=5.0712 mu=3.2994 sigma=0.8859 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.003481351347296331, 'timesteps': 1124}
[2026-04-13 15:06:14]   UCB=4.9277 mu=3.5508 sigma=0.6884 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0028061703799304324, 'timesteps': 1078}
[2026-04-13 15:06:14]   UCB=4.7717 mu=3.0410 sigma=0.8654 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0037370286662698512, 'timesteps': 1034}
[2026-04-13 15:06:14] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:06:16] [AutoResearch] Launching trial 28: {'n_steer': 7, 'n_throttle': 3, 'learning_rate': 7.57033141698586e-05, 'timesteps': 1795, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07] [AutoResearch] Trial 28 finished in 110.7s, returncode=0
[2026-04-13 15:08:07] [AutoResearch] Trial 28: mean_reward=82.7727 std_reward=0.8551
[2026-04-13 15:08:07] [AutoResearch] === Trial 28 Summary ===
[2026-04-13 15:08:07]   Total Phase 1 runs: 28
[2026-04-13 15:08:07]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07]   Top 5:
[2026-04-13 15:08:07]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:07]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:09]
[AutoResearch] ========== Trial 29/50 ==========
[2026-04-13 15:08:09] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 15:08:09]   UCB=5.2779 mu=3.9398 sigma=0.6691 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630}
[2026-04-13 15:08:09]   UCB=4.6112 mu=2.8243 sigma=0.8935 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0040377757528288795, 'timesteps': 1025}
[2026-04-13 15:08:09]   UCB=4.5876 mu=3.6875 sigma=0.4500 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.003898240324417907, 'timesteps': 2181}
[2026-04-13 15:08:09]   UCB=4.3613 mu=3.1401 sigma=0.6106 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.003711559821615946, 'timesteps': 1966}
[2026-04-13 15:08:09]   UCB=4.2189 mu=2.7285 sigma=0.7452 params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003452590260446862, 'timesteps': 1304}
[2026-04-13 15:08:09] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:08:11] [AutoResearch] Launching trial 29: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0038702768940272764, 'timesteps': 1630, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54] [AutoResearch] Trial 29 finished in 102.6s, returncode=0
[2026-04-13 15:09:54] [AutoResearch] Trial 29: mean_reward=15.5211 std_reward=0.0294
[2026-04-13 15:09:54] [AutoResearch] === Trial 29 Summary ===
[2026-04-13 15:09:54]   Total Phase 1 runs: 29
[2026-04-13 15:09:54]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54]   Top 5:
[2026-04-13 15:09:54]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:54]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:56]
[AutoResearch] ========== Trial 30/50 ==========
[2026-04-13 15:09:56] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 15:09:56]   UCB=4.4896 mu=4.1988 sigma=0.1454 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708}
[2026-04-13 15:09:56]   UCB=4.2126 mu=3.5464 sigma=0.3331 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0001083987083551113, 'timesteps': 3033}
[2026-04-13 15:09:56]   UCB=4.1748 mu=2.4436 sigma=0.8656 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.004047059120159478, 'timesteps': 3889}
[2026-04-13 15:09:56]   UCB=4.0196 mu=3.0474 sigma=0.4861 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.003963695470731348, 'timesteps': 2883}
[2026-04-13 15:09:56]   UCB=3.9599 mu=2.3481 sigma=0.8059 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.004271745963239979, 'timesteps': 3390}
[2026-04-13 15:09:56] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:09:58] [AutoResearch] Launching trial 30: {'n_steer': 6, 'n_throttle': 3, 'learning_rate': 6.732545053457424e-05, 'timesteps': 2708, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21] [AutoResearch] Trial 30 finished in 203.3s, returncode=0
[2026-04-13 15:13:21] [AutoResearch] Trial 30: mean_reward=267.9527 std_reward=7.4167
[2026-04-13 15:13:21] [AutoResearch] === Trial 30 Summary ===
[2026-04-13 15:13:21]   Total Phase 1 runs: 30
[2026-04-13 15:13:21]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21]   Top 5:
[2026-04-13 15:13:21]     mean_reward=1859.8470  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005669006119489946, 'timesteps': 2156, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21]     mean_reward=1389.3806  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0005504110507719487, 'timesteps': 2472, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21]     mean_reward=1157.0470  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.00037737321665256695, 'timesteps': 2717, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21]     mean_reward=1072.7063  params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.00038717401417690916, 'timesteps': 2914, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 15:13:21]     mean_reward=821.1389  params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0012685117683148405, 'timesteps': 1382, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}