[2026-04-13 10:00:54] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 10:00:54]   UCB=2.5673 mu=0.8758 sigma=0.8458 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0019880522059802556, 'timesteps': 15316}
[2026-04-13 10:00:54]   UCB=2.5533 mu=0.8978 sigma=0.8277 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0015934898587720348, 'timesteps': 17654}
[2026-04-13 10:00:54]   UCB=2.5196 mu=0.8299 sigma=0.8449 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0017281974656910685, 'timesteps': 13730}
[2026-04-13 10:00:54]   UCB=2.5042 mu=0.6556 sigma=0.9243 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0017985944720852176, 'timesteps': 12413}
[2026-04-13 10:00:54]   UCB=2.4927 mu=0.6946 sigma=0.8991 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.00239716045398226, 'timesteps': 7446}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 10:00:54] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 10:00:54] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 10:02:55] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 10:02:55]   UCB=2.5673 mu=0.8758 sigma=0.8458 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0019880522059802556, 'timesteps': 15316}
[2026-04-13 10:02:55]   UCB=2.5533 mu=0.8978 sigma=0.8277 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.0015934898587720348, 'timesteps': 17654}
[2026-04-13 10:02:55]   UCB=2.5196 mu=0.8299 sigma=0.8449 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0017281974656910685, 'timesteps': 13730}
[2026-04-13 10:02:55]   UCB=2.5042 mu=0.6556 sigma=0.9243 params={'n_steer': 9, 'n_throttle': 4, 'learning_rate': 0.0017985944720852176, 'timesteps': 12413}
[2026-04-13 10:02:55]   UCB=2.4927 mu=0.6946 sigma=0.8991 params={'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.00239716045398226, 'timesteps': 7446}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 10:02:55] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 10:02:55] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 10:03:22] ============================================================
[2026-04-13 10:03:22] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
[2026-04-13 10:03:22] [AutoResearch] Max trials: 50 | kappa: 2.0 | push every: 10
[2026-04-13 10:03:22] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase1.jsonl
[2026-04-13 10:03:22] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
[2026-04-13 10:03:22] ============================================================
[2026-04-13 10:03:22] [AutoResearch] Loaded 0 existing Phase 1 results.
[2026-04-13 10:03:22] [AutoResearch] No champion yet.
[2026-04-13 10:03:22] 
[AutoResearch] ========== Trial 1/50 ==========
[2026-04-13 10:03:22] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:03:22] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0031442729980003356, 'timesteps': 28959, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:03:24] [AutoResearch] Launching trial 1: {'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.0031442729980003356, 'timesteps': 28959, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:13:24] [AutoResearch] Trial 1 TIMED OUT after 600.2s
[2026-04-13 10:13:24] [AutoResearch] Trial 1: mean_reward=None std_reward=None
[2026-04-13 10:13:26] 
[AutoResearch] ========== Trial 2/50 ==========
[2026-04-13 10:13:26] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:13:26] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0034866189644944764, 'timesteps': 19697, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:13:28] [AutoResearch] Launching trial 2: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0034866189644944764, 'timesteps': 19697, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:23:28] [AutoResearch] Trial 2 TIMED OUT after 600.0s
[2026-04-13 10:23:28] [AutoResearch] Trial 2: mean_reward=None std_reward=None
[2026-04-13 10:23:30] 
[AutoResearch] ========== Trial 3/50 ==========
[2026-04-13 10:23:30] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:23:30] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0021394857089897554, 'timesteps': 28858, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:23:32] [AutoResearch] Launching trial 3: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0021394857089897554, 'timesteps': 28858, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:33:32] [AutoResearch] Trial 3 TIMED OUT after 600.1s
[2026-04-13 10:33:32] [AutoResearch] Trial 3: mean_reward=None std_reward=None
[2026-04-13 10:33:34] 
[AutoResearch] ========== Trial 4/50 ==========
[2026-04-13 10:33:34] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:33:34] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0005174658025335539, 'timesteps': 22022, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:33:36] [AutoResearch] Launching trial 4: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0005174658025335539, 'timesteps': 22022, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:43:36] [AutoResearch] Trial 4 TIMED OUT after 600.1s
[2026-04-13 10:43:36] [AutoResearch] Trial 4: mean_reward=None std_reward=None
[2026-04-13 10:43:39] 
[AutoResearch] ========== Trial 5/50 ==========
[2026-04-13 10:43:39] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:43:39] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.004765524064388173, 'timesteps': 23582, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:43:41] [AutoResearch] Launching trial 5: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.004765524064388173, 'timesteps': 23582, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:53:41] [AutoResearch] Trial 5 TIMED OUT after 600.1s
[2026-04-13 10:53:41] [AutoResearch] Trial 5: mean_reward=None std_reward=None
[2026-04-13 10:53:43] 
[AutoResearch] ========== Trial 6/50 ==========
[2026-04-13 10:53:43] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 10:53:43] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0008238758073115486, 'timesteps': 23327, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 10:53:45] [AutoResearch] Launching trial 6: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0008238758073115486, 'timesteps': 23327, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 11:03:45] [AutoResearch] Trial 6 TIMED OUT after 600.1s
[2026-04-13 11:03:45] [AutoResearch] Trial 6: mean_reward=None std_reward=None
[2026-04-13 11:03:47] 
[AutoResearch] ========== Trial 7/50 ==========
[2026-04-13 11:03:47] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 11:03:47] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0021827786572140534, 'timesteps': 8101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 11:03:49] [AutoResearch] Launching trial 7: {'n_steer': 8, 'n_throttle': 4, 'learning_rate': 0.0021827786572140534, 'timesteps': 8101, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
[2026-04-13 11:16:34] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:16:34]   UCB=2.7567 mu=1.2278 sigma=0.7644 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002270622623224986, 'timesteps': 3888}
[2026-04-13 11:16:34]   UCB=2.7300 mu=1.1710 sigma=0.7795 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002011397993568161, 'timesteps': 4033}
[2026-04-13 11:16:34]   UCB=2.6457 mu=1.4878 sigma=0.5790 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.00219005726516088, 'timesteps': 4774}
[2026-04-13 11:16:34]   UCB=2.6320 mu=1.1819 sigma=0.7250 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0020813954690263674, 'timesteps': 4022}
[2026-04-13 11:16:34]   UCB=2.5412 mu=1.2499 sigma=0.6457 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0025942479713410636, 'timesteps': 4135}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 11:16:34] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 11:16:34] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 11:16:53] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:16:53]   UCB=2.7567 mu=1.2278 sigma=0.7644 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002270622623224986, 'timesteps': 3888}
[2026-04-13 11:16:53]   UCB=2.7300 mu=1.1710 sigma=0.7795 params={'n_steer': 9, 'n_throttle': 3, 'learning_rate': 0.002011397993568161, 'timesteps': 4033}
[2026-04-13 11:16:53]   UCB=2.6457 mu=1.4878 sigma=0.5790 params={'n_steer': 9, 'n_throttle': 2, 'learning_rate': 0.00219005726516088, 'timesteps': 4774}
[2026-04-13 11:16:53]   UCB=2.6320 mu=1.1819 sigma=0.7250 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0020813954690263674, 'timesteps': 4022}
[2026-04-13 11:16:53]   UCB=2.5412 mu=1.2499 sigma=0.6457 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.0025942479713410636, 'timesteps': 4135}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=50.0000 params={'n_steer': 5}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'n_steer': 7}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 0: mean_reward=50.0000 params={'r': 50}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=80.0000 params={'r': 80}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 3: mean_reward=90.0000 params={'r': 90}
[2026-04-13 11:16:53] [Champion] 🏆 NEW BEST! Trial 5: mean_reward=75.0000 params={'n_steer': 8}
[2026-04-13 11:16:53] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 11:17:15] ============================================================
[2026-04-13 11:17:15] [AutoResearch] Phase 1 — Real PPO Training + GP+UCB Optimization
[2026-04-13 11:17:15] [AutoResearch] Max trials: 50 | kappa: 2.0 | push every: 10
[2026-04-13 11:17:15] [AutoResearch] Results: /home/paulh/projects/donkeycar-rl-autoresearch/agent/outerloop-results/autoresearch_results_phase1.jsonl
[2026-04-13 11:17:15] [AutoResearch] Champion: /home/paulh/projects/donkeycar-rl-autoresearch/agent/models/champion
[2026-04-13 11:17:15] ============================================================
[2026-04-13 11:17:15] [AutoResearch] Loaded 0 existing Phase 1 results.
[2026-04-13 11:17:15] [AutoResearch] No champion yet.
[2026-04-13 11:17:15] 
[AutoResearch] ========== Trial 1/50 ==========
[2026-04-13 11:17:15] [AutoResearch] Only 0 results — using random proposal.
[2026-04-13 11:17:15] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:17:17] [AutoResearch] Launching trial 1: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:20:53] [AutoResearch] Trial 1 finished in 215.5s, returncode=0
[2026-04-13 11:20:53] [AutoResearch] Trial 1: mean_reward=5.7246 std_reward=0.027
[2026-04-13 11:20:53] [Champion] 🏆 NEW BEST! Trial 1: mean_reward=5.7246 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:20:53] [AutoResearch] === Trial 1 Summary ===
[2026-04-13 11:20:53]   Total Phase 1 runs: 1
[2026-04-13 11:20:53]   Champion: trial=1 mean_reward=5.7246 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:20:53]   Top 5:
[2026-04-13 11:20:53]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:20:55] 
[AutoResearch] ========== Trial 2/50 ==========
[2026-04-13 11:20:55] [AutoResearch] Only 1 results — using random proposal.
[2026-04-13 11:20:55] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:20:57] [AutoResearch] Launching trial 2: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:32] [AutoResearch] Trial 2 finished in 215.5s, returncode=0
[2026-04-13 11:24:32] [AutoResearch] Trial 2: mean_reward=398.8564 std_reward=1.1786
[2026-04-13 11:24:33] [Champion] 🏆 NEW BEST! Trial 2: mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:33] [AutoResearch] === Trial 2 Summary ===
[2026-04-13 11:24:33]   Total Phase 1 runs: 2
[2026-04-13 11:24:33]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:33]   Top 5:
[2026-04-13 11:24:33]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:33]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:35] 
[AutoResearch] ========== Trial 3/50 ==========
[2026-04-13 11:24:35] [AutoResearch] Only 2 results — using random proposal.
[2026-04-13 11:24:35] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:24:37] [AutoResearch] Launching trial 3: {'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:06] [AutoResearch] Trial 3 finished in 269.6s, returncode=0
[2026-04-13 11:29:06] [AutoResearch] Trial 3: mean_reward=5.9776 std_reward=0.0252
[2026-04-13 11:29:06] [AutoResearch] === Trial 3 Summary ===
[2026-04-13 11:29:06]   Total Phase 1 runs: 3
[2026-04-13 11:29:06]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:06]   Top 5:
[2026-04-13 11:29:06]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:06]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:06]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:08] 
[AutoResearch] ========== Trial 4/50 ==========
[2026-04-13 11:29:08] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:29:08]   UCB=2.4615 mu=0.8615 sigma=0.8000 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084}
[2026-04-13 11:29:08]   UCB=2.4548 mu=0.9032 sigma=0.7758 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0009758380297094257, 'timesteps': 3202}
[2026-04-13 11:29:08]   UCB=2.4540 mu=0.7444 sigma=0.8548 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0006970147905651335, 'timesteps': 3351}
[2026-04-13 11:29:08]   UCB=2.4479 mu=0.7051 sigma=0.8714 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0009997388594600006, 'timesteps': 4139}
[2026-04-13 11:29:08]   UCB=2.4443 mu=0.9374 sigma=0.7535 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001158537723428793, 'timesteps': 3743}
[2026-04-13 11:29:08] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:29:10] [AutoResearch] Launching trial 4: {'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:24] [AutoResearch] Trial 4 finished in 194.0s, returncode=0
[2026-04-13 11:32:24] [AutoResearch] Trial 4: mean_reward=22.8241 std_reward=0.1918
[2026-04-13 11:32:24] [AutoResearch] === Trial 4 Summary ===
[2026-04-13 11:32:24]   Total Phase 1 runs: 4
[2026-04-13 11:32:24]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:24]   Top 5:
[2026-04-13 11:32:24]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:24]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:24]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:24]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:26] 
[AutoResearch] ========== Trial 5/50 ==========
[2026-04-13 11:32:26] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:32:26]   UCB=2.9797 mu=1.4209 sigma=0.7794 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626}
[2026-04-13 11:32:26]   UCB=2.9360 mu=1.6516 sigma=0.6422 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.003483580964392729, 'timesteps': 3613}
[2026-04-13 11:32:26]   UCB=2.8856 mu=1.1888 sigma=0.8484 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.002515064142571671, 'timesteps': 4267}
[2026-04-13 11:32:26]   UCB=2.8582 mu=1.5163 sigma=0.6709 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0029159438252188284, 'timesteps': 3730}
[2026-04-13 11:32:26]   UCB=2.8422 mu=1.5296 sigma=0.6563 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0033924318546103937, 'timesteps': 3346}
[2026-04-13 11:32:26] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:32:28] [AutoResearch] Launching trial 5: {'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52] [AutoResearch] Trial 5 finished in 264.3s, returncode=0
[2026-04-13 11:36:52] [AutoResearch] Trial 5: mean_reward=5.9913 std_reward=0.0246
[2026-04-13 11:36:52] [AutoResearch] === Trial 5 Summary ===
[2026-04-13 11:36:52]   Total Phase 1 runs: 5
[2026-04-13 11:36:52]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52]   Top 5:
[2026-04-13 11:36:52]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52]     mean_reward=5.9913  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:52]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:54] 
[AutoResearch] ========== Trial 6/50 ==========
[2026-04-13 11:36:54] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:36:54]   UCB=2.8622 mu=1.4083 sigma=0.7270 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0023577235727246376, 'timesteps': 4387}
[2026-04-13 11:36:54]   UCB=2.7841 mu=1.0518 sigma=0.8661 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.002782960062629981, 'timesteps': 4433}
[2026-04-13 11:36:54]   UCB=2.7380 mu=1.5849 sigma=0.5765 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.001906612836342622, 'timesteps': 3714}
[2026-04-13 11:36:54]   UCB=2.7029 mu=0.9236 sigma=0.8897 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002301914433902658, 'timesteps': 4751}
[2026-04-13 11:36:54]   UCB=2.6924 mu=1.1628 sigma=0.7648 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0019575950790335435, 'timesteps': 2548}
[2026-04-13 11:36:54] [AutoResearch] Proposed: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0023577235727246376, 'timesteps': 4387, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:36:56] [AutoResearch] Launching trial 6: {'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0023577235727246376, 'timesteps': 4387, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57] [AutoResearch] Trial 6 TIMED OUT after 480.1s
[2026-04-13 11:44:57] [AutoResearch] Trial 6: mean_reward=None std_reward=None
[2026-04-13 11:44:57] [AutoResearch] === Trial 6 Summary ===
[2026-04-13 11:44:57]   Total Phase 1 runs: 5
[2026-04-13 11:44:57]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57]   Top 5:
[2026-04-13 11:44:57]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57]     mean_reward=5.9913  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:57]     mean_reward=5.7246  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0033894181299375602, 'timesteps': 2116, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:44:59] 
[AutoResearch] ========== Trial 7/50 ==========
[2026-04-13 11:44:59] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:44:59]   UCB=2.7677 mu=1.3945 sigma=0.6866 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.002636854645150246, 'timesteps': 3160}
[2026-04-13 11:44:59]   UCB=2.6401 mu=0.8590 sigma=0.8906 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0012329470317109907, 'timesteps': 4404}
[2026-04-13 11:44:59]   UCB=2.6346 mu=0.8897 sigma=0.8725 params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.002824572687677801, 'timesteps': 2173}
[2026-04-13 11:44:59]   UCB=2.6197 mu=1.1406 sigma=0.7395 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.002264095441698803, 'timesteps': 3610}
[2026-04-13 11:44:59]   UCB=2.6013 mu=0.7257 sigma=0.9378 params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.001986372556075669, 'timesteps': 4899}
[2026-04-13 11:44:59] [AutoResearch] Proposed: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.002636854645150246, 'timesteps': 3160, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:45:01] [AutoResearch] Launching trial 7: {'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.002636854645150246, 'timesteps': 3160, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32] [AutoResearch] Trial 7 finished in 211.3s, returncode=0
[2026-04-13 11:48:32] [AutoResearch] Trial 7: mean_reward=5.7529 std_reward=0.0318
[2026-04-13 11:48:32] [AutoResearch] === Trial 7 Summary ===
[2026-04-13 11:48:32]   Total Phase 1 runs: 6
[2026-04-13 11:48:32]   Champion: trial=2 mean_reward=398.8564 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32]   Top 5:
[2026-04-13 11:48:32]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32]     mean_reward=5.9913  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:32]     mean_reward=5.7529  params={'n_steer': 8, 'n_throttle': 3, 'learning_rate': 0.002636854645150246, 'timesteps': 3160, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:34] 
[AutoResearch] ========== Trial 8/50 ==========
[2026-04-13 11:48:34] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:48:34]   UCB=2.9928 mu=1.4031 sigma=0.7948 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429}
[2026-04-13 11:48:34]   UCB=2.9102 mu=1.2105 sigma=0.8499 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0013337121696681005, 'timesteps': 4384}
[2026-04-13 11:48:34]   UCB=2.9095 mu=1.2362 sigma=0.8366 params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.0016866172466465327, 'timesteps': 4586}
[2026-04-13 11:48:34]   UCB=2.7220 mu=1.0017 sigma=0.8601 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0012033218829906316, 'timesteps': 4239}
[2026-04-13 11:48:34]   UCB=2.6586 mu=0.8020 sigma=0.9283 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0014425382569831862, 'timesteps': 4488}
[2026-04-13 11:48:34] [AutoResearch] Proposed: {'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:48:36] [AutoResearch] Launching trial 8: {'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48] [AutoResearch] Trial 8 finished in 252.2s, returncode=0
[2026-04-13 11:52:48] [AutoResearch] Trial 8: mean_reward=1936.8533 std_reward=34.0067
[2026-04-13 11:52:48] [Champion] 🏆 NEW BEST! Trial 8: mean_reward=1936.8533 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48] [AutoResearch] === Trial 8 Summary ===
[2026-04-13 11:52:48]   Total Phase 1 runs: 7
[2026-04-13 11:52:48]   Champion: trial=8 mean_reward=1936.8533 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48]   Top 5:
[2026-04-13 11:52:48]     mean_reward=1936.8533  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48]     mean_reward=5.9913  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:48]     mean_reward=5.9776  params={'n_steer': 7, 'n_throttle': 4, 'learning_rate': 0.003869851995924804, 'timesteps': 2985, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:50] 
[AutoResearch] ========== Trial 9/50 ==========
[2026-04-13 11:52:50] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:52:50]   UCB=3.6446 mu=2.2362 sigma=0.7042 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0012562469886511318, 'timesteps': 2961}
[2026-04-13 11:52:50]   UCB=3.6253 mu=2.3605 sigma=0.6324 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0014035502090066865, 'timesteps': 2985}
[2026-04-13 11:52:50]   UCB=3.5079 mu=2.3661 sigma=0.5709 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0016891347290568105, 'timesteps': 3422}
[2026-04-13 11:52:50]   UCB=3.4169 mu=2.2243 sigma=0.5963 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.0011351472472032882, 'timesteps': 4191}
[2026-04-13 11:52:50]   UCB=3.3399 mu=1.6131 sigma=0.8634 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.00114114991914373, 'timesteps': 3413}
[2026-04-13 11:52:50] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0012562469886511318, 'timesteps': 2961, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:52:52] [AutoResearch] Launching trial 9: {'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0012562469886511318, 'timesteps': 2961, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28] [AutoResearch] Trial 9 finished in 215.5s, returncode=0
[2026-04-13 11:56:28] [AutoResearch] Trial 9: mean_reward=237.9115 std_reward=1.4136
[2026-04-13 11:56:28] [AutoResearch] === Trial 9 Summary ===
[2026-04-13 11:56:28]   Total Phase 1 runs: 8
[2026-04-13 11:56:28]   Champion: trial=8 mean_reward=1936.8533 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28]   Top 5:
[2026-04-13 11:56:28]     mean_reward=1936.8533  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28]     mean_reward=237.9115  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0012562469886511318, 'timesteps': 2961, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:28]     mean_reward=5.9913  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.003486801052946445, 'timesteps': 3626, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:30] 
[AutoResearch] ========== Trial 10/50 ==========
[2026-04-13 11:56:30] [AutoResearch] GP UCB top-5 candidates:
[2026-04-13 11:56:30]   UCB=3.6513 mu=2.0026 sigma=0.8243 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0012074041487018196, 'timesteps': 4691}
[2026-04-13 11:56:30]   UCB=3.2438 mu=1.9644 sigma=0.6397 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0013292739097783752, 'timesteps': 3897}
[2026-04-13 11:56:30]   UCB=3.1815 mu=1.2984 sigma=0.9415 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0004768119261475519, 'timesteps': 4914}
[2026-04-13 11:56:30]   UCB=3.0779 mu=1.4273 sigma=0.8253 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0001854044179957165, 'timesteps': 3308}
[2026-04-13 11:56:30]   UCB=2.9649 mu=1.2760 sigma=0.8444 params={'n_steer': 6, 'n_throttle': 3, 'learning_rate': 0.0001236030774697938, 'timesteps': 3010}
[2026-04-13 11:56:30] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0012074041487018196, 'timesteps': 4691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 11:56:32] [AutoResearch] Launching trial 10: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0012074041487018196, 'timesteps': 4691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17] [AutoResearch] Trial 10 finished in 285.4s, returncode=0
[2026-04-13 12:01:17] [AutoResearch] Trial 10: mean_reward=7.6595 std_reward=0.1051
[2026-04-13 12:01:17] [AutoResearch] === Trial 10 Summary ===
[2026-04-13 12:01:17]   Total Phase 1 runs: 9
[2026-04-13 12:01:17]   Champion: trial=8 mean_reward=1936.8533 params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17]   Top 5:
[2026-04-13 12:01:17]     mean_reward=1936.8533  params={'n_steer': 6, 'n_throttle': 2, 'learning_rate': 0.001449588903551847, 'timesteps': 3429, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17]     mean_reward=398.8564  params={'n_steer': 7, 'n_throttle': 2, 'learning_rate': 0.002359934949698355, 'timesteps': 3386, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17]     mean_reward=237.9115  params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0012562469886511318, 'timesteps': 2961, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17]     mean_reward=22.8241  params={'n_steer': 8, 'n_throttle': 2, 'learning_rate': 0.0010468048869752956, 'timesteps': 3084, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
[2026-04-13 12:01:17]     mean_reward=7.6595  params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0012074041487018196, 'timesteps': 4691, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}