autoresearch: phase1 trial 20 results

Agent: pi Tests: N/A Tests-Added: 0 TypeScript: N/A
2026-04-14 04:35:45 -04:00 · 2026-04-14 04:35:45 -04:00 · 5114a95a74
parent 52b8a4a10e
commit 5114a95a74
2 changed files with 111 additions and 0 deletions
--- a/agent/outerloop-results/autoresearch_phase2_log.txt
+++ b/agent/outerloop-results/autoresearch_phase2_log.txt
@ -358,3 +358,109 @@
 [2026-04-14 02:56:38]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 02:56:39] [AutoResearch] Git push complete after trial 15
+[2026-04-14 02:56:41] 
+[AutoResearch] ========== Trial 16/20 ==========
+[2026-04-14 02:56:41] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 02:56:41]   UCB=3.9383 mu=2.6946 sigma=0.6219 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0011227360194223832, 'timesteps': 37093}
+[2026-04-14 02:56:41]   UCB=3.2192 mu=2.0021 sigma=0.6086 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007358066017054203, 'timesteps': 24297}
+[2026-04-14 02:56:41]   UCB=3.0999 mu=1.9951 sigma=0.5524 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0009505146272118057, 'timesteps': 39697}
+[2026-04-14 02:56:41]   UCB=3.0210 mu=1.1783 sigma=0.9214 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.00027137746549538573, 'timesteps': 16162}
+[2026-04-14 02:56:41]   UCB=2.8375 mu=1.5535 sigma=0.6420 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0008195673228116497, 'timesteps': 41274}
+[2026-04-14 02:56:41] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0011227360194223832, 'timesteps': 37093, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 02:56:44] [AutoResearch] Launching trial 16: {'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0011227360194223832, 'timesteps': 37093, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:11] [AutoResearch] Trial 16 finished in 1827.7s, returncode=0
+[2026-04-14 03:27:11] [AutoResearch] Trial 16: mean_reward=39.12 std_reward=0.7297
+[2026-04-14 03:27:11] [AutoResearch] === Trial 16 Summary ===
+[2026-04-14 03:27:11]   Total Phase 1 runs: 17
+[2026-04-14 03:27:11]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-14 03:27:11]   Top 5:
+[2026-04-14 03:27:11]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:11]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:11]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:11]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:11]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:13] 
+[AutoResearch] ========== Trial 17/20 ==========
+[2026-04-14 03:27:13] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 03:27:13]   UCB=3.5336 mu=2.8374 sigma=0.3481 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0009690818044583388, 'timesteps': 36863}
+[2026-04-14 03:27:13]   UCB=3.3778 mu=2.4691 sigma=0.4544 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0011060386861867358, 'timesteps': 38344}
+[2026-04-14 03:27:13]   UCB=3.1627 mu=2.3423 sigma=0.4102 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0009600413926159611, 'timesteps': 41941}
+[2026-04-14 03:27:13]   UCB=3.1314 mu=1.5375 sigma=0.7970 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00021015763680829732, 'timesteps': 29106}
+[2026-04-14 03:27:13]   UCB=3.0196 mu=1.4338 sigma=0.7929 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00022824908978925457, 'timesteps': 30026}
+[2026-04-14 03:27:13] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0009690818044583388, 'timesteps': 36863, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:27:15] [AutoResearch] Launching trial 17: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0009690818044583388, 'timesteps': 36863, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:44] [AutoResearch] Trial 17 finished in 1949.2s, returncode=0
+[2026-04-14 03:59:44] [AutoResearch] Trial 17: mean_reward=176.0936 std_reward=10.7529
+[2026-04-14 03:59:44] [AutoResearch] === Trial 17 Summary ===
+[2026-04-14 03:59:44]   Total Phase 1 runs: 18
+[2026-04-14 03:59:44]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-14 03:59:44]   Top 5:
+[2026-04-14 03:59:44]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:44]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:44]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:44]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:44]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:46] 
+[AutoResearch] ========== Trial 18/20 ==========
+[2026-04-14 03:59:46] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 03:59:46]   UCB=3.2224 mu=1.4545 sigma=0.8839 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876}
+[2026-04-14 03:59:46]   UCB=3.2135 mu=2.2932 sigma=0.4602 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0010258036258562022, 'timesteps': 40185}
+[2026-04-14 03:59:46]   UCB=2.8605 mu=2.4589 sigma=0.2008 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009986646332647185, 'timesteps': 40641}
+[2026-04-14 03:59:46]   UCB=2.8267 mu=0.9938 sigma=0.9164 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.0007054754747880616, 'timesteps': 12184}
+[2026-04-14 03:59:46]   UCB=2.8001 mu=1.2702 sigma=0.7650 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0016048842351304125, 'timesteps': 16378}
+[2026-04-14 03:59:46] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 03:59:48] [AutoResearch] Launching trial 18: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:20] [AutoResearch] Trial 18 finished in 751.7s, returncode=0
+[2026-04-14 04:12:20] [AutoResearch] Trial 18: mean_reward=2073.7372 std_reward=1.3899
+[2026-04-14 04:12:20] [AutoResearch] === Trial 18 Summary ===
+[2026-04-14 04:12:20]   Total Phase 1 runs: 19
+[2026-04-14 04:12:20]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-14 04:12:20]   Top 5:
+[2026-04-14 04:12:20]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:20]     mean_reward=2073.7372  params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:20]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:20]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:20]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:22] 
+[AutoResearch] ========== Trial 19/20 ==========
+[2026-04-14 04:12:22] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 04:12:22]   UCB=3.1791 mu=1.9916 sigma=0.5937 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007311720966729557, 'timesteps': 16351}
+[2026-04-14 04:12:22]   UCB=2.8897 mu=2.3059 sigma=0.2919 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001142626249677311, 'timesteps': 39501}
+[2026-04-14 04:12:22]   UCB=2.8240 mu=1.3340 sigma=0.7450 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 9.635993722889297e-05, 'timesteps': 26883}
+[2026-04-14 04:12:22]   UCB=2.8024 mu=1.1331 sigma=0.8346 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0011656394037404603, 'timesteps': 14676}
+[2026-04-14 04:12:22]   UCB=2.7897 mu=1.9228 sigma=0.4335 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 5.105016526526456e-05, 'timesteps': 14097}
+[2026-04-14 04:12:22] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007311720966729557, 'timesteps': 16351, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:12:24] [AutoResearch] Launching trial 19: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0007311720966729557, 'timesteps': 16351, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:50] [AutoResearch] Trial 19 finished in 685.5s, returncode=0
+[2026-04-14 04:23:50] [AutoResearch] Trial 19: mean_reward=261.0141 std_reward=43.9044
+[2026-04-14 04:23:50] [AutoResearch] === Trial 19 Summary ===
+[2026-04-14 04:23:50]   Total Phase 1 runs: 20
+[2026-04-14 04:23:50]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-14 04:23:50]   Top 5:
+[2026-04-14 04:23:50]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:50]     mean_reward=2073.7372  params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:50]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:50]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:50]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:52] 
+[AutoResearch] ========== Trial 20/20 ==========
+[2026-04-14 04:23:52] [AutoResearch] GP UCB top-5 candidates:
+[2026-04-14 04:23:52]   UCB=3.2972 mu=2.4863 sigma=0.4054 params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00022474333387549633, 'timesteps': 13328}
+[2026-04-14 04:23:52]   UCB=2.6260 mu=1.5672 sigma=0.5294 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 0.0003413271441769394, 'timesteps': 15873}
+[2026-04-14 04:23:52]   UCB=2.3718 mu=0.6154 sigma=0.8782 params={'n_steer': 4, 'n_throttle': 5, 'learning_rate': 5.171688067013589e-05, 'timesteps': 28148}
+[2026-04-14 04:23:52]   UCB=2.2392 mu=0.4877 sigma=0.8758 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.001889491481388905, 'timesteps': 10354}
+[2026-04-14 04:23:52]   UCB=2.2106 mu=0.3061 sigma=0.9522 params={'n_steer': 6, 'n_throttle': 5, 'learning_rate': 0.0018766239559755721, 'timesteps': 15866}
+[2026-04-14 04:23:52] [AutoResearch] Proposed: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00022474333387549633, 'timesteps': 13328, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:23:54] [AutoResearch] Launching trial 20: {'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00022474333387549633, 'timesteps': 13328, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:35:45] [AutoResearch] Trial 20 finished in 711.5s, returncode=0
+[2026-04-14 04:35:45] [AutoResearch] Trial 20: mean_reward=2469.2835 std_reward=1.1918
+[2026-04-14 04:35:45] [AutoResearch] === Trial 20 Summary ===
+[2026-04-14 04:35:45]   Total Phase 1 runs: 21
+[2026-04-14 04:35:45]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
+[2026-04-14 04:35:45]   Top 5:
+[2026-04-14 04:35:45]     mean_reward=2469.2835  params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.00022474333387549633, 'timesteps': 13328, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:35:45]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:35:45]     mean_reward=2073.7372  params={'n_steer': 3, 'n_throttle': 5, 'learning_rate': 0.0002881292103575585, 'timesteps': 15876, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:35:45]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
+[2026-04-14 04:35:45]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
--- a/agent/outerloop-results/autoresearch_results_phase2.jsonl
+++ b/agent/outerloop-results/autoresearch_results_phase2.jsonl
@ -14,3 +14,8 @@
 {"trial": 13, "timestamp": "2026-04-14T02:11:39.342919", "params": {"n_steer": 4, "n_throttle": 4, "learning_rate": 0.0016222563549258791, "timesteps": 22612, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 554.1497, "std_reward": 0.6798, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0013/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1178.5945281982422, "reward_hacking_suspected": false}
 {"trial": 14, "timestamp": "2026-04-14T02:37:37.784511", "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001421177467065464, "timesteps": 33363, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 1097.1248, "std_reward": 7.4952, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0014/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1554.4287102222443, "reward_hacking_suspected": false}
 {"trial": 15, "timestamp": "2026-04-14T02:56:38.611952", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 0.0012917341170092288, "timesteps": 26533, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 109.7097, "std_reward": 1.6652, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0015/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1136.815062046051, "reward_hacking_suspected": false}
+{"trial": 16, "timestamp": "2026-04-14T03:27:11.700985", "params": {"n_steer": 5, "n_throttle": 2, "learning_rate": 0.0011227360194223832, "timesteps": 37093, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 39.12, "std_reward": 0.7297, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0016/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1827.6983869075775, "reward_hacking_suspected": false}
+{"trial": 17, "timestamp": "2026-04-14T03:59:44.873676", "params": {"n_steer": 4, "n_throttle": 4, "learning_rate": 0.0009690818044583388, "timesteps": 36863, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 176.0936, "std_reward": 10.7529, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0017/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1949.1606884002686, "reward_hacking_suspected": false}
+{"trial": 18, "timestamp": "2026-04-14T04:12:20.613583", "params": {"n_steer": 3, "n_throttle": 5, "learning_rate": 0.0002881292103575585, "timesteps": 15876, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 2073.7372, "std_reward": 1.3899, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0018/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 751.7272703647614, "reward_hacking_suspected": false}
+{"trial": 19, "timestamp": "2026-04-14T04:23:50.144886", "params": {"n_steer": 3, "n_throttle": 5, "learning_rate": 0.0007311720966729557, "timesteps": 16351, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 261.0141, "std_reward": 43.9044, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0019/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 685.5180125236511, "reward_hacking_suspected": false}
+{"trial": 20, "timestamp": "2026-04-14T04:35:45.644319", "params": {"n_steer": 3, "n_throttle": 5, "learning_rate": 0.00022474333387549633, "timesteps": 13328, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 2469.2835, "std_reward": 1.1918, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0020/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 711.4853708744049, "reward_hacking_suspected": false}