autoresearch: phase1 trial 15 results

Agent: pi Tests: N/A Tests-Added: 0 TypeScript: N/A
2026-04-14 02:56:38 -04:00 · 2026-04-14 02:56:38 -04:00 · 52b8a4a10e
parent 6c8c5b25a9
commit 52b8a4a10e
2 changed files with 111 additions and 0 deletions
--- a/agent/outerloop-results/autoresearch_phase2_log.txt
+++ b/agent/outerloop-results/autoresearch_phase2_log.txt
@ -252,3 +252,109 @@
 [2026-04-14 00:56:14]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 00:56:14]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 00:56:14]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 00:56:16] [AutoResearch] Git push complete after trial 10
 [2026-04-14 00:56:18] 
 [AutoResearch] ========== Trial 11/20 ==========
 [2026-04-14 00:56:18] [AutoResearch] GP UCB top-5 candidates:
 [2026-04-14 00:56:18]   UCB=5.7586 mu=4.7912 sigma=0.4837 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0014246268134911666, 'timesteps': 38210}
 [2026-04-14 00:56:18]   UCB=5.4431 mu=3.8017 sigma=0.8207 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0017002774887490608, 'timesteps': 35955}
 [2026-04-14 00:56:18]   UCB=5.4032 mu=3.7564 sigma=0.8234 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0018388176704805855, 'timesteps': 33318}
 [2026-04-14 00:56:18]   UCB=5.2470 mu=4.1580 sigma=0.5445 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0013978686256657003, 'timesteps': 36838}
 [2026-04-14 00:56:18]   UCB=5.0468 mu=4.1879 sigma=0.4294 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0012681926634959078, 'timesteps': 39254}
 [2026-04-14 00:56:18] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0014246268134911666, 'timesteps': 38210, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 00:56:20] [AutoResearch] Launching trial 11: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0014246268134911666, 'timesteps': 38210, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:38] [AutoResearch] Trial 11 finished in 1818.2s, returncode=0
 [2026-04-14 01:26:38] [AutoResearch] Trial 11: mean_reward=114.5364 std_reward=4.0149
 [2026-04-14 01:26:38] [AutoResearch] === Trial 11 Summary ===
 [2026-04-14 01:26:38]   Total Phase 1 runs: 12
 [2026-04-14 01:26:38]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-14 01:26:38]   Top 5:
 [2026-04-14 01:26:38]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:38]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:38]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:38]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:38]     mean_reward=230.3458  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.0004916288196083273, 'timesteps': 45159, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:40] 
 [AutoResearch] ========== Trial 12/20 ==========
 [2026-04-14 01:26:40] [AutoResearch] GP UCB top-5 candidates:
 [2026-04-14 01:26:40]   UCB=3.8375 mu=3.2333 sigma=0.3021 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234}
 [2026-04-14 01:26:40]   UCB=3.5203 mu=2.1732 sigma=0.6735 params={'n_steer': 4, 'n_throttle': 2, 'learning_rate': 0.0008846780992589506, 'timesteps': 32580}
 [2026-04-14 01:26:40]   UCB=3.4985 mu=2.4208 sigma=0.5388 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0006733740843935935, 'timesteps': 39503}
 [2026-04-14 01:26:40]   UCB=3.3453 mu=2.7481 sigma=0.2986 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0010790723670313863, 'timesteps': 38707}
 [2026-04-14 01:26:40]   UCB=3.2998 mu=2.1993 sigma=0.5503 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0013192003620922743, 'timesteps': 27318}
 [2026-04-14 01:26:40] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:26:42] [AutoResearch] Launching trial 12: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:56] [AutoResearch] Trial 12 finished in 1514.2s, returncode=0
 [2026-04-14 01:51:56] [AutoResearch] Trial 12: mean_reward=1382.4461 std_reward=8.1109
 [2026-04-14 01:51:56] [AutoResearch] === Trial 12 Summary ===
 [2026-04-14 01:51:56]   Total Phase 1 runs: 13
 [2026-04-14 01:51:56]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-14 01:51:56]   Top 5:
 [2026-04-14 01:51:56]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:56]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:56]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:56]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:56]     mean_reward=234.5386  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0009737963906394612, 'timesteps': 47325, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:51:58] 
 [AutoResearch] ========== Trial 13/20 ==========
 [2026-04-14 01:51:58] [AutoResearch] GP UCB top-5 candidates:
 [2026-04-14 01:51:58]   UCB=5.1239 mu=3.3605 sigma=0.8817 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612}
 [2026-04-14 01:51:58]   UCB=4.8639 mu=3.0971 sigma=0.8834 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0015280548232000533, 'timesteps': 21561}
 [2026-04-14 01:51:58]   UCB=4.7060 mu=3.0790 sigma=0.8135 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0013615010429186987, 'timesteps': 21438}
 [2026-04-14 01:51:58]   UCB=4.3756 mu=2.6326 sigma=0.8715 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0015217125608335401, 'timesteps': 25040}
 [2026-04-14 01:51:58]   UCB=4.2939 mu=3.0496 sigma=0.6221 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.001654421510937643, 'timesteps': 25309}
 [2026-04-14 01:51:58] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 01:52:00] [AutoResearch] Launching trial 13: {'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:39] [AutoResearch] Trial 13 finished in 1178.6s, returncode=0
 [2026-04-14 02:11:39] [AutoResearch] Trial 13: mean_reward=554.1497 std_reward=0.6798
 [2026-04-14 02:11:39] [AutoResearch] === Trial 13 Summary ===
 [2026-04-14 02:11:39]   Total Phase 1 runs: 14
 [2026-04-14 02:11:39]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-14 02:11:39]   Top 5:
 [2026-04-14 02:11:39]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:39]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:39]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:39]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:39]     mean_reward=254.5237  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0010511079430656864, 'timesteps': 43721, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:41] 
 [AutoResearch] ========== Trial 14/20 ==========
 [2026-04-14 02:11:41] [AutoResearch] GP UCB top-5 candidates:
 [2026-04-14 02:11:41]   UCB=3.8565 mu=3.3618 sigma=0.2474 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363}
 [2026-04-14 02:11:41]   UCB=3.8260 mu=2.9123 sigma=0.4569 params={'n_steer': 5, 'n_throttle': 4, 'learning_rate': 0.0013832798966787621, 'timesteps': 31597}
 [2026-04-14 02:11:41]   UCB=3.7375 mu=2.3587 sigma=0.6894 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0015349955513377042, 'timesteps': 30143}
 [2026-04-14 02:11:41]   UCB=3.5605 mu=2.1382 sigma=0.7112 params={'n_steer': 5, 'n_throttle': 2, 'learning_rate': 0.0016075091237935828, 'timesteps': 28899}
 [2026-04-14 02:11:41]   UCB=3.4807 mu=2.0449 sigma=0.7179 params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.0016759018515103408, 'timesteps': 24723}
 [2026-04-14 02:11:41] [AutoResearch] Proposed: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:11:43] [AutoResearch] Launching trial 14: {'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:37] [AutoResearch] Trial 14 finished in 1554.4s, returncode=0
 [2026-04-14 02:37:37] [AutoResearch] Trial 14: mean_reward=1097.1248 std_reward=7.4952
 [2026-04-14 02:37:37] [AutoResearch] === Trial 14 Summary ===
 [2026-04-14 02:37:37]   Total Phase 1 runs: 15
 [2026-04-14 02:37:37]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-14 02:37:37]   Top 5:
 [2026-04-14 02:37:37]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:37]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:37]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:37]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:37]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:39] 
 [AutoResearch] ========== Trial 15/20 ==========
 [2026-04-14 02:37:39] [AutoResearch] GP UCB top-5 candidates:
 [2026-04-14 02:37:39]   UCB=3.2403 mu=2.2411 sigma=0.4996 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0012917341170092288, 'timesteps': 26533}
 [2026-04-14 02:37:39]   UCB=3.1868 mu=2.3620 sigma=0.4124 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0012706749484726841, 'timesteps': 27506}
 [2026-04-14 02:37:39]   UCB=2.9618 mu=1.6583 sigma=0.6517 params={'n_steer': 3, 'n_throttle': 3, 'learning_rate': 0.0013973166077409632, 'timesteps': 22341}
 [2026-04-14 02:37:39]   UCB=2.9498 mu=2.1386 sigma=0.4056 params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0013031109426836762, 'timesteps': 32608}
 [2026-04-14 02:37:39]   UCB=2.8763 mu=2.3716 sigma=0.2524 params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011925266986504122, 'timesteps': 31551}
 [2026-04-14 02:37:39] [AutoResearch] Proposed: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0012917341170092288, 'timesteps': 26533, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:37:41] [AutoResearch] Launching trial 15: {'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0012917341170092288, 'timesteps': 26533, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38] [AutoResearch] Trial 15 finished in 1136.8s, returncode=0
 [2026-04-14 02:56:38] [AutoResearch] Trial 15: mean_reward=109.7097 std_reward=1.6652
 [2026-04-14 02:56:38] [AutoResearch] === Trial 15 Summary ===
 [2026-04-14 02:56:38]   Total Phase 1 runs: 16
 [2026-04-14 02:56:38]   Champion: trial=5 mean_reward=4582.7984 params={'n_steer': 7, 'n_throttle': 3, 'learning_rate': 0.0006801262090358742, 'timesteps': 4787, 'agent': 'ppo', 'eval_episodes': 3, 'reward_shaping': True}
 [2026-04-14 02:56:38]   Top 5:
 [2026-04-14 02:56:38]     mean_reward=2296.1891  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0011680072988353367, 'timesteps': 34177, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=1382.4461  params={'n_steer': 4, 'n_throttle': 3, 'learning_rate': 0.0010723485700433605, 'timesteps': 33234, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=1097.1248  params={'n_steer': 5, 'n_throttle': 3, 'learning_rate': 0.001421177467065464, 'timesteps': 33363, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=615.6443  params={'n_steer': 3, 'n_throttle': 4, 'learning_rate': 0.000840799681375933, 'timesteps': 35596, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
 [2026-04-14 02:56:38]     mean_reward=554.1497  params={'n_steer': 4, 'n_throttle': 4, 'learning_rate': 0.0016222563549258791, 'timesteps': 22612, 'agent': 'ppo', 'eval_episodes': 5, 'reward_shaping': True}
--- a/agent/outerloop-results/autoresearch_results_phase2.jsonl
+++ b/agent/outerloop-results/autoresearch_results_phase2.jsonl
@ -9,3 +9,8 @@
 {"trial": 8, "timestamp": "2026-04-14T00:08:12.385350", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 0.0011680072988353367, "timesteps": 34177, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 2296.1891, "std_reward": 14.0346, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0008/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1395.1626331806183, "reward_hacking_suspected": false}
 {"trial": 9, "timestamp": "2026-04-14T00:32:30.628681", "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.0010038571924825726, "timesteps": 29380, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 62.5084, "std_reward": 9.1358, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0009/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1454.230754852295, "reward_hacking_suspected": false}
 {"trial": 10, "timestamp": "2026-04-14T00:56:14.762140", "params": {"n_steer": 3, "n_throttle": 3, "learning_rate": 0.0011311496831886009, "timesteps": 35197, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 144.7129, "std_reward": 26.0347, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0010/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1420.1210803985596, "reward_hacking_suspected": false}
 {"trial": 11, "timestamp": "2026-04-14T01:26:38.486430", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 0.0014246268134911666, "timesteps": 38210, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 114.5364, "std_reward": 4.0149, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0011/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1818.1938319206238, "reward_hacking_suspected": false}
 {"trial": 12, "timestamp": "2026-04-14T01:51:56.733789", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 0.0010723485700433605, "timesteps": 33234, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 1382.4461, "std_reward": 8.1109, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0012/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1514.2335290908813, "reward_hacking_suspected": false}
 {"trial": 13, "timestamp": "2026-04-14T02:11:39.342919", "params": {"n_steer": 4, "n_throttle": 4, "learning_rate": 0.0016222563549258791, "timesteps": 22612, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 554.1497, "std_reward": 0.6798, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0013/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1178.5945281982422, "reward_hacking_suspected": false}
 {"trial": 14, "timestamp": "2026-04-14T02:37:37.784511", "params": {"n_steer": 5, "n_throttle": 3, "learning_rate": 0.001421177467065464, "timesteps": 33363, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 1097.1248, "std_reward": 7.4952, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0014/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1554.4287102222443, "reward_hacking_suspected": false}
 {"trial": 15, "timestamp": "2026-04-14T02:56:38.611952", "params": {"n_steer": 4, "n_throttle": 3, "learning_rate": 0.0012917341170092288, "timesteps": 26533, "agent": "ppo", "eval_episodes": 5, "reward_shaping": true}, "mean_reward": 109.7097, "std_reward": 1.6652, "model_path": "/home/paulh/projects/donkeycar-rl-autoresearch/agent/models/trial-0015/model.zip", "champion": false, "run_status": "ok", "elapsed_sec": 1136.815062046051, "reward_hacking_suspected": false}