donkeycar-rl-autoresearch

6c8c5b25a9 autoresearch: phase1 trial 10 results Paul Huliganga 2026-04-14 00:56:14 -0400
2d6fe2c962 autoresearch: phase1 trial 5 results Paul Huliganga 2026-04-13 22:46:54 -0400
c8a495dd22 fix: reward v4 — full sim bypass kills circular driving at root Paul Huliganga 2026-04-13 20:56:32 -0400
7b8830f0cb milestone: Phase 1 complete — genuine driving confirmed; launch Phase 2 corner learning Paul Huliganga 2026-04-13 19:33:06 -0400
cb82121e98 autoresearch: phase1 trial 50 results Paul Huliganga 2026-04-13 19:18:00 -0400
3cbe4bd26e autoresearch: phase1 trial 50 results Paul Huliganga 2026-04-13 19:17:56 -0400
4c9b68dd47 autoresearch: phase1 trial 40 results Paul Huliganga 2026-04-13 18:15:31 -0400
ed65cf5997 autoresearch: phase1 trial 30 results Paul Huliganga 2026-04-13 17:28:19 -0400
29a45e017b autoresearch: phase1 trial 20 results Paul Huliganga 2026-04-13 16:38:17 -0400
caf91c9fe6 autoresearch: phase1 trial 10 results Paul Huliganga 2026-04-13 16:00:23 -0400
87cff0c9b7 autoresearch: phase1 trial 40 results Paul Huliganga 2026-04-13 15:28:05 -0400
1734e1359e autoresearch: phase1 trial 30 results Paul Huliganga 2026-04-13 15:13:21 -0400
362c616457 autoresearch: phase1 trial 20 results Paul Huliganga 2026-04-13 14:41:55 -0400
cdb7b80494 autoresearch: phase1 trial 10 results Paul Huliganga 2026-04-13 14:07:58 -0400
fcb6ea1ac2 fix: path-efficiency reward (v3) defeats circular driving exploit Paul Huliganga 2026-04-13 13:36:17 -0400
d25bc71008 autoresearch: phase1 trial 10 results Paul Huliganga 2026-04-13 13:11:06 -0400
5e93dae316 fix: hack-proof reward shaping + reward hacking detection + research log Paul Huliganga 2026-04-13 12:27:48 -0400
0c6263352b autoresearch: phase1 trial 10 results Paul Huliganga 2026-04-13 12:01:17 -0400
8c9fd76c68 fix: reduce timesteps to 1k-5k for Phase 1 CPU training; add sim health/stuck detection; fix PPO throttle clamp Paul Huliganga 2026-04-13 11:17:08 -0400
c804189dd0 feat: Wave 1 complete — real PPO training, model save, GP+UCB autoresearch, 37 tests passing Paul Huliganga 2026-04-13 10:03:15 -0400
083326a497 AUTORESEARCH: 300 total trials complete - best mean_reward=141.85 at n_steer=8, n_throttle=5, lr=0.00202 Paul Huliganga 2026-04-13 01:56:06 -0400
3446e5f7c1 AUTORESEARCH: 100 trials complete - best mean_reward=114.56 at n_steer=8, n_throttle=4, lr=0.00208 Paul Huliganga 2026-04-13 01:13:20 -0400
bb9e6d9105 AUTORESEARCH: Full Karpathy-style GP+UCB meta-controller, clean base data, fixed all paths, ready to run Paul Huliganga 2026-04-13 00:52:00 -0400
4a4e61d463 CLEAN: Robust multi-episode RL runner, no legacy save/model logic; outer loop points to project dir runner. Paul Huliganga 2026-04-13 00:28:45 -0400
c98bc7ef38 Initial commit Paul Huliganga 2026-04-12 23:44:36 -0400
2cadd1a78a Initial commit: stable RL sweep runner, legacy and new scripts, full docs included Paul Huliganga 2026-04-12 22:57:50 -0400

Commit Graph Select branches Hide Pull Requests master Mono Color

Commit Graph

Select branches

Hide Pull Requests

master