donkeycar-rl-autoresearch

ca748c504a chore(models): add exp24/exp25 training logs master Paul Huliganga 2026-05-14 15:32:59 -0400
147198e681 docs(handoff): update for exp27 running state, document all session fixes Paul Huliganga 2026-05-14 15:32:49 -0400
1d53bf613f feat(exp29): fine-tune wave4-trial-0009 on generated track (continuous actions) Paul Huliganga 2026-05-14 15:32:43 -0400
ee91b8f9a3 feat(exp28): fine-tune exp26 best_model on generated-track with variable throttle Paul Huliganga 2026-05-14 15:32:37 -0400
36be93e357 feat(exp27): random roads with variable throttle + road regen + self-intersection fix Paul Huliganga 2026-05-14 15:32:32 -0400
0615b22cb9 feat(eval): cross-model evaluation scripts for exp24/25/26 + gentrack→minimonaco Paul Huliganga 2026-05-14 15:32:21 -0400
8de4838c6b feat(exp26): warm-start training from exp25 best_model (300k steps) Paul Huliganga 2026-05-14 15:32:16 -0400
c62fba40b2 fix(agent): explicit hit backstop in StuckTermination + eval diagnostics Paul Huliganga 2026-05-14 15:32:10 -0400
3c2b678771 chore: add CLAUDE.md project instructions + exclude .chat/ from git Paul Huliganga 2026-05-14 15:32:04 -0400
dbc09d12d1 fix(stuck): add CTE-based termination + tighten speed check Paul Huliganga 2026-05-05 23:13:44 -0400
bb889ab4a1 docs(handoff): exp24 complete, exp25 running with wheel fix Paul Huliganga 2026-05-05 22:13:57 -0400
f784fdebd1 feat(exp25): wheel OverlapSphere collision fix + auto-transition Paul Huliganga 2026-05-05 20:28:31 -0400
c6a18e7fee chore(exp24): launch exp24, fix logging setup, update handoff Paul Huliganga 2026-05-05 20:12:36 -0400
78d81827b7 docs(handoff): update SESSION_HANDOFF for exp24 readiness Paul Huliganga 2026-05-05 17:59:32 -0400
0d1acf8cdc feat(exp24): road regeneration between segments + fix Car.cs raycast Paul Huliganga 2026-05-05 17:58:33 -0400
924615ca60 feat(exp24): discrete steering + speed-based stuck detection Paul Huliganga 2026-05-05 17:41:42 -0400
c05e79d30c fix(exp23): invisible barriers + single-instance guard Paul Huliganga 2026-05-05 16:07:32 -0400
75f7857250 chore(exp23): launched — clean barriers verified, training started Paul Huliganga 2026-05-05 16:04:21 -0400
2d52bb4ffc fix(core): replace exploit bandaids with solid physics barriers + clean reward Paul Huliganga 2026-05-05 15:56:00 -0400
c5c4ca658e chore(exp22): update wedgefix run log — training stopped for strategy rethink Paul Huliganga 2026-05-05 15:36:18 -0400
138c65270f feat(exp22): add solid-hit/wedge/high-CTE exploit fixes and generated-pair warm experiments Paul Huliganga 2026-05-05 14:46:13 -0400
04d5a10992 fix: exp19 — hard episode time limit to stop minutes-long stuck cars Paul Huliganga 2026-04-28 09:18:04 -0400
7fdfbacaee fix: exp18 — fix circular exploit in parallel training (window=200, min_lap=12s) Paul Huliganga 2026-04-28 09:00:42 -0400
b504b89b2a feat: add exp17 parallel DummyVecEnv 450k training + strategy docs Paul Huliganga 2026-04-28 02:42:20 -0400
6e2427571a docs: record failed cross-track warm-start transfer experiments exp15 and exp16 Paul Huliganga 2026-04-20 20:18:08 -0400
a8aef52f00 fix: force scene reset before exp15 generated-track warm-start so sim actually loads generated_track Paul Huliganga 2026-04-20 16:36:00 -0400
84061c01b2 feat: add cross-track warm-start experiments for mountain->generated and generated->mountain Paul Huliganga 2026-04-20 16:34:24 -0400
0da04327ef docs: capture robust mountain finetune winner at 36k and preserve eval comparison Paul Huliganga 2026-04-20 00:43:27 -0400
2b90de2fba fix: import json, use make_env_base in phase switch, and run eval sequentially to avoid second concurrent sim car Paul Huliganga 2026-04-19 20:37:25 -0400
f3c89116ee fix: exp14 finetune eval uses make_env_base (runtime throttle floor) instead of removed make_env Paul Huliganga 2026-04-19 20:30:51 -0400
6c5623e881 fix: exp14 finetune load warm-start model without temp env to prevent second spawned car Paul Huliganga 2026-04-19 20:24:33 -0400
0c3a37f877 fix: close temporary loaded_env after loading warm-start model to avoid leaving extra TCP vehicle Paul Huliganga 2026-04-19 20:17:29 -0400
38dd5e9b1d fix: ensure lr_schedule callable set when loading warm-start model (use get_schedule_fn) and update optimizer LR Paul Huliganga 2026-04-19 20:14:35 -0400
eb92d119f9 fix: keep action-space matching by loading model with base throttle 0.2 and applying runtime throttle_floor wrapper for phase1 Paul Huliganga 2026-04-19 20:10:19 -0400
41d12dede2 fix: load warm-start with original action space (throttle_min=0.2), then switch env for phase1 throttle Paul Huliganga 2026-04-19 20:09:08 -0400
bc23a316e0 exp14 finetune: warm-start mountain champion, throttle schedule 0.4->0.2, LR=2e-4, checkpoints and evals Paul Huliganga 2026-04-19 20:08:14 -0400
b1ec14e3cb fix: exp14 — proper track switch via exit_scene before connecting to mountain_track Paul Huliganga 2026-04-19 19:18:33 -0400
1405a88699 feat: Exp 14 — mountain_track, v5 reward, lap-based stopping Paul Huliganga 2026-04-19 19:15:00 -0400
5a1693b4ec feat: Exp 13 — generated_track, v4 reward, back to basics (no extra heuristics) Paul Huliganga 2026-04-19 17:33:17 -0400
9ffe1c5d40 fix: efficiency gate now TERMINATES after 20 low-efficiency steps (was zero-reward only) Paul Huliganga 2026-04-19 17:26:38 -0400
813f888502 fix: reward v6.1 — active_node progress terminator kills circle/stuck exploits Paul Huliganga 2026-04-19 17:01:41 -0400
8b84409e58 fix: StuckTerminationWrapper — wall-clock timeout (12s) prevents 1min+ stuck episodes Paul Huliganga 2026-04-19 16:30:50 -0400
dc563e2b6c fix: exp11d remove progress_patience — grass fix only per ADR-020 Paul Huliganga 2026-04-19 16:18:17 -0400
e95c33c1bf fix: reward v6.1 — grass exploit only (CTE patience terminator) Paul Huliganga 2026-04-19 16:15:39 -0400
f730a2e0ba docs: ADR-020/021 + session log — throttle/hill history and grass exploit root cause Paul Huliganga 2026-04-19 16:14:28 -0400
16bd379e95 feat: Exp 11c — parallel DummyVecEnv + v6 reward, extended to 250k steps Paul Huliganga 2026-04-19 13:27:38 -0400
0993d4f1e7 docs: Exp 11 + 11b results — parallel envs work, v6 prevents circles, but plateaus at ~194 steps Paul Huliganga 2026-04-19 13:26:29 -0400
91ce8fc1fa feat: Exp 11b — parallel DummyVecEnv + v6 reward (anti-circle gate) + built-in eval Paul Huliganga 2026-04-19 12:03:46 -0400
beb04f3ebe fix: reward v6 — efficiency gate prevents circular driving, stuck_steps 80→40 Paul Huliganga 2026-04-19 12:02:55 -0400
21addf268e feat: Exp 11 — parallel DummyVecEnv multi-track training (two sim instances) Paul Huliganga 2026-04-19 11:05:22 -0400
86357622e3 docs: session log + ADR-019 — parallel DummyVecEnv for multi-track training Paul Huliganga 2026-04-19 10:50:11 -0400
db1274174f docs: Exp10 vs Exp9 vs Wave4 Trial 9 root cause analysis — random seed lottery Paul Huliganga 2026-04-19 10:29:16 -0400
3d04b53a86 docs: Exp10 eval results — total failure, crashes on all tracks (massive regression from Exp9/W4T9) Paul Huliganga 2026-04-19 10:19:16 -0400
6e9546cd22 save: all experiment scripts moved from /tmp to agent/experiments/ Paul Huliganga 2026-04-18 21:30:08 -0400
de7b9bc302 fix: multitrack_runner must use VecTransposeImage(DummyVecEnv) not plain wrap_env Paul Huliganga 2026-04-18 18:33:40 -0400
fecba1dd35 docs: TEST_HISTORY Exp10 plan added Paul Huliganga 2026-04-18 17:59:07 -0400
b19dcc8b80 feat: run_eval.py — standard eval runner with persistent logging Paul Huliganga 2026-04-18 15:32:36 -0400
eb4fd39056 docs: TEST_HISTORY updated with Exp8 results and Exp9 plan Paul Huliganga 2026-04-18 13:40:45 -0400
041481916d docs: TEST_HISTORY.md — comprehensive record of all experiments Paul Huliganga 2026-04-18 11:18:53 -0400
47d8e5b346 fix: short-lap exploit now TERMINATES the episode, not just penalises Paul Huliganga 2026-04-18 10:42:23 -0400
10719b4ff6 fix: save numbered checkpoint every segment, never overwrite Paul Huliganga 2026-04-17 22:10:37 -0400
fc01057c14 docs: ADR-017 — always save best model, never just latest Paul Huliganga 2026-04-17 16:03:59 -0400
4f77b8a468 fix: always save and return the BEST model, not the last one Paul Huliganga 2026-04-17 14:45:37 -0400
0b5ce6ab7e docs: ARCHITECTURE.md — complete system architecture guide Paul Huliganga 2026-04-17 14:06:38 -0400
b8a13dea81 feat: v5 reward — speed × CTE-quality, drop efficiency term Paul Huliganga 2026-04-17 13:25:38 -0400
a6831459dd docs: STATE.md updated with April 16 test results Paul Huliganga 2026-04-16 20:45:45 -0400
792b6734f7 docs: STATE.md — full project state as of April 16 end of Wave 4 Paul Huliganga 2026-04-16 20:17:41 -0400
619188bf17 wave3: autoresearch trial 25 results Paul Huliganga 2026-04-16 20:01:55 -0400
c8c17e2e46 wave3: autoresearch trial 25 results Paul Huliganga 2026-04-16 20:01:51 -0400
a3a49fbcaf feat: eval_on_track.py — proper zero-shot eval on any track Paul Huliganga 2026-04-16 19:47:56 -0400
a5577fb3e7 feat: shuttle-exploit detection in mini_monaco eval Paul Huliganga 2026-04-16 17:29:30 -0400
96c49dd057 wave3: autoresearch trial 20 results Paul Huliganga 2026-04-16 14:10:06 -0400
45b057e9c1 wave3: autoresearch trial 15 results Paul Huliganga 2026-04-16 08:43:17 -0400
0505de7e63 wave3: autoresearch trial 10 results Paul Huliganga 2026-04-16 03:31:41 -0400
b00f63dfbc fix: save_dir not in scope inside train_multitrack — crashed every trial Paul Huliganga 2026-04-15 22:47:29 -0400
ff8bdd8b8a docs: ADR-013 through ADR-016 — decisions that were lost to context compaction Paul Huliganga 2026-04-15 22:34:48 -0400
a9eed2faa3 fix: restart with verified config + seed GP with overnight 1943 result Paul Huliganga 2026-04-15 22:26:53 -0400
e61ebc5b38 fix: prevent trial timeouts losing all data Paul Huliganga 2026-04-15 21:54:50 -0400
5714a96bfb wave3: autoresearch trial 5 results Paul Huliganga 2026-04-15 17:08:50 -0400
c10e56d894 fix: cap total_timesteps at 120k to prevent 2hr timeout Paul Huliganga 2026-04-15 16:30:07 -0400
f9f6a09744 fix: StuckTerminationWrapper + deque import + 102 tests Paul Huliganga 2026-04-15 09:17:27 -0400
5d1227833d fix: close short-lap circle exploit and cap segment eval episode length Paul Huliganga 2026-04-15 09:06:25 -0400
1be95b7c82 wave3: autoresearch trial 5 results Paul Huliganga 2026-04-15 07:15:57 -0400
860e3d6610 fix: fresh PPO verbose=0 suppressed all training output — set verbose=1 Paul Huliganga 2026-04-14 22:44:22 -0400
7534527722 Wave 4: scratch training on generated_track + mountain_track, zero-shot mini_monaco Paul Huliganga 2026-04-14 22:40:38 -0400
650f893d2d fix: complete LR override — must patch lr_schedule, not just param_groups Paul Huliganga 2026-04-14 21:27:43 -0400
298cd1790a fix: LR override was not reaching the optimizer — all trials ran at 0.000225 Paul Huliganga 2026-04-14 20:37:48 -0400
2a747bb97c wave3: autoresearch trial 5 results Paul Huliganga 2026-04-14 18:22:44 -0400
349396f967 fix: stream runner output in real-time instead of buffering Paul Huliganga 2026-04-14 15:13:10 -0400
7ed2456896 fix: remove Warren from test set — indoor carpet, broken done condition Paul Huliganga 2026-04-14 13:47:28 -0400
86657a26b8 wave3: fix track-switch bug (viewer not raw socket) + shorten trial budgets Paul Huliganga 2026-04-14 13:29:49 -0400
4ca5304a71 wave3: add multi-track autoresearch system (83 tests passing) Paul Huliganga 2026-04-14 12:47:12 -0400
26251c7d0c results: complete multi-track generalization baseline — 1/10 tracks drivable pre-Wave3 Paul Huliganga 2026-04-14 11:31:08 -0400
5a626c87be feat: comprehensive multi-track evaluation script + research log updates Paul Huliganga 2026-04-14 10:11:47 -0400
ce120393af fix: track switching via unwrapped viewer.exit_scene() — automatic scene changes work Paul Huliganga 2026-04-14 10:04:15 -0400
0fbd15a941 eval: multi-track generalization test — all 3 models drive new road + generated track Paul Huliganga 2026-04-14 09:50:28 -0400
e68d618d29 feat: Phase 3 — behavioral control, enhanced evaluator, 53 tests Paul Huliganga 2026-04-14 09:28:43 -0400
cfd1f843a4 autoresearch: phase1 trial 20 results Paul Huliganga 2026-04-14 04:35:49 -0400
5114a95a74 autoresearch: phase1 trial 20 results Paul Huliganga 2026-04-14 04:35:45 -0400
52b8a4a10e autoresearch: phase1 trial 15 results Paul Huliganga 2026-04-14 02:56:38 -0400

Commit Graph Select branches Hide Pull Requests master Mono Color

Commit Graph

Select branches

Hide Pull Requests

master