donkeycar-rl-autoresearch

Commit Graph

Author	SHA1	Message	Date
Paul Huliganga	c804189dd0	feat: Wave 1 complete — real PPO training, model save, GP+UCB autoresearch, 37 tests passing - Rebuilt donkeycar_sb3_runner.py: real PPO/DQN model.learn() + evaluate_policy() + model.save() - Added SpeedRewardWrapper: reward = speed * (1 - \|cte\|/max_cte) - Added ChampionTracker: tracks best model across all trials, writes manifest.json - Rebuilt autoresearch_controller.py: Phase 1 results separated from random-policy data - Added timesteps to GP search space - Added --push-every N for automatic git push - Added 37 passing tests: discretize_action, reward_wrapper, autoresearch_controller, runner_integration - Scaffolded project with agent harness (large mode): PROJECT-SPEC, DECISIONS, IMPLEMENTATION_PLAN, EXECUTION_MASTER - Fixed: model.save() never called before model is defined (was root cause of all prior NameError crashes) - Fixed: random policy replaced with real trained policy evaluation Agent: pi/claude-sonnet Tests: 37/37 passing Tests-Added: +37 TypeScript: N/A	2026-04-13 10:03:15 -04:00

Author

SHA1

Message

Date

Paul Huliganga

c804189dd0

feat: Wave 1 complete — real PPO training, model save, GP+UCB autoresearch, 37 tests passing

- Rebuilt donkeycar_sb3_runner.py: real PPO/DQN model.learn() + evaluate_policy() + model.save()
- Added SpeedRewardWrapper: reward = speed * (1 - |cte|/max_cte)
- Added ChampionTracker: tracks best model across all trials, writes manifest.json
- Rebuilt autoresearch_controller.py: Phase 1 results separated from random-policy data
- Added timesteps to GP search space
- Added --push-every N for automatic git push
- Added 37 passing tests: discretize_action, reward_wrapper, autoresearch_controller, runner_integration
- Scaffolded project with agent harness (large mode): PROJECT-SPEC, DECISIONS, IMPLEMENTATION_PLAN, EXECUTION_MASTER
- Fixed: model.save() never called before model is defined (was root cause of all prior NameError crashes)
- Fixed: random policy replaced with real trained policy evaluation

Agent: pi/claude-sonnet
Tests: 37/37 passing
Tests-Added: +37
TypeScript: N/A

2026-04-13 10:03:15 -04:00

1 Commits