Staged Training Report - multiheight_deconly

Configuration

No config defaults changed since last commit.

All Staged Training Parameters (72 parameters)

Parameter	Value
`total_samples`	10000000
`batch_size`	8
`stage_samples_multiplier`	100000000000
`update_interval`	250
`window_size`	100
`num_best_models_to_keep`	1
`sampling_mode`	Loss-weighted
`loss_weight_temperature`	0.5
`loss_weight_refresh_interval`	50
`stop_on_divergence`	True
`divergence_gap`	0.002
`divergence_ratio`	1.5
`divergence_patience`	30
`divergence_min_updates`	10
`val_spike_threshold`	2.0
`val_spike_window`	15
`val_spike_frequency`	0.75
`val_plateau_patience`	250
`val_plateau_min_delta`	0.0001
`custom_lr`	1e-05
`disable_lr_scaling`	True
`custom_warmup`	-1
`lr_min_ratio`	0.001
`resume_warmup_ratio`	0.05
`plateau_factor`	0.8
`plateau_patience`	15
`preserve_optimizer`	False
`preserve_scheduler`	True
`samples_mode`	Train additional samples
`num_random_obs_to_visualize`	2
`selected_frame_offset`	3
`runs_per_stage`	1
`serial_runs`	True
`clean_old_checkpoints`	True
`enable_baseline`	False
`baseline_runs_per_stage`	1
`run_id`	multiheight_deconly_run7
`seed`	42
`enable_wandb`	True
`wandb_project`	developmental-robot-movement
`lr_sweep.lr_min`	1e-07
`lr_sweep.lr_max`	0.01
`lr_sweep.phase_a_num_candidates`	5
`lr_sweep.phase_a_seeds`	1
`lr_sweep.phase_a_time_budget_min`	3.0
`lr_sweep.phase_a_survivor_count`	2
`lr_sweep.phase_b_seeds`	3
`lr_sweep.phase_b_time_budget_min`	10.0
`lr_sweep.ranking_metric`	median_best_val
`lr_sweep.min_samples_before_timeout`	1000
`lr_sweep.min_evals_before_stop`	5
`lr_sweep.save_sweep_state`	True
`plateau_sweep.enabled`	False
`plateau_sweep.plateau_ema_alpha`	0.85
`plateau_sweep.plateau_improvement_threshold`	0.0015
`plateau_sweep.plateau_patience`	25
`plateau_sweep.cooldown_updates`	5
`plateau_sweep.max_sweeps_per_stage`	2
`plateau_sweep.min_sweep_improvement`	0.0
`initial_sweep_enabled`	False
`stage_time_budget_min`	180
`max_workers`	None
`model_type`	None
`vae_type`	None
`vae_checkpoint`	None
`dit_embed_dim`	None
`dit_depth`	None
`dit_num_heads`	None
`dit_prediction_type`	None
`dit_num_train_timesteps`	None
`dit_num_inference_steps`	None
`dit_beta_schedule`	None

World Model Architecture (config.py)

Parameter	Value
`AUTOENCODER_LR`	0.0003
`BATCH_SIZE`	1
`CANVAS_HISTORY_SIZE`	3
`DECODER_DEPTH`	12
`DECODER_EMBED_DIM`	256
`DECODER_NUM_HEADS`	8
`DINOV2_VARIANT`	vitb14
`DIT_BETA_END`	0.02
`DIT_BETA_SCHEDULE`	linear
`DIT_BETA_START`	0.0001
`DIT_DEPTH`	12
`DIT_EMBED_DIM`	256
`DIT_LATENT_PATCH_SIZE`	2
`DIT_NUM_HEADS`	4
`DIT_NUM_INFERENCE_STEPS`	50
`DIT_NUM_TRAIN_TIMESTEPS`	1000
`DIT_PREDICTION_TYPE`	epsilon
`DIT_TRAINING_MODE`	unconditional
`ENCODER_DEPTH`	5
`ENCODER_EMBED_DIM`	512
`ENCODER_NUM_HEADS`	8
`FOCAL_BETA`	5
`FOCAL_LOSS_ALPHA`	1.0
`FRAME_SIZE`	(224, 224)
`GRADIO_UPDATE_INTERVAL`	1
`LR_MIN_RATIO`	0.001
`MODEL_TYPE`	decoder_only
`PATCH_SIZE`	16
`PERCEPTUAL_LOSS_WEIGHT`	0.01
`SEPARATOR_WIDTH`	32
`VAE_CHECKPOINT`	None
`VAE_COMPRESSION_FACTOR`	8
`VAE_LATENT_CHANNELS`	4
`VAE_MODE`	vae
`VAE_TYPE`	pretrained_sd
`WARMUP_STEPS`	1000
`WEIGHT_DECAY`	0.01
`MASK_RATIO_MIN`	1
`MASK_RATIO_MAX`	1
`TRAIN_MASK_RATIO_MIN`	1.0
`TRAIN_MASK_RATIO_MAX`	1.0

Stage	Plateau Sweeps	Sweep Time	Training Time	Stage Total
Stage 1	0	00:00:00	00:05:10	00:05:10
TOTAL	0	00:00:00	00:05:10	00:05:10

Staged Training Report ✓ Complete

Configuration

Timing Summary

Stage Results

Stop Reason Breakdown

Loss Across Full Training Run

Best Checkpoint

Learning Rate Timeline with Plateau Sweeps

Stage Progression

Hybrid Loss Over Original Session (per Stage)

Stage 1 (Best) - Hybrid Loss: 0.009178

Sample Counts

Cumulative Across All Stages

Per Stage

Stage 1 (Best) - Total Samples: 18,176

Best Checkpoint Inference

Selected Frame 3

Action 0

Action 1

Action 2

Random Observations

Observation 645

Observation 704

Individual Stage Reports