fishaudio/ace-step-1.5 🔢📝✓❓ → 🖼️

▶️ 18.8K runs 📅 Mar 2026 ⚙️ Cog 0.16.12

music-generation text-to-audio

About

Ace Step 1.5 open source music generation model

Example Output

Prompt:

"upbeat electronic dance music with heavy bass and synth leads"

Output

Performance Metrics

9.06s Prediction Time

155.10s Total Time

All Input Parameters

{
  "seed": -1,
  "shift": 3,
  "lyrics": "[Instrumental]",
  "prompt": "upbeat electronic dance music with heavy bass and synth leads",
  "duration": 30,
  "thinking": true,
  "key_scale": "",
  "batch_size": 1,
  "audio_format": "mp3",
  "guidance_scale": 7,
  "time_signature": "auto",
  "inference_steps": 8
}

Input Parameters

bpm Type: integerRange: 30 - 300: Beats per minute (30-300). Leave unset for auto-detection by the LM.
seed Type: integerDefault: -1: Random seed for reproducibility. -1 for random.
shift Type: numberDefault: 3Range: 1 - 5: Timestep shift factor. Default 1.0, use 3.0 for turbo model.
lyrics Type: stringDefault: [Instrumental]: Lyrics for the song. Use '[Instrumental]' for instrumental tracks. Max 4096 characters.
prompt Type: stringDefault: upbeat electronic dance music with heavy bass and synth leads: Short text describing the desired music — genre, mood, instruments, style. Max 512 characters.
duration Type: numberDefault: 30Range: -1 - 600: Target audio length in seconds. Set to -1 for auto.
thinking Type: booleanDefault: true: Enable LM chain-of-thought reasoning for metadata, caption, and language detection.
key_scale Type: stringDefault:: Musical key and scale (e.g. 'C major', 'F# minor', 'Bb major'). Leave empty for auto.
batch_size Type: integerDefault: 1Range: 1 - 4: Number of songs to generate in parallel.
audio_format Default: mp3: Output audio format.
guidance_scale Type: numberDefault: 7Range: 1 - 15: CFG strength. Only used by base/SFT models — ignored by turbo. Higher = follows prompt more strictly.
time_signature Default: auto: Time signature: 2 for 2/4, 3 for 3/4, 4 for 4/4, 6 for 6/8. Use 'auto' for auto-detection.
inference_steps Type: integerDefault: 8Range: 1 - 200: Number of diffusion steps. Turbo model: 4-8 recommended. Base/SFT: 32-100.

Output Schema

Output

Type: array • Items Type: string • Items Format: uri

Example Execution Logs

2026-03-05 07:22:19.713 | INFO     | acestep.inference:generate_music:404 - [generate_music] LLM usage decision: thinking=True, use_cot_caption=True, use_cot_language=True, use_cot_metas=True, need_lm_for_cot=True, llm_initialized=True, use_lm=True
2026-03-05 07:22:19.713 | INFO     | acestep.inference:generate_music:462 - LM chunk 1/1 (infer_type=llm_dit) (size: 1, seeds: [717934753])
2026-03-05 07:22:19.713 | INFO     | acestep.llm_inference:generate_with_stop_condition:1222 - Phase 1: Generating CoT metadata...
2026-03-05 07:22:19.731 | INFO     | acestep.llm_inference:generate_with_stop_condition:1228 - generate_with_stop_condition: formatted_prompt=<|im_start|>system
# Instruction
Generate audio semantic tokens based on the given conditions:
<|im_end|>
<|im_start|>user
# Caption
upbeat electronic dance music with heavy bass and synth leads
# Lyric
[Instrumental]
<|im_end|>
<|im_start|>assistant
2026-03-05 07:22:23.535 | DEBUG    | acestep.llm_inference:parse_lm_output:2566 - Debug output text: <think>
bpm: 130
caption: An energetic progressive trance track driven by layers of bright, arpeggiated
synthesizers that create cascading melodic lines over lush atmospheric pads. A powerful
four-on-the-floor kick drum and crisp electronic percussion establish an insistent,
driving rhythm from the very beginning. The arrangement follows a classic EDM structure
with dynamic builds featuring filter sweeps and risers leading into euphoric drops
where all elements converge for maximum impact. A mid-song breakdown strips away
the beat to feature ambient textures before rebuilding tension towards a final climactic
section.
duration: 30
keyscale: C major
language: unknown
timesignature: 4
<|im_end|>
2026-03-05 07:22:23.535 | INFO     | acestep.llm_inference:generate_with_stop_condition:1270 - Phase 1 completed in 3.82s. Generated metadata: ['bpm', 'caption', 'duration', 'keyscale', 'language', 'timesignature']
2026-03-05 07:22:23.535 | INFO     | acestep.llm_inference:generate_with_stop_condition:1313 - Phase 2: Generating audio codes...
2026-03-05 07:22:23.538 | INFO     | acestep.llm_inference:generate_with_stop_condition:1321 - generate_with_stop_condition: formatted_prompt_with_cot=<|im_start|>system
# Instruction
Generate audio semantic tokens based on the given conditions:
<|im_end|>
<|im_start|>user
# Caption
upbeat electronic dance music with heavy bass and synth leads
# Lyric
[Instrumental]
<|im_end|>
<|im_start|>assistant
<think>
bpm: 130
caption: An energetic progressive trance track driven by layers of bright, arpeggiated
synthesizers that create cascading melodic lines over lush atmospheric pads. A powerful
four-on-the-floor kick drum and crisp electronic percussion establish an insistent,
driving rhythm from the very beginning. The arrangement follows a classic EDM structure
with dynamic builds featuring filter sweeps and risers leading into euphoric drops
where all elements converge for maximum impact. A mid-song breakdown strips away
the beat to feature ambient textures before rebuilding tension towards a final climactic
section.
duration: 30
keyscale: C major
language: unknown
timesignature: 4
</think>
<|im_end|>
2026-03-05 07:22:27.028 | DEBUG    | acestep.llm_inference:parse_lm_output:2566 - Debug output text: <|audio_code_25665|><|audio_code_42112|><|audio_code_51282|><|audio_code_58706|><|audio_code_15261|><|audio_code_11018|><|audio_code_13173|><|audio_code_18|><|audio_code_19128|><|audio_code_51226|><|audio_code_27889|><|audio_code_51972|><|audio_code_33426|><|audio_code_58092|><|audio_code_35859|><|audio_code_18081|><|audio_code_59616|><|audio_code_14561|><|audio_code_1273|><|audio_code_29818|><|audio_code_47417|><|audio_code_37435|><|audio_code_45712|><|audio_code_32923|><|audio_code_53562|><|audio_code_61380|><|audio_code_62146|><|audio_code_13177|><|audio_code_51283|><|audio_code_39656|><|audio_code_51478|><|audio_code_14579|><|audio_code_5071|><|audio_code_13695|><|audio_code_22851|><|audio_code_3699|><|audio_code_25488|><|audio_code_1669|><|audio_code_40396|><|audio_code_22293|><|audio_code_47420|><|audio_code_12618|><|audio_code_34435|><|audio_code_51984|><|audio_code_35594|><|audio_code_2452|><|audio_code_34281|><|audio_code_61837|><|audio_code_39280|><|audio_code_28444|><|audio_code_8850|><|audio_code_58844|><|audio_code_21314|><|audio_code_5618|><|audio_code_14652|><|audio_code_29953|><|audio_code_52916|><|audio_code_17760|><|audio_code_22358|><|audio_code_46051|><|audio_code_10221|><|audio_code_46971|><|audio_code_13064|><|audio_code_48850|><|audio_code_27591|><|audio_code_14590|><|audio_code_56772|><|audio_code_50887|><|audio_code_63984|><|audio_code_15230|><|audio_code_31169|><|audio_code_5590|><|audio_code_23765|><|audio_code_12225|><|audio_code_10460|><|audio_code_29148|><|audio_code_63310|><|audio_code_1733|><|audio_code_40428|><|audio_code_9407|><|audio_code_4549|><|audio_code_4766|><|audio_code_30670|><|audio_code_31969|><|audio_code_40657|><|audio_code_12130|><|audio_code_52675|><|audio_code_23530|><|audio_code_20802|><|audio_code_34089|><|audio_code_16577|><|audio_code_39130|><|audio_code_53595|><|audio_code_63883|><|audio_code_47609|><|audio_code_23346|><|audio_code_32953|><|audio_code_51865|><|audio_code_15113|><|audio_code_8586|><|audio_code_23995|><|audio_code_46466|><|audio_code_22351|><|audio_code_45881|><|audio_code_40406|><|audio_code_56051|><|audio_code_61925|><|audio_code_33455|><|audio_code_34181|><|audio_code_10647|><|audio_code_13664|><|audio_code_39278|><|audio_code_7995|><|audio_code_462|><|audio_code_1575|><|audio_code_29106|><|audio_code_2279|><|audio_code_29552|><|audio_code_52159|><|audio_code_24253|><|audio_code_932|><|audio_code_51186|><|audio_code_49074|><|audio_code_20155|><|audio_code_15634|><|audio_code_15122|><|audio_code_3914|><|audio_code_22002|><|audio_code_34235|><|audio_code_26344|><|audio_code_21035|><|audio_code_32855|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_35847|><|audio_code_62151|><|audio_code_33807|><|audio_code_35847|><|im_end|>
2026-03-05 07:22:27.028 | INFO     | acestep.llm_inference:generate_with_stop_condition:1479 - Phase 2 completed in 3.49s. Generated 150 audio codes
2026-03-05 07:22:27.028 | INFO     | acestep.core.generation.handler.generate_music:generate_music:164 - [generate_music] Starting generation...
2026-03-05 07:22:27.028 | INFO     | acestep.core.generation.handler.generate_music:generate_music:167 - [generate_music] Preparing inputs...
2026-03-05 07:22:27.032 | INFO     | acestep.core.generation.handler.generate_music:_vram_preflight_check:70 - [generate_music] VRAM pre-flight: 21.11 GB free, ~1.10 GB needed (batch=1, duration=30s, mode=base).
2026-03-05 07:22:27.032 | INFO     | acestep.core.generation.handler.progress:_start_diffusion_progress_estimator:179 - [progress] No timing history — using fallback estimate (2.5s/step for batch_size=1).  This will self-calibrate after the first generation.
2026-03-05 07:22:27.039 | INFO     | acestep.core.generation.handler.conditioning_target:_prepare_target_latents_and_wavs:41 - [generate_music] Decoding audio codes for item 0...
2026-03-05 07:22:27.155 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_precomputed_lm_hints:31 - [generate_music] Decoding audio codes for LM hints for item 0...
2026-03-05 07:22:27.157 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:85 -
======================================================================
2026-03-05 07:22:27.157 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:86 - 🔍 [DEBUG] DiT TEXT ENCODER INPUT (Inference)
2026-03-05 07:22:27.157 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:87 - ======================================================================
2026-03-05 07:22:27.157 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:88 - text_prompt:
# Instruction
Generate audio semantic tokens based on the given conditions:
# Caption
An energetic progressive trance track driven by layers of bright, arpeggiated synthesizers that create cascading melodic lines over lush atmospheric pads. A powerful four-on-the-floor kick drum and crisp electronic percussion establish an insistent, driving rhythm from the very beginning. The arrangement follows a classic EDM structure with dynamic builds featuring filter sweeps and risers leading into euphoric drops where all elements converge for maximum impact. A mid-song breakdown strips away the beat to feature ambient textures before rebuilding tension towards a final climactic section.
# Metas
- bpm: 130
- timesignature: 4
- keyscale: C major
- duration: 30 seconds
<|endoftext|>
2026-03-05 07:22:27.158 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:89 - ======================================================================
2026-03-05 07:22:27.158 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:90 - lyrics_text:
# Languages
unknown
# Lyric
[Instrumental]<|endoftext|>
2026-03-05 07:22:27.158 | INFO     | acestep.core.generation.handler.conditioning_text:_prepare_text_conditioning_inputs:91 - ======================================================================
2026-03-05 07:22:27.161 | INFO     | acestep.core.generation.handler.conditioning_embed:preprocess_batch:110 - [preprocess_batch] Inferring prompt embeddings...
2026-03-05 07:22:27.177 | INFO     | acestep.core.generation.handler.conditioning_embed:preprocess_batch:113 - [preprocess_batch] Inferring lyric embeddings...
2026-03-05 07:22:27.177 | INFO     | acestep.core.generation.handler.service_generate_execute:_execute_service_generate_diffusion:120 - [service_generate] Generating audio... (DiT backend: PyTorch (cuda))
Using precomputed LM hints
2026-03-05 07:22:27.205 | INFO     | acestep.core.generation.handler.service_generate_execute:_execute_service_generate_diffusion:200 - [service_generate] DiT diffusion via PyTorch (cuda)...
Using precomputed LM hints
2026-03-05 07:22:27.655 | INFO     | acestep.core.generation.handler.generate_music_decode:_prepare_generate_music_decode_state:41 - [generate_music] Model generation completed. Decoding latents...
2026-03-05 07:22:27.656 | DEBUG    | acestep.core.generation.handler.generate_music_decode:_prepare_generate_music_decode_state:63 - [generate_music] pred_latents: torch.Size([1, 750, 64]), dtype=torch.bfloat16
2026-03-05 07:22:27.656 | DEBUG    | acestep.core.generation.handler.generate_music_decode:_prepare_generate_music_decode_state:64 - [generate_music] time_costs: {'encoder_time_cost': 0.008742570877075195, 'diffusion_time_cost': 0.4407994747161865, 'diffusion_per_step_time_cost': 0.055099934339523315, 'total_time_cost': 0.4495420455932617, 'offload_time_cost': 0.0}
2026-03-05 07:22:27.656 | INFO     | acestep.core.generation.handler.generate_music_decode:_decode_generate_music_pred_latents:118 - [generate_music] Decoding latents with VAE...
2026-03-05 07:22:27.791 | DEBUG    | acestep.core.generation.handler.generate_music_decode:_decode_generate_music_pred_latents:127 - [generate_music] Before VAE decode: allocated=13.77GB, max=22.64GB
2026-03-05 07:22:27.792 | INFO     | acestep.core.generation.handler.generate_music_decode:_decode_generate_music_pred_latents:145 - [generate_music] Effective free VRAM before VAE decode: 27.56 GB
2026-03-05 07:22:27.792 | INFO     | acestep.core.generation.handler.generate_music_decode:_decode_generate_music_pred_latents:163 - [generate_music] Using tiled VAE decode to reduce VRAM usage...
2026-03-05 07:22:27.792 | DEBUG    | acestep.core.generation.handler.memory_utils:_get_auto_decode_chunk_size:75 - [_get_auto_decode_chunk_size] Effective free VRAM: 27.56 GB
2026-03-05 07:22:27.792 | DEBUG    | acestep.core.generation.handler.memory_utils:_should_offload_wav_to_cpu:98 - [_should_offload_wav_to_cpu] Effective free VRAM: 27.56 GB
2026-03-05 07:22:27.792 | INFO     | acestep.core.generation.handler.vae_decode:tiled_decode:56 - [tiled_decode] chunk_size=512, offload_wav_to_cpu=False, latents_shape=torch.Size([1, 64, 750])
2026-03-05 07:22:27.941 | DEBUG    | acestep.core.generation.handler.generate_music_decode:_decode_generate_music_pred_latents:185 - [generate_music] After VAE decode: allocated=13.94GB, max=22.64GB
2026-03-05 07:22:27.999 | INFO     | acestep.core.generation.handler.generate_music_payload:_build_generate_music_success_payload:35 - [generate_music] VAE decode completed. Preparing audio tensors...
2026-03-05 07:22:27.999 | INFO     | acestep.core.generation.handler.generate_music_payload:_build_generate_music_success_payload:45 - [generate_music] Done! Generated 1 audio tensors.
2026-03-05 07:22:28.005 | INFO     | acestep.inference:generate_music:677 - [Normalization] Audio 0 BEFORE: Peak=1.0000, Target=-1.0dB
2026-03-05 07:22:28.007 | INFO     | acestep.inference:generate_music:682 - [Normalization] Audio 0 AFTER: Peak=0.8913
2026-03-05 07:22:28.758 | DEBUG    | acestep.audio_utils:save_audio:190 - [AudioSaver] Saved audio to /tmp/tmp1ejv6ue4/49504c0c-78f2-24b2-c248-918b31d8922c.mp3 (mp3, 48000Hz)

Version Details

Version ID: 74e3a7d383b18815e277de5223f5fe9d53d38832de15aa567fe729fa129d0d85
Version Created: March 5, 2026

Run on Replicate →