gijs
/

audsemthinker

qwen2_5_omni_thinker

auditory-semantics

Model card Files Files and versions

gijs commited on 28 days ago

Commit

34defae

·

verified ·

1 Parent(s): b397a36

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -25,12 +25,12 @@ To use `AudSemThinker` for audio understanding and captioning tasks, you can loa
 ```python
 import soundfile as sf
-from transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor
 from qwen_omni_utils import process_mm_info
 import torchaudio
 # default: Load the model on the available device(s)
-model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
     "gijs/audsemthinker",
     torch_dtype="auto",
     device_map="auto",
@@ -38,7 +38,7 @@ model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
 )
 # We recommend enabling flash_attention_2 for better acceleration and memory saving.
-# model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
 #     "gijs/audsemthinker",
 #     torch_dtype="auto",
 #     device_map="auto",
@@ -46,7 +46,7 @@ model = Qwen2_5OmniForConditionalGeneration.from_pretrained(
 #     trust_remote_code=True
 # )
-processor = Qwen2_5OmniProcessor.from_pretrained("gijs/audsemthinker", trust_remote_code=True)
 # Load and preprocess audio
 audio_file = "path/to/your/audio.wav"
@@ -77,7 +77,7 @@ conversation = [
 # Preparation for inference
 text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
-audios, images, videos = process_mm_info(conversation)
 inputs = processor(
     text=text,
     audio=audios,

 ```python
 import soundfile as sf
+from transformers import Qwen2_5OmniThinkerForConditionalGeneration, Qwen2_5OmniProcessor
 from qwen_omni_utils import process_mm_info
 import torchaudio
 # default: Load the model on the available device(s)
+model = Qwen2_5OmniThinkerForConditionalGeneration.from_pretrained(
     "gijs/audsemthinker",
     torch_dtype="auto",
     device_map="auto",
 )
 # We recommend enabling flash_attention_2 for better acceleration and memory saving.
+# model = Qwen2_5OmniThinkerForConditionalGeneration.from_pretrained(
 #     "gijs/audsemthinker",
 #     torch_dtype="auto",
 #     device_map="auto",
 #     trust_remote_code=True
 # )
+processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B", trust_remote_code=True)
 # Load and preprocess audio
 audio_file = "path/to/your/audio.wav"
 # Preparation for inference
 text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
+audios, images, videos = process_mm_info(conversation, use_audio_in_video=False)
 inputs = processor(
     text=text,
     audio=audios,