tarekmurad
/

MiniCPM-o-2_6

Model card Files Files and versions

yuzaa commited on Jan 16

Commit

1a8f0e8

·

1 Parent(s): ed1a0dc

add omni case for inference

Files changed (3) hide show

.gitattributes +1 -0
README.md +6 -1
assets/Skiing.mp4 +3 -0

.gitattributes CHANGED Viewed

@@ -37,3 +37,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *jpg filter=lfs diff=lfs merge=lfs -text
 *gif filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text

 *jpg filter=lfs diff=lfs merge=lfs -text
 *gif filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text
+assets/Skiing.mp4 filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1029,7 +1029,7 @@ def get_video_chunk_content(video_path, flatten=True):
     return contents
-video_path="/path/to/video"
 # if use voice clone prompt, please set ref_audio
 ref_audio_path = 'assets/demo.wav'
 ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)
@@ -1060,6 +1060,11 @@ res = model.chat(
     return_dict=True
 )
 print(res)
 ```
 #### Streaming inference
 ```python

     return contents
+video_path="assets/Skiing.mp4"
 # if use voice clone prompt, please set ref_audio
 ref_audio_path = 'assets/demo.wav'
 ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)
     return_dict=True
 )
 print(res)
+## You will get the answer: The person in the picture is skiing down a snowy slope.
+# import IPython
+# IPython.display.Audio('output.wav')
 ```
 #### Streaming inference
 ```python

assets/Skiing.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:479ace116d6ac92487ad90f415b3ef817cd019bba4521043ef0d5faaa1a8415d
+size 8534409