OpenGVLab
/

InternVL2-Llama3-76B

Image-Text-to-Text

feature-extraction

Model card Files Files and versions

czczup commited on Jul 18, 2024

Commit

c35c17f

·

verified ·

1 Parent(s): e6434df

Upload folder using huggingface_hub

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -75,8 +75,8 @@ InternVL 2.0 is a multimodal large language model series, featuring models of va
 |           MVBench           |   -    |   -    |       -        |     72.5      |         69.6         |
 | MMBench-Video<sub>8f</sub>  |  1.62  |  1.53  |      1.30      |     1.32      |         1.37         |
 | MMBench-Video<sub>16f</sub> |  1.86  |  1.68  |      1.60      |     1.45      |         1.52         |
-|    Video-MME<br>w/o subs    |  71.9  |  59.9  |      75.0      |     61.2      |         TODO         |
-|     Video-MME<br>w subs     |  77.2  |  63.3  |      81.3      |     62.4      |         TODO         |
 - We evaluate our models on MVBench and Video-MME by extracting 16 frames from each video, and each frame was resized to a 448x448 image.
@@ -495,8 +495,8 @@ InternVL 2.0 是一个多模态大语言模型系列，包含各种规模的模
 |           MVBench           |   -    |   -    |       -        |     72.5      |         69.6         |
 | MMBench-Video<sub>8f</sub>  |  1.62  |  1.53  |      1.30      |     1.32      |         1.37         |
 | MMBench-Video<sub>16f</sub> |  1.86  |  1.68  |      1.60      |     1.45      |         1.52         |
-|    Video-MME<br>w/o subs    |  71.9  |  59.9  |      75.0      |     61.2      |         TODO         |
-|     Video-MME<br>w subs     |  77.2  |  63.3  |      81.3      |     62.4      |         TODO         |
 - 我们通过从每个视频中提取 16 帧来评估我们的模型在 MVBench 和 Video-MME 上的性能，每个视频帧被调整为 448x448 的图像。

 |           MVBench           |   -    |   -    |       -        |     72.5      |         69.6         |
 | MMBench-Video<sub>8f</sub>  |  1.62  |  1.53  |      1.30      |     1.32      |         1.37         |
 | MMBench-Video<sub>16f</sub> |  1.86  |  1.68  |      1.60      |     1.45      |         1.52         |
+|    Video-MME<br>w/o subs    |  71.9  |  59.9  |      75.0      |     61.2      |         61.2         |
+|     Video-MME<br>w subs     |  77.2  |  63.3  |      81.3      |     62.4      |         62.8         |
 - We evaluate our models on MVBench and Video-MME by extracting 16 frames from each video, and each frame was resized to a 448x448 image.
 |           MVBench           |   -    |   -    |       -        |     72.5      |         69.6         |
 | MMBench-Video<sub>8f</sub>  |  1.62  |  1.53  |      1.30      |     1.32      |         1.37         |
 | MMBench-Video<sub>16f</sub> |  1.86  |  1.68  |      1.60      |     1.45      |         1.52         |
+|    Video-MME<br>w/o subs    |  71.9  |  59.9  |      75.0      |     61.2      |         61.2         |
+|     Video-MME<br>w subs     |  77.2  |  63.3  |      81.3      |     62.4      |         62.8         |
 - 我们通过从每个视频中提取 16 帧来评估我们的模型在 MVBench 和 Video-MME 上的性能，每个视频帧被调整为 448x448 的图像。