a8cheng
/

SpatialRGPT-VILA1.5-8B

Model card Files Files and versions

a8cheng commited on Oct 6, 2024

Commit

64df790

·

verified ·

1 Parent(s): 17b6860

Update config.json

Files changed (1) hide show

config.json +6 -6

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed",
   "architectures": [
     "LlavaLlamaModel"
   ],
@@ -11,7 +11,7 @@
   "image_aspect_ratio": "resize",
   "interpolate_mode": "linear",
   "llm_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed/llm",
     "add_cross_attention": false,
     "architectures": [
       "LlamaForCausalLM"
@@ -96,7 +96,7 @@
   },
   "mm_hidden_size": 1152,
   "mm_projector_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed/mm_projector",
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
@@ -170,7 +170,7 @@
   "model_type": "llava_llama",
   "num_video_frames": 8,
   "region_extractor_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed/region_extractor",
     "add_cross_attention": false,
     "architectures": [
       "RegionExtractor"
@@ -235,7 +235,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false
   },
-  "resume_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed",
   "s2": false,
   "s2_max_split_size": 336,
   "s2_scales": "336,672,1008",
@@ -246,7 +246,7 @@
   "tune_vision_tower": true,
   "vision_resolution": -1,
   "vision_tower_cfg": {
-    "_name_or_path": "./checkpoints/vila-siglip-llama3-8b-vila-v1.5-srgpt-sft-fixed/vision_tower",
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"

 {
+  "_name_or_path": "./checkpoints/SpatialRGPT-VILA1.5-8B",
   "architectures": [
     "LlavaLlamaModel"
   ],
   "image_aspect_ratio": "resize",
   "interpolate_mode": "linear",
   "llm_cfg": {
+    "_name_or_path": "./checkpoints/SpatialRGPT-VILA1.5-8B/llm",
     "add_cross_attention": false,
     "architectures": [
       "LlamaForCausalLM"
   },
   "mm_hidden_size": 1152,
   "mm_projector_cfg": {
+    "_name_or_path": "./checkpoints/SpatialRGPT-VILA1.5-8B/mm_projector",
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
   "model_type": "llava_llama",
   "num_video_frames": 8,
   "region_extractor_cfg": {
+    "_name_or_path": "./checkpoints/SpatialRGPT-VILA1.5-8B/region_extractor",
     "add_cross_attention": false,
     "architectures": [
       "RegionExtractor"
     "typical_p": 1.0,
     "use_bfloat16": false
   },
+  "resume_path": "./checkpoints/SpatialRGPT-VILA1.5-8B",
   "s2": false,
   "s2_max_split_size": 336,
   "s2_scales": "336,672,1008",
   "tune_vision_tower": true,
   "vision_resolution": -1,
   "vision_tower_cfg": {
+    "_name_or_path": "./checkpoints/SpatialRGPT-VILA1.5-8B/vision_tower",
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"