{
  "architectures": [
    "FocalNetForMaskedImageModeling"
  ],
  "attention_probs_dropout_prob": 0.0,
  "depths": [
    1,
    2,
    1
  ],
  "drop_path_rate": 0.1,
  "embed_dim": 16,
  "encoder_stride": 8,
  "focal_levels": [
    2,
    2,
    2,
    2
  ],
  "focal_windows": [
    3,
    3,
    3,
    3
  ],
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.0,
  "image_size": 32,
  "initializer_range": 0.02,
  "layer_norm_eps": 1e-05,
  "layerscale_value": 0.0001,
  "mlp_ratio": 2.0,
  "model_type": "focalnet",
  "normalize_modulator": false,
  "num_channels": 3,
  "num_heads": [
    2,
    2,
    4
  ],
  "out_features": [
    "stage1",
    "stage2"
  ],
  "patch_size": 2,
  "path_norm": true,
  "qkv_bias": true,
  "torch_dtype": "float32",
  "transformers_version": "4.29.0.dev0",
  "use_absolute_embeddings": false,
  "use_conv_embed": false,
  "use_layerscale": false,
  "use_post_layernorm": false,
  "use_post_layernorm_in_modulation": false,
  "window_size": 2
}