Training in progress, epoch 1
Browse files
README.md
CHANGED
|
@@ -39,69 +39,25 @@ should probably proofread and complete it, then remove this comment. -->
|
|
| 39 |
|
| 40 |
# cv_animals
|
| 41 |
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
|
| 45 |
-
Dieses Modell ist ein feingetuntes Vision Transformer (ViT) Modell, das auf dem vortrainierten [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) basiert. Es wurde speziell für die Klassifikation von Bildern in 90 verschiedene Tierklassen trainiert. Die zugrunde liegenden Daten stammen aus dem öffentlich verfügbaren Animal Image Dataset, das Bilder aus Google aggregiert.
|
| 46 |
-
|
| 47 |
-
Das Modell eignet sich für Anwendungen, bei denen Tiere auf Fotos automatisch erkannt und klassifiziert werden sollen. Typische Einsatzgebiete sind beispielsweise:
|
| 48 |
-
|
| 49 |
-
- automatisierte Artenbestimmung,
|
| 50 |
-
- bildgestützte Tierdatenerfassung in Forschung und Lehre,
|
| 51 |
-
- edukative oder interaktive Anwendungen (z. B. in Museen oder Apps).
|
| 52 |
-
|
| 53 |
-
Folgende Resultate werden generiert:
|
| 54 |
- Loss: 0.0833
|
| 55 |
- Accuracy: 0.9870
|
| 56 |
|
| 57 |
-
##
|
| 58 |
-
|
| 59 |
-
### Vorgesehene Verwendungen
|
| 60 |
|
| 61 |
-
|
| 62 |
-
- Bildbasierte Tiererkennung in Anwendungen wie Lernplattformen, mobilen Apps, oder interaktiven Tools
|
| 63 |
-
- Unterstützung bei biologischer Arterkennung (z. B. für Bildungsprojekte oder Citizen Science)
|
| 64 |
-
- Vergleich von Transfer-Learning-Modellen mit Zero-Shot-Modellen (z. B. CLIP)
|
| 65 |
|
| 66 |
-
|
| 67 |
|
| 68 |
-
|
| 69 |
-
- Das Modell wurde nur mit Bildern aus dem Kaggle-Datensatz trainiert – es ist nicht garantiert, dass es bei anderen Tierarten oder in freier Wildbahn korrekt klassifiziert
|
| 70 |
-
- Mehrdeutige oder unklare Bilder (z. B. mit mehreren Tieren, Zeichnungen, Verdeckungen) können zu falschen Vorhersagen führen
|
| 71 |
-
- Keine Garantien für den professionellen oder medizinischen Einsatz
|
| 72 |
|
| 73 |
## Training and evaluation data
|
| 74 |
|
| 75 |
-
|
| 76 |
-
|
| 77 |
-
Anzahl Bilder: 5.400
|
| 78 |
-
|
| 79 |
-
Klassen: 90 Tierarten (z. B. Hund, Katze, Elefant, Biene, Löwe etc.)
|
| 80 |
-
|
| 81 |
-
Aufteilung:
|
| 82 |
-
|
| 83 |
-
80 % Training (4.320 Bilder)
|
| 84 |
-
|
| 85 |
-
10 % Validierung (540 Bilder)
|
| 86 |
-
|
| 87 |
-
10 % Test (540 Bilder)
|
| 88 |
-
|
| 89 |
-
### Augmentierungen
|
| 90 |
-
Zur Verbesserung der Generalisierbarkeit wurden folgende Transformationen auf die Trainingsbilder angewendet:
|
| 91 |
-
|
| 92 |
-
RandomHorizontalFlip() – zufälliges horizontales Spiegeln
|
| 93 |
-
|
| 94 |
-
RandomRotation(25) – zufällige Drehung um ±25°
|
| 95 |
-
|
| 96 |
-
ColorJitter() – zufällige Helligkeits-, Kontrast-, Sättigungs- und Farbtonänderungen
|
| 97 |
|
| 98 |
## Training procedure
|
| 99 |
|
| 100 |
-
Das Modell basiert auf Vision Transformer (ViT) mit der Architektur:
|
| 101 |
-
google/vit-base-patch16-224, einem vortrainierten Modell auf ImageNet-21k.
|
| 102 |
-
|
| 103 |
-
Für das Transfer Learning wurde ausschliesslich der Klassifikationskopf (classifier) neu initialisiert und trainiert, während alle anderen Modellparameter eingefroren wurden (requires_grad=False), um die vortrainierten Features optimal zu nutzen.
|
| 104 |
-
|
| 105 |
### Training hyperparameters
|
| 106 |
|
| 107 |
The following hyperparameters were used during training:
|
|
|
|
| 39 |
|
| 40 |
# cv_animals
|
| 41 |
|
| 42 |
+
This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the animals dataset.
|
| 43 |
+
It achieves the following results on the evaluation set:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 44 |
- Loss: 0.0833
|
| 45 |
- Accuracy: 0.9870
|
| 46 |
|
| 47 |
+
## Model description
|
|
|
|
|
|
|
| 48 |
|
| 49 |
+
More information needed
|
|
|
|
|
|
|
|
|
|
| 50 |
|
| 51 |
+
## Intended uses & limitations
|
| 52 |
|
| 53 |
+
More information needed
|
|
|
|
|
|
|
|
|
|
| 54 |
|
| 55 |
## Training and evaluation data
|
| 56 |
|
| 57 |
+
More information needed
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 58 |
|
| 59 |
## Training procedure
|
| 60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 61 |
### Training hyperparameters
|
| 62 |
|
| 63 |
The following hyperparameters were used during training:
|
model.safetensors
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 343494672
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:01c8eba869d81224cdcd1601d25151a93aaa4a939e61479f4fde1cbae80ed91a
|
| 3 |
size 343494672
|
runs/Jun01_04-17-38_ip-10-192-12-140/events.out.tfevents.1748751467.ip-10-192-12-140.2205.0
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:b1b8356104670785132311c0c084138aa2510c6102214636258cea4f046d9205
|
| 3 |
+
size 9203
|
training_args.bin
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 5368
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:02542a35597f69a75766f084b375dd83945042cf11ae6dbb02b237b212da3f83
|
| 3 |
size 5368
|