Как определить семантическую схожесть 2 фраз (косинусное расстояние)?
На входе:
2 фразы (текста)
На выходе:
Косинусное расстояние между ними (число)
Сейчас в карточке модели не ясно, что должно быть в полях query и documents. А также не ясно, какая должна быть инструкция
Можно получить пример кода?
В карточке модели написано, как правильно использовать инструкцию для задачи семантической схожести текстов:Для симметричных задач, таких как классификация (classification) или семантическое сравнение текстов (semantic text similarity), инструкцию необходимо добавлять перед каждым запросом. Это связано с тем, что такие задачи требуют одинакового контекста для всех входных данных, чтобы модель могла корректно сравнивать или классифицировать их.
Инструкцию вы можете написать сами исходя из домена вашей задачи, или взять стандартную "Retrieve semantically similar text".
Для того, чтобы получить схожесть между двумя текстами, нужно взять скалярное произведение их векторов. Пример есть в карточке модели.