Распознавание чеков и документов по фото с помощью APInita

Например нам необходимо переводить фотографию чека в структурированный набор данных (OCR), например JSON формат (указать можно любой формат данных, например Markdown или просто текст для отправки в Телеграм). Для этого используем сервис HydraAI.


Настройка первого шага


Распознавание чеков и документов по фото — без кода


  1. Создаем сервис HydraAI
  2. Действие - выбираем "Анализ изображений"
  3. Модель - выбираем необходимую модель
  4. Промт - пишем следующее указание:


    На фото чек. Тебе нужно распознать: название, количество, цену товаров и общую цену.
    
    Верни ответ в JSON формате (без ```json), вида:
    
    {
       items: [
              {
                   name: (название),
                   cnt: 1 (количество),
                   price: 100 (цена)
              }
         ],
         total_price: 100
    }

  5. URL до изображения - указываем ссылку на фото чека.
  6. Подключение - выбираем созданное подключение к HydraAI (подробнее).

Сохраняем и запускаем сценарий. В ответ нам приходи примерно следующее:


{
   "items":
      [
         { "name": "Футболка топ дев", "cnt": 2, "price": 600 },
         { "name": "Футболка топ мал", "cnt": 1, "price": 600 }
      ],
   "total_price": 1800
}

Стоимость подобной операции с использованием модели gpt-4o-mini получается примерно 0.20р.


Настройка второго шага


Теперь полученные данные можно куда-то отправить: в один из сервисов (например в Телеграм), либо HTTP запросом.