Из нового подкаста «Камерата» вы узнаете о полезном сервисе, который объединил сразу 9 нейросетевых моделей, чтобы описывать и озвучивать для незрячих людей подробное описание визуального контента.
Автор подкаста: Маргарита Мельникова, специалист отдела контроля качества фонограмм издательства “ЭКСМО”, транскрибатор, основатель проектов “Опиши мне”, “Журналы вслух”, “Жемчужная библиотечка” и других.
Прослушать подкаст
Текстовый конспект
Представляю вашему вниманию приложение PiccyBot. С его помощью вы сможете получать текстовые и аудио- описания фотографий и видеороликов. Анализ и описание визуального контента создают нейросети. В приложении представлено сразу 9 моделей искусственного интеллекта, из которых в настройках можно выбрать желаемую:
- –Claude 3 Haiku
- –Claude 3.5 Sonnet
- –GPT 4 O
- –GPT 4 O Mini
- –Google Gemini Flash
- –Google Gemini Pro
- –Lama 3
- –Reka.
- –Mistral Pixtral.
Приложение PiccyBot доступно как бесплатно, так и по подписке.
В данном обзоре рассматривается версия с подпиской, так как в бесплатной версии слишком много ограничений.
Вот каковы эти ограничения:
- —Невозможно изменить нейросетевую модель, с помощью которой будут создаваться описания. В бесплатной версии доступна только модель Reka.
- —Невозможно отключить проговаривание описаний встроенным нейроголосом, да и выбрать другой голос не получится;
- —Невозможно отключить опцию «Характер». Когда эта опция включена, в описание добавляется много ненужной, на мой взгляд, информации: восклицаний, восторженных фраз, словесной мишуры», из-за чего описания становятся утрированными, выглядят неестественно.
В обзоре рассматривается версия приложения под IOs, но под Android оно тоже есть.
Главный экран
- Кнопка «Настройки» (settings). В бесплатной версии PiccyBot кнопка данная кнопка отсутствует. Вместо неё — кнопка «Подписка» (subscribe). Доступно 2 варианта подписки: на месяц (3 доллара) и навсегда (19 долларов). На момент выхода обзора я приобрела подписку на месяц. Она обошлась мне в 240 рублей. Подписка оплачена с мобильного счёта, оператор МТС. Средства просто списались с баланса номера. В Apple такая опция по-прежнему доступна.
- Текстовое поле «Задайте свой вопрос PiccyBot. Здесь можно вступить с нейромоделью в диалог, задать уточняющие вопросы, например: «Опиши фон картинки!», «Во что одета девушка на фото?», «Как выглядит собака рядом с девочкой?»… И так далее. Уточняющие вопросы можно задавать не только текстом, но и голосом. После того, как описание получено, в правом нижнем углу экрана появляется кнопка «Микрофон». Ответы, будь то текстовые или голосовые, вы получите на том языке, на котором задан вопрос.
- Видео (здесь вы можете сами снять видео прямо в приложении и получить его описание);
- Видеогалерея (здесь можно выбрать видео из уже имеющихся в вашей галерее и отправить на описание;
- Камера (сделайте фото не выходя из Piccybot и получите его описание);
- Фотогалерея (выберите фото из своей галереи).
Примечание : Делиться с PiccyBot фотографиями из официального клиента VK под Ios пока не удаётся. Об этой особенности разработчик осведомлён. Обещал поправить.
Настройки
Пройдёмся по экрану настроек. Здесь присутствуют следующие элементы:
- – Выберите голос. Доступно 7 вариантов:
- Выразительный;
- Счастливый;
- Полный энтузиазма;
- Серьёзный;
- Модный, стильный;
- Заботливый, дружелюбный;
- Без голоса.
Если выберете последний вариант, голосом описания дублироваться не будут. Но вы в любом случае сможете читать их с помощью Voiceover.
- Характер. (та самая опция, которую я рекомендую отключить сразу после приобретения подписки);
- Скорость речи. (меняется свайпами вверх/вниз по 10 процентов);
- Модель искусственного интеллекта. (доступен выбор из девяти перечисленных ранее);
- Длина описания в строках. Максимальное значение 100 строк;
- Качество видео. На самом деле, это качество распознавания и, соответственно, описания. Есть 3 варианта: низкое (low), среднее (medium) и высокое (high). По умолчанию выбрано низкое. Я изменила на высокое.
- Звук ожидания: будет ли воспроизводиться звук при обработке изображения или видео. Рекомендую оставить его включённым.
- Поделиться аудио. (можно делиться звуковыми файлами описаний в мессенджерах из приложения). А в «Настройках» можно поделиться самым последним выполненным звуковым описанием.
- Обратная связь и дополнительно;
- Политика конфиденциальности.
- По Email разработчик отвечает очень оперативно.
Тестирование и сравнение: фото
Для тестирования приложения была выбрана одна фотография с Telegram-канала «Поздравительные открытки на каждый день». На открытке изображена панда с букетом цветов, также присутствует текст.
Текст «разглядели» только две нейромодели: GPT 4 O и Gemini.
На третьем месте — Cloude 3.5, составившая довольно неплохое описание, но не сумевшая найти текст. Lama 3 выдала нечто несуразное как с точки зрения грамотности, так и с точки зрения содержания. Mistral Pixtral и вовсе зависла, после пятиминутного ожидания приложение закрылось.
На дополнительные вопросы достойно отвечали всё те же Gemini pro, Claude и GPT 4 O.
Тестирование и сравнение: видео
Видео было взято из того же Telegram-канала, что и фото. То была анимационная открытка, содержащая текст «С днём сердца».
С распознаванием текста справилась вся вышеупомянутая тройка лидеров. По детальности описания первое место разделили Gemini pro и GPT 4 O. Однако на просьбу описать видео подробнее, особое внимание уделив заднему плану, GPT 4 сократила описание до одной строки, в общем, выполнила противоположное действие.
Тест и сравнение: клип
И, наконец, я предложила нейросетевым моделям создать описание видеоклипа. Мой выбор пал на популярный клип «Царица» Анны Асти.
Этот клип ранее был описан волонтёрами проекта «Опиши мне», так что вы легко сможете сравнить описания, сделанные искусственным интеллектом и человеком.
Но, как и прежде, явных лидера 3: Gemini pro, GPT 4 O, Claude 3.5 Sonnet. В описании от GPT 4 O, по ощущениям, слишком много общих слов и оценочных суждений, а Gemini pro сумела после дополнительного запроса создать покадровое детальное описание. Однако общий недостаток всех описаний клипа в том, что первые сцены описаны подробно, затем нейросеть словно бы «устаёт» и переходит к очень широким мазкам.
Ещё года 3 назад невозможно было представить, что незрячий человек будет самостоятельно «просматривать» изображения, а тем более видеоролики. С развитием технологий искусственного интеллекта визуальный контент становится нам всё доступнее. Без помощи зрячего человека пока по-прежнему не обойтись, полностью полагаться на нейромодели рано. И всё же Piccibot, наряду с другими подобными приложениями, это прорыв.
Ссылки по теме
- PiccyBot в Play store;
- PiccyBot в App store;
- Описание клипа Анны Асти «Царица», составленное волонтёрами проекта «Опиши мне».
Справочная информация
Этот материал подготовлен в рамках общероссийского социального проекта “Универсальный мобильный помощник”, который реализует Нижегородский областной центр
реабилитации инвалидов по зрению “Камерата” в партнерстве с некоммерческими организациями из регионов России при поддержке ПАО “МегаФон”.
Получить консультацию по вопросам подбора, настройки и использования мобильной, компьютерной и другой бытовой техники, а также записаться на бесплатный курс по цифровой грамотности можно по телефону горячей линии “IT-помощь незрячим”: 8-800-550-46-80 (пн-пт с 08:00 до 20:00 по московскому времени).