Заранее прописанный подробный system prompt описывающий личность персонажа (пол, возраст, род деятельности, образование, увлечения и т.п.) и внешность (для генерации фото)
Общение с пользователем с сохранением контекста диалога
Генерация фотографий по запросу пользователя в ответ на запрос типа: Покажи себя, пришли фотку, и т.п. (триггер запроса фотографии не захардкожен, а прописан в промпте, то есть, каждое сообщение анализируется на наличие такого запроса). Фото генерируется моделью "black-forest-labs/FLUX.1-schnell" через сервис TogetherAI
Эмуляция ввода текста (отображение надписи "печатает..." в telegram)
Анализ принимаемых фотографий ("google/gemma-3-27b-it" через openrouter) и ответ на них с последующим выведением на диалог (комплимент какому-либо элементу на фото) типа: "Клёвая рубашка, где купил?"
Транскрибация голосовых сообщений с помощью сервиса AssemblyAI