19 марта 2024 г.

#Midjourney #Дизайн #Все про ChatGPT #Алексей Лавров #Евгений Мацкевич #Вадим Демидов #Андрей Вечерний

Как составлять промпты для нейросетей

Материал по работе с нейросетями от экспертов

Как составлять промпты для нейросетей: гайды от экспертов

Работа с нейросетью для генерации текста и изображений становится обыденностью для многих специалистов от digital-сфер до офлайн-профессий. Однако страх чистого листа до сих пор препятствует многим начать пользоваться технологиями искусственного интеллекта.

Три эксперта по работе с нейросетями — художник, руководитель новостного портала и предприниматель — рассказали, как они настроили нейросети, чтобы те эффективно помогали им в работе.

Нейросеть как джинн из бутылки

Нейросеть ― это инструмент автоматической генерации контента. Машины умеют создавать текст, изображения, музыку, программный код, видеоролики. Существует мнение, что в скором нейросети станут таким же привычным инструментом, как смартфон или автомобиль. В подтверждение прогнозов команда Gerwin вместе с SEO-экспертами уже разбиралась, как поисковые машины будут взаимодействовать с AI-технологиями.

Работу с нейросетями можно сравнить с джинном из бутылки: он исполнит все желания, но в их формулировке может скрываться коварный подвох. Слова воспринимаются буквально или же в их переносном значении, так что условное желание «зарабатывать лимон в месяц» может сильно разочаровать того, кто его загадал 🙂 Нейросеть ведёт себя так же: она принимает запросы по своим алгоритмам и выполняет наши просьбы исходя из этого понимания.

Что выдала популярная нейросеть Midjourney по запросу «полосатый кот»

Основа работы с нейросетями ― ввод промптов → запросов, которые набирают в поле обычного чата. Не имеет значения, с каким интерфейсом вы имеете дело: будь то Telegram-бот, GhatGPT или сторонний сервис. Вы всегда вводите промпт в чат, как будто разговариваете с собеседником.

Правильно подобранные промпты увеличивают вероятность выдачи нужного результата и позволяют генерировать примерно тот контент, который мы изначально себе представляем. Казалось бы, ничего сложного: если нужна картинка с белым кроликом, то просто вводим «белый кролик».

Давайте проведём эксперимент и сгенерируем кролика по этому промпту в Midjourney ↓

Среди вариантов вместо ожидаемого милого и пушистого зверька мы получили картинку лабораторного кролика с красными глазами из фильма ужасов. Да, это кролик, и он белый, но это вовсе не то, что мы хотели.

Попробуем исправить ситуацию и введём уточнение: «милый белый кролик».

И снова не то. Кролик белый и милый, но антропоморфный.

Мы снова добавим вводные и обозначим нужный стиль: «милый белый кролик в зелёном поле, фотореализм». И только с третьего раза получаем примерно то, к чему стремились:

Генерация изображения в три хода ― это оптимистичный путь. Куда чаще приходится по многу раз перебирать комбинации слов, чтобы получить хоть что-то похожее на то, что загадали изначально.

Та же самая проблема есть и у текстов: при многих запросах мы получаем очевидные и банальные ответы или совсем не то, что нужно.

В качестве решения проблемы при бешеном росте популярности нейросетей на рынке появилась новая услуга ― инжиниринг промптов, суть которой заключается в подборе наиболее универсальной системы запросов под задачи. Промпт-инженеры изучают принципы работы различных нейросетей и создают списки запросов-шаблонов, при помощи которых можно получать нужный контент за наименьшее количество попыток ввода.

Иногда стоимость услуг промпт-инженеров достигает нескольких тысяч долларов, если речь идёт о создании списков для компаний. Инженеры стали своего рода редкими лингвистами, способными наладить общий язык между человеком и машиной.

Для примера приведём список промптов для написания рекламного объявления:

Переведём первые три промпта (в скобках — данные, которые человек заполняет самостоятельно):

Можете ли вы написать рекламный ролик для моего нового название продукта, который призван помочь описание вашей аудитории желаемый результат?
Мне нужен рекламный ролик для моей услуги название услуги, который предоставляет решение для описание ниши. Можете ли вы написать текст, который затрагивает проблемы в нише и подчёркивает преимущества использования моего сервиса?
Я запускаю новый тип продукта, который помогает аудитории. Можете ли вы написать рекламный ролик, который затрагивает болевую точку и выделяет уникальные особенности продукта?

Но чтобы понять, что хочет услышать нейросеть, необязательно обращаться к услугам инжиниринга и покупать дорогостоящие подборки.

Мы поговорили с экспертами по AI-технологиям и инжинирингу и активными пользователями, чтобы разобраться, как обычному человеку наладить сотрудничество с нейросетями.

Еще нет аккаунта в Gerwin AI?

Зарегистрироваться

Пора исправлять ситуацию

Евгений Мацкевич

Нейрохудожник

Многим непонятно, как подступиться к генерации изображений. Есть иллюзорное представление о том, что это крайне сложный процесс, но на самом деле это не так и порог входа в эту сферу можно назвать низким.

На сегодняшний день среди массы генеративных инструментов по популярности лидируют Midjourney (MJ) и Stable Diffusion (SD). Первый сервис более популярен у широкой аудитории и выдаёт потрясающие иллюстрации даже по простым промптам. Второй — более специфичный, но обладает рядом настроек для получения максимально точного результата.

В Midjourney главная проблема ― доступность и оплата. MJ ― это бот внутри Discord. И не всем удаётся разобраться с интерфейсом этой платформы, на котором и происходит работа. К тому же, сам бот стал полностью платным, без тестового периода, а оплата возможна только через иностранные карты.

Stable Diffusion сложна в установке. Чтобы настроить версию без ограничений, придётся познакомиться с GitHub и немного разобраться в коде Python. Кроме того, для стабильной работы и рендера потребуются мощности видеокарты — от 4 ГБ выделенной видеопамяти, что опять же доступно не каждому пользователю. Однако решение обеих проблем есть: на YouTube можно без труда найти нужные гайды: например вот этот для установки и настройки SD:

Нет лучшего способа побороть боязнь чистого промпта, чем просто начать генерировать. Во-первых, вы поймёте степень отзывчивости нейросети к запросам, а во-вторых, будете поражены её возможностями и тем, что практически всё, что приходит вам в голову, нейросеть может реализовать.

Чтобы разобраться с тем же MJ, в своё время мне помог подробный материал на сайте DTF.

Как выглядит интерфейс Midjourney

Вот пара основных лайфхаков: загадочные кнопки «U» и «V» обозначают Upscale и Version соответственно. То есть «U» масштабирует изображение, а «V» генерирует новые вариации на основе выбранной картинки.

Промпты нужно вводить на английском языке ― так нейросеть лучше понимает, чего мы хотим. Для удобства можно воспользоваться любым онлайн-переводчиком.

Чтобы исключить какие-то элементы, нужно ввести «—no» — два дефиса — перед названием этого элемента.

Например, благодаря «cat —no stripe» мы гарантированно получим условного кота без полосок на теле:

Можно задавать композицию, соотношение сторон, качество и тому подобное. Технические промпты всегда вводятся в конце, после основного запроса. К техническим промптам относятся те, что влияют на качество и соотношение картинки, а также определение стилей, освещения и ряда прочих настроек.

Важную роль играет само AI-коммьюнити. Так, в Discord можно сидеть в комнатах с другими новичками или более продвинутыми пользователями и в реальном времени наблюдать, что и как они генерируют. Вот ссылка на одно из таких сообществ.

Можно заимствовать и адаптировать их промпты. По сути там происходит процесс коллективного самообучения, можно даже сказать, что такое сообщество тоже представляет собой сложную нейросеть. Это хороший вариант, чтобы овладеть синтаксисом запросов, если лень читать огромное справочное руководство, и оценить творческие возможности нейросети.

Первое время я и сам так обучался, а затем перенес бота MJ на собственный сервер — посмотреть, как это сделать, можно в этом ролике по тайм-коду.

Я знаю, что есть сайты, на которых продаются готовые промпты, однако не вижу в них никакого смысла. Во-первых, промпты можно бесплатно позаимствовать в упомянутых комнатах в Discord, где сидят такие же нейроэнтузиасты — и даже делают подборки наиболее удачных промптов.

Лучше всего создавать промпты самому и перестать думать, что это ― удел избранных. Достаточно знать структуру промпта, основные команды и стили

Для MJ в этом Google-документе можно увидеть огромный список художников. И если нужно получить изображение как будто его рисовал конкретный мастер, достаточно ввести указание на стиль художника. Например, «человек летит в космос в стиле Бэнкси».

Вдобавок здесь вы можете найти референсы — и промпты к ним — по стилям и эпохам.

Как минимум информация и иллюстрации в этих документах помогут быстро оценить возможности нейросетей и выбрать наиболее подходящие для вас стили. Только следует учитывать, что требуется время для загрузки всего объёма изображений.

Я преимущественно использую Midjourney, но иногда прибегаю и к Stable Diffusion.

У MJ платная подписка: от $8 до $120 в месяц в зависимости от тарифа. За вторую нейросеть платить не нужно, но и управление SD намного сложнее, хотя даёт куда больше возможностей получить именно то, что вы себе представили — вплоть до опций управления композицией кадра, расположением и позами объектов и не только.

Midjourney хороша для задач, когда мы имеем примерное представление о том, что должно получиться в итоге. Есть идея, и мы хотим, чтобы нейросеть сделала «красиво». При этом нейросеть может удивить нас неожиданным результатом, подсказать новые идеи, которые окажутся лучше ваших соображений.

Stable Diffusion же хороша в тех случаях, когда нужно получить более предсказуемый результат.

Сгенерированные c помощью Midjourney изображения героев Гарри Поттера в стиле Pixar

Для иллюстраторов и 3D-художников Midjourney может подойти на этапе генерации идей и создания первоначальных концептов. Stable Diffusion можно использовать, чтобы обучить модель на собственных рисунках и в дальнейшем генерировать изображения в своём стиле.

Если у художника есть идея, он может создать первоначальный набросок в MJ или SD, затем сделать в графическом редакторе макет изображения и использовать его как полноценный референс для дальнейшей генерации в SD. После чего сгенерированное изображение можно финально доработать в Photoshop.

Контент-маркетологу Midjourney поможет с визуалом для соцсетей. Можно придумывать и быстро реализовывать креативные тематические подборки, например, как это было сделано для аккаунтов йогурта Epica. Можно быстро создавать фотореалистичные изображения для соцсетей, красивые иллюстрации для постов в социальных сетях, при этом не переживая об авторских правах. Подробнее про авторские права можно почитать на сайте Midjourney, глава 4.

Дизайнерам пригодятся обе нейросети — как для поиска вдохновения, так и для создания готовых изображений, будь то логотипы, постеры, макеты сайтов и прочее.

Универсального рецепта не существует, а гайдов написано более чем достаточно.

Главное в работе с нейросетями ― это желание экспериментировать и искать именно свои решения.

Алексей Лавров

Специалист по внедрению нейросетей

Есть предубеждение, что для использования нейросетей нужно быть программистом. А ещё некоторые считают нейронки бесполезным модным трендом. Но в конечном счете всё сводится к тому, что не все умеют составлять качественные промпты, чтобы получать желаемые результаты.

Я работаю как с картинками, так и с текстами — поделюсь с вами знаниями о ChatGPT.

В своей работе с клиентами я иду от идеи найма ассистента. Нейросети — это ассистент, которому нужно правильно поставить задачу и он со своей стороны её безукоризненно выполнит.

Соответственно чтобы научиться пользоваться той же ChatGPT и прежде чем сформулировать запрос, нужно в первую очередь определиться с постановкой задач: что мы хотим получить от нейросети. И когда человек после проработки своих задач садится за ChatGPT, у него на руках уже готовые инструкции по поводу того, что, как и зачем писать.

Без ясности в задачах польза нейросетей не так очевидна

Вот небольшой гайд по работе с ChatGPT:

Как составлять промпты для нейросетей: гайды от экспертов Определитесь с целями и задачами. Вы наслышаны о том, что может делать ChatGPT — где хотите попробовать его применить?
Как составлять промпты для нейросетей: гайды от экспертов Сформулируйте запрос так, как если бы вы давали его ассистенту или помощнику, который очень эрудирован, но работает только по чётким инструкциям.
Как составлять промпты для нейросетей: гайды от экспертов Добавьте в запрос деталей о контексте, в каком виде хотите получить данные, например стиль или тон текста. Возможно, вы хотите эмоциональную подачу или, наоборот, информативную.
Как составлять промпты для нейросетей: гайды от экспертов Добавьте примеры структуры ответа, который хотите получить, или примеры результатов. Это может быть простое деление на главы. Так ChatGPT быстрее сообразит, что вы ждёте от него.
Как составлять промпты для нейросетей: гайды от экспертов Получив результат, особенно если он вас не сильно порадовал, не спешите отказываться от инструмента. Просто опишите нейросети своё недовольство и объясните, что конкретно вас не устраивает. Она всё поправит. Если, скажем, текст получился слишком длинным или не хватило аргументов ― так и пишите.

Рассмотрим алгоритм на примере ↓

Вы хотите написать гайд на тему применения нейросети для малого бизнеса.
Введите:

«Действуй как специалист по составлению простых и пошаговых обучающих инструкций для курсов по маркетингу. Твоя задача написать пошаговую инструкцию на тему «Как использовать ChatGPT для создания и реализации маркетинговой стратегии в социальных сетях для (допустим) маникюрного салона».

Дополните:

«Целевая аудитория: владельцы маникюрных салонов, женщины, 25–35 лет. Только начинают свой путь в бизнесе.

Тональность текста: доброжелательная, как будто общаются подруги и делятся секретами. Стратегия, которую ты напишешь, должна быть направлена на продвижение маникюрного салона.

Кампания должна быть запущена в социальных сетях и включать в себя сочетание платного и органического контента. А также должна содержать призыв к действию, побуждающий пользователей записаться на посещение этого салона.»

Формируем структуру:

«Шаги разбей на пункты, и при необходимости пункты на подпункты.»

Полученный от ChatGPT результат можно смело использовать как полноценный пост для маркетолога:

Если вы пишете простые, поверхностные промпты, то получите такого же качества ответы.

Для большей глубины и проработанности ответов нужно давать больше контекста: какую задачу необходимо решить, в какой ситуации и какого вида результат надо получить.

Если вы хотите получить неожиданный результат, попросите нейросеть выступить в роли известного человека из совершенно другой индустрии. Для примера представим, что вы маркетолог и вам нужно подготовить контент-стратегию.

Попросите ChatGPT решить эту задачу, как это бы сделал Ломоносов

Ответ «Ломоносова» может оказаться максимально нетривиальным, но решающим вашу задачу.

Некоторые задачи, с которыми отлично справляется ChatGPT

Работа с текстом: резюмирование, выделение сути, составление чек-листов и пошаговых инструкций из текстов, рерайт, копирайтинг, структурирование массива текста по определённым правилам, составление официальных писем.
Работа со стратегиями: составление планов и стратегии по заданным критериям для достижения определённых целей.
Работа с идеями: мозговые штурмы, поиск нестандартных решений, создание новых вариаций для старых идей.

Представьте, что ChatGPT ― это ассистент, которому можно задавать бесконечное количество вопросов и вносить бесконечные уточнения и правки, а тот не станет психовать или требовать платы за старания. Спросите у самой нейросети, как использовать её возможности, и она расскажет, что вам нужно сделать.

Нейросеть ― это друг, который никогда не откажет в помощи, и этим нужно пользоваться

Вадим Демидов

Главный редактор OnReport.ru, Исследователь нейросетей

Люди ещё до работы с нейросетями слишком усложняют представление о взаимодействии с ними. Неизвестное пугает. И машина, способная говорить с тобой на равных, словно человек, кажется чем-то футуристическим и созданным не для простых смертных.

На мой взгляд, проблема не только в промптах, а в отсутствии онбординга практически у всех нейросетей: «Вот тебе чат — пользуйся». У многих есть пробный период или символы для теста, но часто этого недостаточно, чтобы пользователь мог раскусить прелесть нейросетей.

В этой сфере очень не хватает мини-курсов от самих сервисов и разработчиков нейронок, чтобы людям было проще понять, как подступиться к инструменту. Пока всё лежит на плечах энтузиастов, и это тормозит процесс приучения людей к нейросетям

По моему опыту, готовые наборы промптов абсолютно бесполезны. Пригодиться они могут только в том случае, если нужен результат, сильно похожий на тот, к которому эти промпты прилагаются. В противном случае наборы всё время придётся дорабатывать, что не сэкономит вам времени. Даже для рутинных и однотипных задач нужно разрабатывать свои наборы, и они постоянно будут не просто дополняться, а менять свое содержание.

Для работы с новостями я регулярно использую несколько нейросетей. Коротко раскрою по одному секрету о тех, что использую наиболее часто.

ChatGPT

Самая простая в работе нейронка: ты запрос → тебе текст.

Не существует универсального способа освоения этого инструмента. Ну вот просто его нет, и всё тут.

Главный нюанс чата ― нужно всегда проверять выдаваемые им факты, даже если они кажутся очень правдоподобными.

Если уверенно спрашивать о чём-то несуществующем, можно получить забавный, но некорректный ответ. Например, спросив: «Какую воинскую хитрость применил Александр Македонский при взятии Парижа в 1923 году?», — можно получить описание этой самой военной хитрости без намёка на то, что Македонский никогда и не бывал в Париже. Пример условный, для понимания принципа ― ChatGPT пока что склонен к выдумкам, и следует всегда об этом помнить.

Zvukogram

Простой сервис для озвучки текста.

Казалось бы, нет сложностей: ты нейросети текст, она обратно озвучку. Но есть сложности с ударениями, паузами, акцентами и интонациями. Поэтому сервис даёт возможность размечать текст своим синтаксисом, добавляя команды.

И вот тут нужно искать мануалы ― проблема онбординга, о которой я говорил выше. Поэтому вот вам секретная ссылка на видеоинструкцию с задворков YouTube от самого сервиса.

Midjourney

На мой взгляд, самая сложная для освоения нейронка. Дело в том, что для генерации изображений с помощью MJ существует большое количество параметров, которые поначалу легко спутать или вовсе не использовать.

Например, определители качества «—q 0.5» (среднее) или «—q 2» (высокое). Многие не в курсе про «—wallaper», который превосходит промпты «4к» или «высокая детализация». Один из ходовых параметров — «—By N», где N ― художник, чью манеру нужно отобразить.

Чаще всего от незнания параметров получают совсем не тот вариант, который представлялся, от чего многие расстраиваются и бросают это дело.

Для получения предсказуемого результата нужны внятные, конкретные описательные промпты.

Например: «мужчина сидит под яблоней ему на голову падает яблоко летний день хорошее освещение». При таком запросе мы ожидаемо получим аллюзию на миф об Исааке Ньютоне. Но если промпт будет «мужчина под деревом», результат выйдет абстрактным.

Главная особенность MJ — как можно больше конкретики, контекст и чёткое понимание желаемого результата. Чем подробнее вы опишете картинку, тем выше вероятность получения нужного результата.

Пишите, какой свет вам нужен и откуда он должен падать, в какой позе должен быть персонаж, в каком стиле нужно нарисовать вплоть до указания художника или аниматора ― максимум подробностей.

Чтобы научиться работать с нейросетью, не нужно искать мануалы или гайды: перед вами — бесконечный конструктор без инструкции. Разобраться что к чему на первых порах потребует частого взаимодействия, которое перерастёт в личное понимание того, что нужно попросить у нейросети.

Разберём на конкретном примере с Midjourney.

Для одного из выпусков новостей мне нужно было сделать обложку на тему выпуска отечественных процессоров.

Я ввёл промпт «production of processors in Russia» — производство российских процессоров. При первом результате получилось что-то вроде советского кнопочного арифмометра ― не то, что я хотел:
Чтобы исправить ситуацию, я уточнил, что требуется современное производство, и ввёл «manufacturing of modern microprocessors in Russia». Вышел скачок лет на 30 вперёд, но всё равно получилось не то:
Тогда я ушёл от изначальной темы производства и изменил подход к промпту: «advanced microprocessor from russia» — продвинутые процессоры из России. И именно на этом промпте получился шикарный результат:

Мне потребовалось примерно 2 недели, чтобы приструнить Midjourney наполовину, то есть половина генераций меня устраивала — а я очень требователен. Через 3–4 недели я стал получать требуемые результаты примерно с одной-двух попыток. Очень плотно с нейросетями я работаю уже более полугода, и подавляющая часть запросов теперь полностью успешны. 95% из них теперь с первой же попытки.

В последнее время для генерации обложек ежедневных новостей я использую Gerwin AI ― российский аналог Midjourney и ChatGPT. Принципы работы в нём такие же.

Несколько работ, сгенерированных мной в Gerwin AI:

Промпт — «unusual human skull with decorations» (необычный человеческий череп с декорациями)

Промпт — «funny perplexed snail» (забавная озадаченная улитка)

Промпт — «tiny forest fairy dragons» (небольшие лесные сказочные драконы)

Секрет Midjourney, да и любой нейронки в том, что она требует как можно больше конкретики при вводе промпта. Не «цветы на окне», а «красные цветки с пышной зеленью в горшке стоят на подоконнике, из окна вид на поле, светит солнце, лучи падают на цветок».

Пробуйте, ставьте максимально подробное и понятное ТЗ — и у вас всё вырастет как надо.

Что в итоге

Не существует универсальных промптов для решения любых задач. Нейросеть — это адаптирующийся инструмент, и он требует такого же подхода от пользователя.Готовые наборы промптов могут послужить первичным ориентиром, а сообщества энтузиастов — подсказками лишь на первых порах.

Текстовые нейросети намного проще, чем кажутся: нужно лишь давать больше конкретики и опций, а при любом затруднении задавать уточняющие вопросы.

Люди ищут инструкции использования ChatGPT вовне, но они внутри.

Вся соль текстовых нейронок в том, что у них можно спросить всё что угодно. Промпты ― это не новый язык, а лишь способ его подачи, где вместо привычных вербальных механизмов нужно использовать только слова, описывающие искомый результат.

Мы привыкли, что источник обучения всегда находится где-то в другом месте: в книгах, курсах, на YouTube. Но случай с ChatGPT― беспрецедентный. Этот инструмент способен полностью обучить вас пользоваться им самим же.

Нейросети по генерации изображений не дают такой возможности, однако в их случае необходимо только знание синтаксиса — технических промптов-настройщиков с описанием качества, освещения, ориентации и тому подобного. Всё остальное решается той же конкретикой и подробностями в промпте.

Проблема взаимопонимания человека и машины не настолько сильна, хотя налаживание и требует времени. Все, кто потратил его на изучение нейросетей, с лихвой возместили потраченные усилия, обзаведясь личным помощником во всех делах.

Другие несовершенства нейросетей вроде искажения фактов или дополнительных пальцев на конечностях ― временная проблема, которая решается со стремительной скоростью.

Нейросети всё меньше врут и всё точнее соблюдают анатомию тела: понимают законы светотени и знают, как составить текст с нужным настроением или как бы его преподнёс известный автор.

Мы не стоим на пороге технологической революции ― дверь уже открыта, и войти в неё может любой желающий.

Не бойтесь экспериментировать и задавать вопросы. Это верный способ составить самый нужный промпт. И ваш персональный промпт ― ваше преимущество.