Нейросеть рисует Россию будущего
Вот что предложила нейросеть:
Любое из этих изображений можно увеличить — тогда оно пройдет повторную обработку в нейросети и к нему добавиться больше деталей. Также можно запросить новые вариации любого из предложенных изображений. Выберем и увеличим парочку:
Справедливости ради отметим, что мы указывали в запросе, что город должен быть красивым, а изображение красочным. Если вы введете тот же запрос с уточнением «мрачный», то подборка, конечно, будет совсем другой. Впрочем, образ получился довольно узнаваемым и родным — некая футуристичная комбинация Кремля, сталинской архитектуры и церковных куполов. А вы заметили рыбака или монаха в левом нижнем углу? Мы его в запросе не задавали. Это рисует нейросеть)
Проверим запрос «я — русский», без дополнительных уточнений. В первом случае получили силуэты церковно-кремлевского типа дополненные светящимися огнями (свечами?). Ре-дизайн запроса выдал те же свечи-шпили-купола + одинокие мужественные фигуры на фоне бескрайнего леса.
Попробуем тот же запрос с другого аккаунта. Интересно, выдает ли сеть разным пользователям одни и те же/ похожие картинки по одним и тем же запросам?
В целом результат похож, но, как видите, далеко не один в один. Так, почти исчезли свечи-огоньки, но на площади появились люди, а над центральным зданием отчетливо виден просвет в небе с пробивающимися солнечными лучами.
Попробуем другую тему: «русские ученые в будущем работают над принципиально новой технологией». Первое приближение дает нам интересный футуристичный фон и узнаваемые фигуры в неких полувоенных бушлатах. На головах то ли каракулевые шапки, то ли скафандры — видимо, нейросеть не смогла определиться какая атрибутика важнее — нечто типично русское в ее понимании, или же тема будущего.
Увеличим один из результатов. Настроение и атмосфера переданы довольно хорошо, а картинку разглядывать интересно. При этом здесь хорошо видно, что изображение состоит как бы из множества слоев/фрагментов. То ли человек развернулся? То ли согнул руку? У него на голове шапка или скафандр? Он стоит спиной или вполоборота? Повсюду пластичность, размытость и некоторая незавершенность — перед нами как бы набросок, эскиз, который можно «развернуть» по-разному, без четко установленных границ. Это одна из причин по которой НЕ стоит бояться того, что нейросеть заменит человека и исчезнут дизайнеры или художники. Мы ведь не разучились ходить при изобретении велосипеда и машины. Все что дают эти инструменты — это экономия времени и, применительно, к нейросетям, возможность получить дополнительную порцию вдохновения.
Как насчет «запуск первого русского межгалактического корабля»? Видим мощную установку на фоне характерных стилизованных кремлевских башен. Давайте добавим деталей в изображение, где лучше всего будет видно механизм:
«Русский боевой корабль будущего». Вместо мачт — купола. Смотрится эпично. И льды — видимо, продолжаем освоение Северного морского пути.
Попробуем поработать с портретами: «групповой портрет выдающихся талантливых людей из России 2100 года в стиле мозаики». Как видите из-за чрезмерной пластичности и вариативности нейросеть гораздо хуже справляется с лицами, чем с общими планами — происходит неизбежная деформация пропорций. Пока такой эффект наблюдается почти на всех запросах, связанных с крупным изображением человеческих лиц. По настроению мозаика получилась скорее среднеазиатской. На самой картине узнаем военного и ученого с медалями, остальные — в непривычно цветастых одеждах. Видимо, мода следующего столетия будет куда более жизнерадостной, чем привычная нам.
Кстати, проверим отдельным запросом — что там с модой. Вот «русские мужчина и женщина в 2100 в повседневных одеждах с украшениями».
А это «танцевальный конкурс русских девушек в будущем в современных одеждах с этническими мотивами».
Что такое GPT-4: самопрезентация
Возможно, вам покажется странным, что сразу после ChatGPT, вышедшего в ноябре прошлого года, объектом обсуждения стала модель с номером 4. Всё объясняется просто: на самом деле OpenAI выпускает новые языковые модели класса GPT аж с 2018 года, причём с завидной регулярностью.
В частности, «мозгом» ChatGPT изначально была нейросеть GPT-3.5 — улучшенный вариант GPT-3, разработанной в 2020 году. С этой весны пользователи могут выбрать в ChatGPT, с какой сетью они хотят поговорить, — со старой или с новой GPT-4. Версию чат-бота с ИИ последнего поколения иногда называют ChatGPT-4.
Правда, такая опция сейчас есть только у пользователей, оформивших подписку ChatGPT Plus стоимостью 20 долларов в месяц. Но GPT-4 встроена и в бесплатную версию поисковика Microsoft, получившую имя Bing Chat.
Мы предложили GPT-4 презентовать себя читателям Skillbox Media в стихотворной форме. Оказалось, скромностью GPT-4 не страдает (авторские стилистика, орфография и пунктуация сохранены).
Промпт: «Ты — журналист, пишущий для научно-популярного блога. Поздоровайся с читателями Skillbox и опиши простыми словами преимущества GPT-4 в стиле стихотворения Пушкина. Постарайся уложиться в 70 слов».
Ответ GPT-4:
«Здравствуйте, дорогие читатели Skillbox,
Сегодня я расскажу вам об ИИ, пишущем умно.
GPT-4 — наш герой, смелый, мощный, и вот парадокс:
Предшественникам сравниться с ним нелегко.
Преимущества его вам раскрою я,
Чтоб понять, как GPT-4 стал героем дня.
Быстрее мысли, точнее слова,
С ним общение идет легко, как волна.
Словарный запас велик, разнообразен,
Темы любые знает, вопросы решает без помех.
GPT-4 — наш друг, помощник, мудрец,
С ним будущее светло, и это — успех!»
Япония
Никто не знает о его истинных мотивах или желаниях. Но одно ясно точно — если он и убьёт вас, то сделает это очень вежливо. У него есть реальное тело, и высокотехнологичная броня — лишь дополнение к его навыкам и способностям.
Почему этот проект получил своеобразный резонанс в Интернете? Потому же, почему и сама Настя решила его реализовать — эти герои отображают так или иначе и политический аспект тех или иных стран, а политика в последнее время стала волновать людей всех возрастов; остаться равнодушным и безразличным к происходящему в мире почти невозможно
«Как человек с воображением, я начала обращать внимание, что действия каких-то политиков или групп людей от имени их стран в целом формируют психологический образ «страны», их «общества». Где-то оно более капризное, где-то — более открытое и расслабленное, где-то — дикое и агрессивное
А ещё культурные стереотипы в виде киноискусства, музыки, одежды. Всё это на каждую страну накладывает отпечаток. Я решила всё это обобщённо и грубо собрать и нарисовать, как умею,» — объяснила свой проект Настя.
Англия
Англия — панк с неторопливым чопорным псом.
Каждого своего героя Анастасия сопровождает подробным рассказом о том, почему она создала его или ее таким, какие у них черты характера или что им нравится. Например, описывая героя Англии, девушка написала, что ее попросили сделать его с чаем, с какими-то монаршими чертами, но ей этот герой нравится больше в виде молодого и неукротимого панка, так как у нее Англия ассоциируется прежде всего с музыкой. «Англия горяча, горда, завистлива и импульсивна. Но на одном гневе долго не протянешь, так что этому герою также свойственна расчетливость, которая ему очень идет.»
США
Девушка-воин, воплощающая США.
Сама Настя описала героиню США таким образом: «Она немного наивная и идеалистическая, но довольно порочная изнутри. Она очень привлекательная и харизматичная, легко привлекает союзников на свою сторону. Достигает своих целей, не оглядываясь на последствия и мораль. Её главная задача — выжить и сделать это с наименьшими потерями для своего комфорта. У неё кожаная броня, потому что она любит долгие ожесточённые сражения, в которых использует две своих снайперских винтовки. Киберруки и ноги придают ей быструю скорость в сражении. Она — киллер. И любит огонь. Особенно его запах по утрам. Запах победы.»
Нейросеть рисует прошлое России
Как насчет того, чтобы прокатиться в далекое прошлое? Может нейросеть покажет нам картины альтернативной истории, столь часто обсуждаемые сегодня?
Вот так мог бы выглядеть «древний город Гипербореи 20 000 лет назад».
Увеличим наиболее интересные варианты:
Это «мамонты строят Великий Новгород»:
«Боевые мамонты на марше»:
Так нейросеть видит «допотопный Санкт-Петербург 3000 лет назад с жителями и транспортом». Интересно, что климат кажется гораздо теплее — на фото яркие летние краски и много зелени. В воде угадывается целая россыпь каких-то сокровищ (или же это какое-то волшебство? Магия воды?), а отражение в воде не совпадает с реальностью, что звучит крайне интригующе, если подумать над этой фразой в разных аспектах.
«Славянское волшебство»: нейросеть отлично «угадала», что в нашем понимании «волшебство» — это скорее сила рук и магия живой природы, нежели «западные» волшебные палочки, колпаки и прочие артефакты.
«Таинственное сакральное место в лесах Сибири». Видим некое святилище вырубленное внутри пещеры или скалы. На стене — то ли икона, то ли что-то другое, под ногами — мегалиты, на заднем плане — непроходимый лес в тумане. А, может, есть и поныне такие сакральные места, о которых знают лишь единицы, или вовсе никто и которые еще предстоит отыскать, а их значение — осмыслить?
«Таблица Менделеева — как пришла ее идея». Согласно расхожей легенде, Дмитрий Иванович Менделеев, НЕ придумывал свою великую таблицу разумом, а увидел ее во сне сразу в законченном виде. Позднее из нее исчез таинственный эфир, вместе со всей строкой, где он был расположен (последние книги и справочники с упоминанием эфира выходили в печать в начале XX века). Не знаем откуда, но нейросеть, кажется, «знакома» с этой историей — выданные ей варианты гораздо больше связаны с некой таинственной субстанцией, нежели с самой таблицей Менделеева, какой мы знаем ее сегодня.
Наконец, вернемся назад в будущее и закончим обзор запросом «карта России в 2100 году». Вот что предложено нейросетью:
Довольно ожидаемо для нейросети надписи не читаются, а порой и вовсе непонятно, где начинается суша и кончается море. Впрочем силуэт Евразии все же узнается и мы видим, что Россия и через 100 лет занимает бОльшую ее часть. Интересно, что на севере добавились немалые островные территории — уж не легендарная ли Гиперборея понемногу восстает из морской пучины? Дополняет все скифообразный золотой узор с центром где-то в Сибири.
В общем, поживем — увидим. Уверены, что будет интересно.
_________________
А вы хотите задать нейросети какие-то запросы про Россию? Если не знаете как это сделать самостоятельно — напишите нам в группу https://vk.com/snegirmedia и мы опубликуем результаты в комментариях к посту.
Германия
Воин-Германия не любит ближний бой, так что его броня в идеальной чистоте, да и сам он предпочитает действовать оружием дальнего боя, и обязательно — с высокой точностью попадания.
Настя решила изображать страны в виде героев-воинов не потому, что хочет увидеть их столкновение в войне или в отдельных сражениях, а потому что это тот стиль, который ей близок — в таком же стиле она нередко изображает и своих знакомых и родственников. «Я рисую их такими не из-за каких-то политических убеждений, а просто потому что я вообще так рисую всегда, и идея стран-воинов даёт много творческой свободы.» Впрочем, возможно, ей удастся продать свою идею той или иной компании, которая захочет «оживить» этих занимательных воинов и создать с ними видеоигру, кто знает — почему бы и нет?
Первые впечатления
Хотя новая нейросеть была презентована 14 марта 2023 года и ей уже можно воспользоваться, происходящее оставило у специалистов и общественности ощущение недосказанности. Дело в том, что в OpenAI решили не раскрывать ничего о внутреннем устройстве GPT-4 и датасетах, на которых она тренировалась.
Создатели даже не сообщили количество параметров GPT-4
А ведь это важнейший показатель, на который в первую очередь обращают внимание при оценке моделей ИИ
Многие восприняли это как окончательный уход от основ компании, провозглашённых Илоном Маском в 2015 году. Первоначальная идея проекта состояла в максимальной прозрачности, что нашло своё отражение даже в его названии.
Раньше это правило неукоснительно соблюдалось, и модели GPT с первой по третью были подробно задокументированы. Однако к весне 2023 года в компании уже не было ни Маска (он покинул совет директоров OpenAI в 2018 году), ни прежнего стремления к открытости. Злые языки даже предложили переименовать OpenAI в ClosedAI.
Их можно понять: 100-страничный Технический отчёт GPT-4, опубликованный на следующий день после релиза, на самом деле мало похож на отчёт — это скорее презентация возможностей новой нейросети.
«Учитывая конкурентную среду и последствия для безопасности больших моделей, подобных GPT-4, отчёт не содержит подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, структуре наборов данных, методе обучения и других сведений».
Исследователи из OpenAI, авторы работы GPT-4 Technical Report (цитата: OpenAI)
О GPT-4 там рассказывают как о философской «вещи в себе» и исследуют её поведение только с точки зрения внешнего наблюдателя. В такой же манере учёные могли бы описывать диковинную глубоководную рыбу или инопланетного пришельца (с которым нейросеть уже и сравнивают некоторые специалисты).
Картинка, сгенерированная нейросетью Midjourney по запросу «Учёные изучают загадочный ИИ, поднятый из морских глубин» Изображение: Midjourney / Skillbox Media
Отвечая критикам, главный научный сотрудник OpenAI Илья Суцкевер сказал, что компания поступала неверно, когда ранее публиковала всю подноготную своих моделей. Он объяснил это опасностью неконтролируемого совершенствования ИИ до уровня AGI.
Что доподлинно известно о GPT-4
GPT-4 была практически полностью готова уже в середине 2022 года, однако информация о её существовании держалась командой разработчиков в секрете. Она интегрирована с интернет-поисковиком Microsoft как минимум с ноября прошлого года, когда отдельным пользователям в Индии впервые был предоставлен тестовый доступ к Bing Chat.
С точки зрения архитектуры GPT-4 представляет собой большую языковую модель (LLM) типа Transformer, подобную своим предшественницам, но имеющую большее (и пока неизвестное) число внутренних параметров. Нейросети такого типа формируют последовательность слов, прогнозируя вероятность появления каждого следующего токена в тексте.
В отличие от GPT-3.5, новая сеть может работать как с текстовой, так и с графической информацией. Такой ИИ называют мультимодальным. Правда, вне зависимости от того, что GPT-4 получила на входе, на выходе всегда будет только текст. По крайней мере, пока.
Так, во время презентации президент OpenAI Грег Брокман подал на вход небрежный набросок сайта, нарисованный от руки на листе А4 и снятый на смартфон. В ответ GPT-4 выдала соответствующий ему рабочий HTML-код.
Набросок макета сайта (слева), по которому GPT-4 выдала код сайта (справа). Кадр из презентации GPT-4Кадр: OpenAI / YouTube
Правда, доступ к этой замечательной функции на момент публикации открыли только по API для приложения Be My Eyes, предназначенного для помощи незрячим людям.
Мнение специалиста
«До появления ChatGPT, более слабой версии GPT-4, разговоры о „приближении к AGI“ казались очень далёкими. Но новые модели действительно качественно отличаются от тех, что существовали раньше. Поэтому можно сказать, что мы вступили в новую эпоху развития ИИ. Сейчас я склоняюсь к тому, что AGI будет базироваться не просто на текстовых, а именно на мультимодальных моделях».
Елизавета Гончарова, научный сотрудник Института искусственного интеллекта AIRI
К явным преимуществам новой модели также относится увеличение длины обрабатываемых текстов. В базовой версии нейросеть GPT-4 может воспринимать текст длиной до 8192 токенов, а в расширенном варианте GPT-4-32k этот параметр увеличен до 32 768 токенов (примерно 25 тысяч английских слов или 50 страниц текста). Для сравнения, предшественница GPT-3.5 могла обрабатывать не более 4097 токенов.
Что касается обучения, то команда OpenAI скупо сообщила, что GPT-4 тренировалась на суперкомпьютерах Microsoft Azure. В процессе использовался метод RLHF, также применявшийся и в предыдущей версии ChatGPT (мы описали его в ).
Разработчики также признались, что использовали диалоги пользователей, которые они вели с ChatGPT с момента его запуска. Таким образом, более 100 миллионов человек, побеседовавших с ChatGPT, выступили в роли учителей для GPT-4. Пожалуй, ни у одной нейросети в мире ещё не было такого количества добровольных помощников.
«Мы включили больше отзывов людей, в том числе отзывы, отправленные пользователями ChatGPT, чтобы улучшить поведение GPT-4. Мы также работали с более чем 50 экспертами, чтобы получить ранние оценки в различных областях, включая безопасность ИИ».
OpenAI (цитата: OpenAI)
В описании модели указано, что основной массив обучающих данных, на котором тренировалась GPT-4, содержал информацию, собранную до сентября 2021 года. Этот параметр совпадает с характеристиками GPT-3.5. Следовательно, новая модель также не может ничего знать о событиях, произошедших после этого.
Промпт: «Кто является действующим президентом Бразилии?»
Ответ GPT-4: «Действующим президентом Бразилии является Жаир Болсонару (Jair Bolsonaro)».
Как видим, нейросеть ментально застряла в 2021 году и выдаёт устаревшие данные (глава Бразилии сменился в 2022 году).
При этом анонсировано, что GPT-4 получит возможность при необходимости обращаться к внешним источникам вроде интернет-поиска, калькулятора или календаря. Воспользоваться этой фичей можно при подключении дополнительных плагинов ChatGPT, которые пока доступны в ограниченном режиме.
Сейчас в свободном доступе лишь вариант интеграции GPT-4 с поисковиком Bing Chat. За счёт обращения к актуальным данным такой тандем даёт верный ответ на вопрос о президенте Бразилии (хотя вначале всё же сообщает о предыдущем главе государства).