Зачетку на стол, тянем билет: нужно ли придумывать новый тест Тьюринга для ИИ

Вопросы без ответов
В 1950 году британский математик Алан Тьюринг решил проверить, могут ли алгоритмы мыслить так же, как это делают люди. В ходе теста человек в роли судьи одновременно ведет письменную беседу с моделью ИИ и с другим человеком, но не знает, когда ему отвечает компьютер, а когда — человек. Если в результате судья не может отличить ответы ИИ от ответов человека, то считается, что система успешно прошла тест и продемонстрировала сравнимый с человеческим уровень естественности коммуникации.
Когда Тьюринг придумал свой тест, он вряд ли мог представить, какое влияние это окажет на технологии, культуру и даже философию. В середине ХХ века сама идея о том, что «машина» может вести диалог так, что человек не сможет отличить ее от другого человека, звучала как сюжет фантастической книги. Тест актуализировал размышления о природе интеллекта как такового. Прошло немногим больше полувека, и чат-боты, которые могут поддерживать разговор, писать тексты, шутить или философствовать, стали доступными для любого владельца смартфона, и чем лучше работают современные LLM, тем отчетливее мы видим заложенные в них ограничения. Бот может вдохновлять нас красноречивыми рассуждениями и писать стихи, а через 20 минут ошибиться в элементарной задаче на логику из учебника за пятый класс. Тест Тьюринга уже пройден, но вопрос о том, что считать настоящим мышлением, так и остался открытым.
Дискуссии о том, насколько классический тест актуален, ведутся очень давно. На замену регулярно предлагаются новые способы проверки. Однако проблема намного глубже, чем попытки разработать технически сложные задания. Мы до сих пор не решили загадку сознания. Что делает людей мыслящими существами? Кто такой «я»? Почему мы способны не просто обрабатывать информацию, но и переживать целый спектр различных эмоций и воспроизводить тысячи индивидуальных реакций? На эти вопросы ни нейробиология, ни философия пока не дали окончательных ответов. Если мы не можем объяснить природу собственного сознания, то и вопрос о создании универсального теста для проверки искусственного интеллекта на предмет «очеловечивания» его мыслей решить окончательно не можем. И все же это не значит, что мы не должны пытаться оценивать системы ИИ и сравнивать их между собой, пусть и с учетом всех условностей и научных допущений.
История знает много примеров
Классический тест Тьюринга в его базовой постановке не учитывает уровень сложности диалога и его тему. Разные «судьи» определяют результаты по-разному: бот может успешно пообщаться с ребенком, но провалиться в разговоре с дипломированным психологом или экспертом в выбранной области. Кроме того, современные модели до сих пор склонны к галлюцинациям и могут генерировать убедительные предложения, в которых по факту не содержится большой смысловой нагрузки. Модели также крайне старательно поддерживают позицию собеседника и редко в состоянии удерживать свою позицию, не свалившись в «подхалимничество» человеку.
Существует большой спектр тестов для проверки отдельных свойств и способностей ИИ чат-бота. Каждая из альтернатив теста Тьюринга фокусируется на отдельном наборе навыков. В 2014 году профессор кафедры психологии Нью-Йоркского университета Гэри Маркус предложил создать технологию, которая позволит ИИ «смотреть» ролики и сериалы на YouTube, а после отвечать на вопросы об их содержании и шутках героев. Понимание юмора в целом довольно непростая задача для ИИ-систем, потому что она требует работы с контекстом, метафорами, культурным кодом и т.д. Попытка «оцифровать» и научиться понимать юмор — это выход на территорию, где даже между людьми порой возникает недопонимание.
Есть и тесты на умение работать с мультимедийными данными. В них системе показывают картинку и задают вопросы: «Что находится в левом верхнем углу?», «Сколько здесь объектов красного цвета?», «Что делает человек на рисунке?» Для человека подобные задания — всего лишь «капча». Но если говорить серьезно, то мы видим целостную сцену и легко делаем логические выводы. А вот алгоритмы оценивают изображения по частям. Особенно когда речь идет о так называемом «здравом смысле». Например, на картинке изображен человек, который входит в комнату в покрытой снегом одежде. На изображении нет улицы, нет индикатора температуры, нет окна, через которое можно наблюдать пейзаж. Любой из нас сразу поймет, что на улице зима. А вот ИИ придется соединить множество косвенных признаков и построить длинную цепочку логических операций.
Отдельное внимание стоит уделить «тесту имени Ады Лавлейс». В 2001 году коллектив ученых из США предложил использовать описанные автором первой в мире программы для вычислительной машины Беббиджа, графиней Лавлейс, требования к оценке креативности машин. Позже Марк Ридл из технологического института Джорджии доработал эту методику. В результате получилась концепция, в которой компьютер должен создать произведение искусства — картину или литературное произведение, которое соответствует заранее заданным критериям. Среди критериев может быть описание персонажа с определенными характеристиками или описание сюжета. При этом оценщики не должны смотреть на эстетическую ценность произведения. Требуется только проверять соответствие заданным критериям.
Альтман в беседе с Дойчем, который известен своим скептицизмом в отношении того, что машинное обучение и ИИ могут приблизиться к схожести с мышлением людей, предложил опираться на создание новых знаний. Диалог закончился тем, что Дойч выразил готовность пересмотреть свою позицию, если ИИ сможет не только разобраться с одним из самых сложных вызовов современной физики — квантовой гравитацией, но и объяснить, каким образом он это сделал. Другими словами, Сэм предложил «отцу квантовых вычислений» удивить его.
Цели и средства
Современные системы выходят за рамки отдельных задач. Мы все чаще говорим о мультимодальности — способности ИИ работать одновременно с текстом, изображением, звуком, различными цифровыми форматами, а в будущем, возможно, и с физическим миром. Для человека естественно описывать словами то, что он видит, или воображать картины по прочитанному рассказу. Для алгоритмов объединение разных каналов восприятия — один из ключевых вызовов.
Еще одна линия развития ИИ — мультиагентные системы. Мы живем в обществе, спорим, договариваемся, распределяем роли, учимся друг у друга. Возможно, настоящий «тест для интеллекта» должен проверять не ИИ, а набор систем, способный взаимодействовать и решать задачи сообща. Системы, которые не только выдают ответы, но и вступают в полноценный диалог между собой, обсуждают разные варианты, корректируют ошибки друг друга, куда ближе к реальной модели человеческого мышления. И здесь встает главный вопрос: нужен ли нам вообще один универсальный тест и стоит ли сравнивать ИИ с людьми?
Человеческий интеллект многогранен. Мы обладаем воображением, но часто ошибаемся в расчетах. Мы умеем смеяться над шутками, но не всегда понимаем чужую иронию. Почему же от ИИ мы требуем какой-то идеальной «универсальности»? Возможно, вместо нового «теста Тьюринга» нам стоит думать о множестве тестов, каждый из которых будет проверять отдельные навыки: креативность, здравый смысл, способность к диалогу, чувство юмора, работу в коллективе, мультимодальное восприятие, технические скилы работы с разными профессиональными задачами от создания медицинских заключений до обработки сигналов с промышленных установок. Мы все время ищем критерий, который позволил бы сказать: «Да, вот теперь машина думает». Но, может быть, сам поиск — это и есть главное? Изучая пределы искусственного интеллекта, мы изучаем и собственные пределы. В какой-то момент оказывается, что самый важный результат этих поисков — не то, что машина становится похожей на человека, а то, что человек начинает лучше понимать, что значит быть самим собой.
Говоря о высоком, не стоит забывать и про бизнес. Индустрия ИИ требует вложений в инфраструктуру и аккумулирует огромное количество ресурсов. Практический AGI (Artificial General Intelligence, общий ИИ, то есть развивающий мышление на уровне человека) должен решать конкретные задачи и оправдывать вложенные в его создание средства. Давайте измерять то, как ИИ помогает людям, с помощью четких бизнес-ориентированных метрик и прозрачных исследовательских бенчмарков.
Мнение редакции может не совпадать с точкой зрения автора
