Бот искусственного интеллекта блефует в карты круче, разгромив профессиональных игроков в покер. Вот и еще один фронт, где люди больше не лучшие!
Бот громит рекордсменов
Программа искусственного интеллекта (ИИ), созданная Университетом Карнеги-Меллона в Питтсбурге, штат Пенсильвания, в сотрудничестве с исследователями из компании Facebook AI, одержала победу над крупнейшими профессионалами в безлимитном техасском холдеме с участием шести игроков, пишет Science Daily.
Холдем – это один из видов покера, пользующийся наибольшей популярностью в мире.
ИИ под названием Pluribus разгромил Даррена Элиаса, рекордсмена Мирового тура покера, и Криса «Иисуса» Фергюсона, победителя шести турниров Мировой серии покера, самого престижного покерного чемпионата, проводимого в Лас-Вегасе. Каждый из них разыграл по 5000 комбинаций против пяти копий Pluribus.
В другом эксперименте приняли участие 13 профессиональных игроков, которым покер принес миллионные доходы. Pluribus разыграл 10000 комбинаций, играя с пятью профессионалами одновременно, и опять побил их всех.
«Pluribus достиг сверхчеловеческой эффективности в игре со многими игроками. Это значительная веха в истории ИИ и теории игр за последние десятилетия, – заявил Туомас Сандхольм, профессор компьютерных наук, разработавший Pluribus вместе с Ноамом Брауном, научным сотрудником Facebook AI. – До настоящего времени ИИ ограничивались соревнованиями с двумя участниками. Способность победить пять игроков в столь сложной игре дает возможность для применения ИИ в решении самых разнообразных проблем».
«Игра с участием шести игроков, а не один на один, требует капитальных изменений в процессе разработки искусственным интеллектом своей игровой стратегии, – говорит Браун. – Мы восхищены эффективностью Pluribus и полагаем, что его стратегии способны даже повлиять на стиль игры профессионалов».
Нечеловеческие стратегии
В стратегиях Pluribus были замечены кое-какие неожиданности. Многие игроки в покер стараются избегать так называемого «донк-беттинга», когда один раунд завершается коллом (уравнением ставки, когда игрок соглашается со ставкой предыдущего игрока), а следующий начинается бетом (минимальной ставкой). Это считается слабым ходом, лишенным смысла. Но Pluribus делал донк-беты намного чаще, чем его противники.
«Его основное преимущество – умение разрабатывать смешанные стратегии, – заявил Элиас, готовясь к главному турниру Мировой серии покера 2019 года. – Люди тоже пытаются делать это. Но одно дело – применять эти стратегии от случая к случаю, и другое – делать это систематически. В большинстве своем люди на это не способны».
Элиас считает, что Pluribus одержал статистически значимую победу. Принимая во внимание достоинства его противников, это производит особое впечатление. «Он играл не с какими-то средними игроками, а с лучшими в мире».
Майкл Гальяно, чей доход от игры в покер составил около 2 млн. долларов, также состязался с Pluribus.
«Играть в покер с ботом и наблюдать за выбираемыми им стратегиями было исключительно любопытно, – говорит Гальяно. – Кое-чего люди никогда не делают. В частности, это касается размера его ставок. Роль ИИ в развитии покера очень важна, и было восхитительно лично участвовать в этом».
Сандхольм руководит командой исследователей компьютерного покера уже более 16 лет. В свое время они с Брауном создали бота Libratus, и два года назад он победил четырех профессионалов, разыграв 120 000 комбинаций в безлимитном техасском холдеме. Но тогда он громил их поодиночке.
Это посложнее, чем шахматы!
Шахматы и го давно используются для исследований ИИ. Здесь игровое поле открыто, а ходы всех фигур свободно просматриваются. Но покер – задачка посложнее, поскольку это игра с неполной информацией. Игрокам не известно, какими картами располагают их противники, а те блефуют, сбивая их с толку. Поэтому покер можно рассматривать как модель проблем, связанных с множеством участников и недостаточной информацией.
Все боты, проявившие сверхчеловеческие умения в играх один на один, придерживались равновесия Нэша. Джон Форбс Нэш-младший – выпускник Университета Карнеги-Меллона и нобелевский лауреат, разрабатывавший теорию игр. Равновесие Нэша – это ситуация, в которой никакой игрок не может получить преимущества при смене стратегии, пока не изменится и стратегия его противника. Стратегия ИИ дает лишь гарантию, что он не проиграет, но ничья возможна. Однако если противник совершает ошибки и не способен поддержать равновесие, бот побеждает.
Если в игре участвует более двух игроков, равновесие Нэша может оказаться проигрышной стратегией. Здесь теория не дает боту гарантий победы, и всё же он рассчитывает стратегии, помогающие ему обыгрывать противников.
Главные достоинства – алгоритм, непредсказуемость и экономность
Прежде всего Pluribus намечает предварительную стратегию, которой достаточно для начала игры. Затем он ведет более тщательный поиск возможных вариантов. Он рассчитывает ближайшие ходы, но не всю игру до конца, поскольку такой расчет был бы невозможен.
Поиск с ограниченным предвидением – обычный прием в играх с полной информацией, но при неполной информациии он крайне затруднителен. Новый алгоритм поиска с ограниченным предвидением – основное преимущество Pluribus, позволяющее ему достигать невероятных успехов в игре против многих игроков.
Как бот громит профессиональных игроков в покер?
Игра может делиться на части, именуемые подиграми. В подигре с ограниченным предвидением ИИ рассчитывает пять стратегий продолжения, которые могут быть приняты ее участниками. В принципе число возможных стратегических вариантов продолжения гораздо больше, но при новом алгоритме достаточно учитывать лишь пять вариантов продолжения на игрока, чтобы определить сильную, уравновешенную общую стратегию.
Pluribus старается быть непредсказуемым. Допустим, ставки будут иметь смысл, если у бота будет на руках наилучшая из возможных комбинаций карт. Но если он будет делать ставку лишь при наилучшей комбинации, противники скоро раскусят его. Поэтому Pluribus рассчитывает свои действия при любом возможном варианте.
Прежние ИИ, достигшие успехов в играх, использовали большое количество серверов графических процессоров. Libratus потратил 15 миллионов ядерных часов для разработки своих стратегий, а в ходе реальной игры использовал 1400 процессорных ядер.
Pluribus рассчитал свою предварительную стратегию за 8 дней, потратив лишь 12 400 ядерных часов, и использовал только 28 ядер в ходе реальной игры.
Что будет дальше? Какая область людских компетенций упадет следующей, отдав первенство искусственному интеллекту?
Share this article
Очень занимательно! Компьютеры, роботы и программы все больше входят в нашу современную жизнь! Иногда даже страшно становиться, что совсем скоро техника может полностью заменить человека!
Интересно, сможет ли кто-то выставить в турнире по покеру выставить такую систему? Ведь тогда шансов у человека выиграть нет, выигрывает программа. Деньги уходят обладателю программы.Как от этого защититься?
За компьютеризацией будущее. Впереди отмирание многих профессий, появление новых. Искусственный интеллект плотно войдет в нашу жизнь. Осталось только дожить.