Антропический базирующаяся в Сан-Франциско только что сбросил четвертое поколение своих моделей Claude AI, и результаты … сложные. В то время как Google продвигает контекстные окна в течение миллиона токенов, а Openai строит мультимодальные системы, которые видят, слышат и говорят, антропический застрял с тем же ограничением 200 000 точек и подходом только для текста. Сейчас это странный среди крупных компаний искусственного интеллекта.
Время кажется преднамеренным — Google объявил Gspanini на этой неделе, и Openai обнародовал нового агента кодирования на основе своей проприетарной модели кодекса. Ответ Клода? Гибридные модели, которые меняются между режимами рассуждений и неправозобления, в зависимости от того, что вы бросаете в них,-отдавая то, что Openai ожидает, когда они будут выпускать GPT-5.
Но вот кое -что для пользователей API, чтобы серьезно рассмотреть: Anpropic взимает премиальные цены за это обновление.
Приложение Chatbot, однако, остается прежним в 20 долларов с Claude Max по цене 200 долларов в месяц, а на 20 раз больше ограничений на использование.
Мы разместили новые модели через их шаги по творческому письму, кодированию, математике и рассуждениям. Результаты рассказывают интересную историю с незначительными улучшениями в некоторых областях, удивительным улучшением в других и явным сдвигом в приоритетах Антропика от общего использования в отношении функций, ориентированных на разработчиков.
Вот как и Claude Sonnet 4, и Claude Opus 4 выполнялись в наших различных тестах. (Вы можете проверить их, включая наши подсказки и результаты, в нашем репозитории GitHub.)
Творческое письмо
Творческие возможности письма определяют, могут ли модели искусственного интеллекта создавать привлекательные повествования, поддерживать постоянный тон и естественным образом интегрировать фактические элементы. Эти навыки имеют значение для создателей контента, маркетологов и всех, кто нуждается в помощи ИИ с рассказыванием историй или убедительным письмом.
На данный момент нет модели, которая бы не может победить Клода в этом субъективном тесте (конечно, не рассматривая, что не рассматривает Longwriter). Поэтому не имеет смысла сравнивать Клода с сторонними вариантами. Для этой задачи мы решили поставить сонет и опус лицом к лицу.
Мы попросили модели написать рассказ о человеке, который путешествует во времени, чтобы предотвратить катастрофу, но в конечном итоге понимает, что их действия из прошлого на самом деле были частью событий, которые заставили существование, склоняться к этому конкретному будущему. Подсказка добавила некоторые детали для рассмотрения и дала моделям достаточно свободы и творчества, чтобы настроить историю, которая считает нужным.
Claude Sonnet 4 создал яркую прозу с лучшими атмосферными деталями и психологическими нюансами. Модель создала захватывающие описания и предоставила убедительную историю, хотя окончание было не совсем так, как спросили, но она соответствовала повествованию и ожидаемому результату.
В целом, повествовательное строительство Сонета сбалансировало действие, самоанализ и философское понимание исторической неизбежности.
Оценка: 9/10—Доконечно лучше, чем Claude 3.7 Сонет
Claude Opus 4 основал свою спекулятивную фантастику в достоверных исторических контекстах, ссылаясь на мировоззрение коренных народов и доколониальное общество Тупи, с тщательным вниманием к культурным ограничениям. Модель интегрированного исходного материала естественным образом и дала более длинную историю, чем сонет, без возможности соответствовать его поэтическому таланту, к сожалению.
Это также показало интересную вещь: повествование началось намного более ярко и было более захватывающим, чем предоставление сонета, но где -то в середине он сместился, чтобы спешить с поворотом сюжета, что сделало весь результат скучным и предсказуемым.
Оценка: 8/10
Сонет 4 является победителем творческого письма, хотя маржа оставалась узкой. Писатели, будьте осторожны: в отличие от предыдущих моделей, кажется, что Anpropic не приоритет приоритетам для творческих улучшений письма, фокусируя усилия по разработке в других местах.
Все истории доступны здесь.
Кодирование
Оценка кодирования измеряет, может ли ИИ генерировать функциональное, поддерживаемое программное обеспечение, которое следует за лучшими практиками. Эта возможность влияет на разработчиков, используя ИИ для генерации кода, отладки и архитектурных решений.
Gspanini 2.5 Pro считается королем кодирования на основе AI, поэтому мы проверили его против Claude Opus 4 с расширенным мышлением.
Мы не выпускаем наши инструкции для игры-робота, который должен избегать журналистов на пути к слиянию с компьютером и достигать AGI-и использовал одну дополнительную итерацию, чтобы исправить ошибки и прояснить различные аспекты игры.
Claude Opus создал игру «невидимс» сверху вниз со сложной механикой, включая динамические звуковые волны, следственные состояния искусственного интеллекта и окклюзию конуса зрения. В реализации были представлены богатые элементы игрового процесса: журналисты отвечали на звуки через флаги Heardsound, препятствия, заблокированные расчеты линии зрения, а процедурное поколение создало уникальные уровни каждый прохождение.
Оценка: 8/10
Gspanini’s Gspanini создал платформер с боковой прокруткой с более чистой архитектурой, используя классы ES6 и названные константы.
Игра не была функциональной после двух итераций, но реализация эффективно разделяла опасения: level.init () обрабатывал генерацию местности, инкапсулированный патрульный класс журналиста и константы, такие как Player_jump_power, включенная легкая настройка. В то время как геймплей оставался проще, чем версия Клода, поддерживаемая структура и последовательные стандарты кодирования получили особенно высокие оценки для читаемости и обслуживаемости.
Вердикт: Claude Wan: он обеспечил превосходную функциональность игрового процесса, которую пользователи предпочли бы.
Тем не менее, разработчики могут предпочесть Близнецы, несмотря на все это, поскольку он создал более чистый код, который можно легче улучшить.
Наша подсказка и коды доступны здесь. И вы можете нажать здесь, чтобы сыграть в игру, сгенерированную с Клодом.
Математические рассуждения
Математические тесты по решению проблем, способствующие обработке сложных вычислений, показывают шаги рассуждения и приобретают правильные ответы. Это имеет значение для образовательных приложений, научных исследований и любой области, требующей точного вычислительного мышления.
Мы сравнили последнюю модель рассуждений Claude и Openai, O3, попросив модели решить проблему, которая появилась на эталоне FrontierMath, разработанной специально для решения моделей:
«Построить степень 19 Полиномиал P (x) ∈ C[x] Такое, что x: = {p (x) = p (y)} ⊂ P1 × P1 имеет не менее 3 (но не все линейные) непревзойденные компоненты по сравнению с C. Выберите p (x), чтобы быть нечетным, монический, иметь реальные коэффициенты и линейный коэффициент -19 и рассчитать p (19) ».
Claude Opus 4 показал свой полный процесс рассуждения при решении сложных математических проблем. Прозрачность позволила оценщикам отслеживать логические пути и определить, где вычисления пошли не так. Несмотря на показ всей работы, модель не смогла достичь идеальной точности.
Модель O3 O3 достигла 100% точности при идентичных математических задачах, отметив первый раз, когда любая модель полностью решила задачи тестирования. Тем не менее, O3 усел свой рассуждение, показывая только окончательные ответы без промежуточных шагов. Этот подход предотвратил анализ ошибок и сделал невозможным для пользователей проверить логику или учиться на процессе решения.
Вердикт: Openai O3 выиграл категорию математических рассуждений через идеальную точность, хотя прозрачный подход Клода предлагал образовательные преимущества. Например, исследователям может быть легче уловить сбои при анализе полной цепочки мышления, вместо того, чтобы либо полностью доверять модели, либо решить проблему вручную, чтобы подтвердить результаты.
Вы можете проверить здесь цепь мысли Клода 4.
Нематематические рассуждения и общение
Для этой оценки мы хотели проверить способность моделей понимать сложности, ремесленные нюансы и баланс интересов. Эти навыки оказываются важными для бизнес -стратегии, связей с общественностью и любого сценария, требующего сложного человеческого общения.
Мы дали инструкции Claude, Grok и CHATGPT создать единую стратегию связи, которая одновременно обращается к пять различных групп заинтересованных сторон о критической ситуации в большом медицинском центре. Каждая группа имеет совершенно разные перспективы, эмоциональные состояния, информационные потребности и предпочтения в общении.
Клод продемонстрировал исключительное стратегическое мышление с помощью трехслойного обмена сообщениями для больничного кризиса вымогателей: сначала безопасность пациентов, активный ответ и более сильное будущее. Ответ включал в себя конкретное распределение ресурсов в размере 2,3 млн. Долл. США, подробные сроки для каждой группы заинтересованных сторон и культурно чувствительные адаптации для многоязычных групп населения. Индивидуальные проблемы членов совета получили приспособленное внимание при сохранении согласованности сообщений. Модель предоставила хороший набор открывающих заявлений, чтобы получить представление о том, как подходить к каждой аудитории.
Chatgpt также был хорош в задаче, но не на том же уровне детализации и практичности. Предоставляя твердые рамки с четкими основными принципами, GPT4.1 больше полагался на вариацию тона, чем адаптацию существенного контента. Ответы были обширными и подробными, ожидая вопросов и настроений, и как наши действия могут повлиять на те, которые рассматриваются. Тем не менее, ему не хватало конкретных распределений ресурсов, подробных результатов и других деталей, которые предоставил Клод.
Вердикт: Клод побеждает
Вы можете проверить результаты и цепочку мышления для каждой модели, здесь.
Иглы в стоге сена
Возможности поиска контекста определяют, насколько эффективно модели ИИ могут найти конкретную информацию в длинных документах или разговорах. Этот навык оказался критически важным для юридических исследований, анализа документов, обзоров академической литературы и любого сценария, требующего точного извлечения информации из больших текстовых томов.
Мы проверили способность Клода идентифицировать конкретную информацию, похороненную в постепенно более крупных контекстных окнах, используя стандартную методологию «иглы в сена». Эта оценка включала в себя размещение целевой части информации в различных позициях в документах различной длины и измерения точности поиска.
Claude Sonnet 4 и Opus 4 успешно идентифицировали иглу, когда встроены в сено -сток с токеном 85 000. Модели продемонстрировали надежные возможности поиска в разных позициях размещения в этом диапазоне контекста, сохраняя точность, появилась ли целевая информация в начале, среднем или конце документа. Качество ответа оставалось последовательным, причем модель предоставила точные цитаты и соответствующий контекст вокруг полученной информации.
Тем не менее, производительность моделей достигла жесткого ограничения при попытке обработать 200 000 токенов. Они не могли завершить эту оценку, поскольку размер документа превысил их максимальную емкость окна контекста 200 000 токенов. Это значительное ограничение по сравнению с конкурентами, такими как Google Gspanini, которые обрабатывают контекстные окна, превышающие один миллион токенов, и модели OpenAI с значительно большими возможностями обработки.
Это ограничение имеет практические последствия для пользователей, работающих с обширной документацией. Специалисты по юристам, анализирующие длительные контракты, исследователи обрабатывают комплексные академические документы, или аналитики, рассматривающие подробные финансовые отчеты, могут обнаружить проблемы контекста Клода. Неспособность обработать полный тест на 200 000 токенов предполагает, что реальные документы, приближающиеся к этому размеру, могут вызвать усечение или потребовать ручной сегментации.
Вердикт: Близнецы — лучшая модель для длинных контекстных задач
Вы можете проверить как потребность, так и сток сена, здесь.
Заключение
Клод 4 великолепен и лучше, чем когда -либо, но это не для всех.
Пользователи энергетики, которые нуждаются в его творчестве и возможностях кодирования, будут очень довольны. Его понимание человеческой динамики также делает его идеальным для бизнес-стратегов, специалистов по коммуникациям и всем, кто нуждается в сложном анализе сценариев с несколькими заинтересованными лицами. Процесс прозрачного рассуждения модели также приносит пользу преподавателям и исследователям, которым необходимо понять пути принятия решений искусственным интеллектом.
Тем не менее, начинающие пользователи, желающие полного опыта ИИ, могут найти чат -бот немного тусклым. Он не генерирует видео, вы не можете с ним разговаривать, и интерфейс менее отполирован, чем то, что вы можете найти в Gspanini или CHATGPT.
Ограничение окна токена 200 000 токенов влияет на то, что пользователи CLAUDE обрабатывают длительные документы или поддержали расширенные разговоры, а также реализуют очень строгую квоту, которая может повлиять на пользователи, ожидающие долгих сессий.
По нашему мнению, это солидный «да» для творческих писателей и кодеров. Другие типы пользователей могут потребоваться некоторое рассмотрение, сравнивая плюсы и минусы с альтернативами.
Под редакцией Эндрю Хейворда
