Перевод официального релиза компании Аnthropic
Сегодня мы анонсируем семейство моделей Claude 3, которое устанавливает новые отраслевые стандарты в широком спектре когнитивных задач. Семейство включает в себя три самые современные модели в порядке возрастания возможностей: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Каждая последующая модель обладает все более высокой производительностью, позволяя пользователям выбрать оптимальное соотношение интеллекта, скорости и стоимости для конкретной задачи.

Opus и Sonnet уже доступны для использования в и API Claude, который уже доступен в 159 странах. Haiku будет доступен в ближайшее время.
Claude 3 model family

Новый стандарт интеллекта
Opus, наша самая интеллектуальная модель, превосходит своих сверстников по большинству общепринятых оценочных показателей для систем ИИ, включая экспертные знания на уровне студентов (MMLU), экспертные рассуждения на уровне выпускников (GPQA), базовую математику (GSM8K) и многое другое. Он демонстрирует близкий к человеческому уровень понимания и беглости при выполнении сложных задач, лидируя на границе общего интеллекта.Все модели Claude 3 демонстрируют повышенные возможности в анализе и прогнозировании, создании тонкого контента, генерации кода и общении на неанглийских языках, таких как испанский, японский и французский.
Ниже приведено сравнение моделей Claude 3 с аналогами по нескольким показателям:

Почти мгновенные результаты
Модели Claude 3 могут использоваться в чатах с живыми клиентами, автозаполнениях и задачах извлечения данных, где ответы должны быть немедленными и в режиме реального времени.Haiku – самая быстрая и экономичная модель на рынке для своей категории интеллекта.
Она способна прочитать плотную по информации и данным научную статью на arXiv (~10 тыс. токенов) с графиками и диаграммами менее чем за три секунды. После запуска мы рассчитываем еще больше повысить производительность.
Для подавляющего большинства рабочих нагрузок Sonnet в 2 раза быстрее, чем Claude 2 и Claude 2.1 с более высоким уровнем интеллекта. Он отлично справляется с задачами, требующими быстрой реакции, такими как поиск знаний или автоматизация продаж.Opus обеспечивает такую же скорость, как Claude 2 и 2.1, но с гораздо более высоким уровнем интеллекта. Сильные возможности технического зрения
Модели Claude 3 обладают сложными возможностями технического зрения наравне с другими ведущими моделями. Они могут обрабатывать широкий спектр визуальных форматов, включая фотографии, диаграммы, графики и технические схемы. Мы особенно рады предоставить эту новую возможность нашим корпоративным клиентам, некоторые из которых имеют до 50 % своих баз знаний, закодированных в различных форматах, таких как PDF, блок-схемы или слайды презентаций.

Меньше отказов
Предыдущие модели Claude часто делали ненужные отказы, что свидетельствовало о недостатке понимания контекста. Мы добились значительного прогресса в этой области: Модели Opus, Sonnet и Haiku значительно реже отказываются отвечать на запросы, граничащие с «защитными перилами» системы, чем модели предыдущих поколений. Как показано ниже, модели Claude 3 демонстрируют более тонкое понимание запросов, распознают реальный вред и гораздо реже отказываются отвечать на безобидные запросы.
Повышенная точность
Предприятия всех размеров полагаются на наши модели для обслуживания своих клиентов, поэтому важно, чтобы результаты работы моделей сохраняли высокую точность в масштабе. Чтобы оценить это, мы используем большой набор сложных, фактологических вопросов, которые направлены на известные слабые места в существующих моделях. Ответы делятся на правильные, неправильные (или галлюцинации) и признание неопределенности, когда модель говорит, что не знает ответа, вместо того чтобы предоставить неверную информацию. По сравнению с Claude 2.1, Opus демонстрирует двукратное повышение точности (или правильных ответов) на эти сложные открытые вопросы, а также снижение уровня неправильных ответов.В дополнение к более достоверным ответам мы скоро включим функцию цитирования в наших моделях Claude 3, чтобы они могли указывать на точные предложения в справочных материалах для подтверждения своих ответов.

Длительный контекст и практически идеальный отзыв
Модели семейства Claude 3 при запуске будут изначально предлагать контекстное окно объемом 200 тыс.Однако все три модели способны принимать запросы, превышающие 1 миллион жетонов, и мы можем предоставить такую возможность избранным клиентам, которым требуется повышенная вычислительная мощность.
Для эффективной обработки длинных контекстных запросов моделям требуются надежные возможности запоминания. Оценка 'Needle In A Haystack' (NIAH) измеряет способность модели точно запоминать информацию из огромного массива данных. Мы повысили надежность этого эталона, используя одну из 30 случайных пар «игла/вопрос» для каждой подсказки и проводя тестирование на разнообразном корпусе документов, собранных краудсорсингом. Claude 3 Opus не только добился почти идеального отзыва, превысив точность 99 %, но в некоторых случаях даже определил ограничения самой оценки, распознав, что предложение с «иглой» было искусственно вставлено в оригинальный текст человеком.

Ответственный дизайн
Мы разработали семейство моделей Claude 3, чтобы они были настолько надежными, насколько это возможно. У нас есть несколько специальных групп, которые отслеживают и снижают широкий спектр рисков – от дезинформации и CSAM до биологического злоупотребления, вмешательства в выборы и навыков автономной репликации. Мы продолжаем разрабатывать такие методы, как конституционный ИИ, которые повышают безопасность и прозрачность наших моделей, а также настраиваем наши модели для смягчения проблем с конфиденциальностью, которые могут возникнуть в связи с появлением новых методов.Работа над устранением погрешностей во все более сложных моделях ведется постоянно, и в новом выпуске мы добились значительных успехов. Как показано в карточке модели, Claude 3 демонстрирует меньшую предвзятость, чем наши предыдущие модели, согласно эталону Bias Benchmark for Question Answering (BBQ).
Мы продолжаем совершенствовать методы, снижающие предвзятость и способствующие большей нейтральности наших моделей, гарантируя, что они не будут перекошены в сторону какой-либо определенной партийной позиции.
Хотя семейство моделей Claude 3 продвинулось по ключевым показателям биологических знаний, кибернетических знаний и автономности по сравнению с предыдущими моделями, оно остается на уровне безопасности ИИ 2 (ASL-2) в соответствии с нашей политикой ответственного масштабирования. Наши оценки, проведенные «красной командой» (в соответствии с обязательствами Белого дома и указом США от 2023 года), показали, что на данный момент модели представляют незначительный потенциал для катастрофического риска. Мы продолжим тщательно следить за будущими моделями, чтобы оценить их приближение к порогу ASL-3. Более подробная информация о безопасности содержится в карточке модели Claude 3.
Проще в использовании
Модели Claude 3 лучше выполняют сложные, многоступенчатые инструкции.
Они особенно хорошо справляются с озвучиванием бренда и соблюдением рекомендаций по реагированию, а также с разработкой клиентского опыта, которому пользователи могут доверять. Кроме того, модели Claude 3 лучше выдают популярные структурированные результаты в таких форматах, как JSON, что упрощает использование Claude для таких задач, как классификация естественного языка и анализ настроений.
Детали модели
Claude 3 Opus
Claude 3 Opus – наша самая интеллектуальная модель, демонстрирующая лучшую на рынке производительность при решении очень сложных задач. Она способна ориентироваться в открытых подсказках и невидимых сценариях с удивительной беглостью и человекоподобным пониманием. Opus демонстрирует нам границы возможного в генеративном ИИ.Стоимость
[Вход $/миллион токенов | Выход $/миллион токенов] $15 | $75Контекстное окно 200K*
Потенциальные возможности использования
Автоматизация задач: планирование и выполнение сложных действий в API и базах данных, интерактивное кодирование
R&D: обзор исследований, мозговой штурм и генерация гипотез, открытие лекарств
Стратегия: расширенный анализ графиков и диаграмм, финансовых показателей и рыночных тенденций, прогнозирование
Дифференциация Более высокий уровень интеллекта, чем у любой другой доступной модели.
- 1M токены доступны для конкретных случаев использования, пожалуйста, запросите.
Claude 3 Sonnet
Claude 3 Sonnet – это идеальный баланс между интеллектуальностью и скоростью, особенно для корпоративных рабочих нагрузок. Он обеспечивает высокую производительность при меньшей стоимости по сравнению с аналогами и рассчитан на высокую выносливость при развертывании крупномасштабных систем искусственного интеллекта.Стоимость
[Вход $/миллион токенов | Выход $/миллион токенов] $3 | $15Контекстное окно 200K
Потенциальные применения
Обработка данных: RAG или поиск и извлечение информации из огромных массивов знаний.Продажи: рекомендации по продуктам, прогнозирование, целевой маркетинг.
Экономия времени: генерация кода, контроль качества, разбор текста с изображений.
Дифференцирующий фактор Доступнее других моделей с аналогичным интеллектом; лучше для масштабирования.
Claude 3 Haiku
Claude 3 Haiku – наша самая быстрая и компактная модель, обеспечивающая практически мгновенное реагирование. Она отвечает на простые запросы и пожелания с непревзойденной скоростью. Пользователи смогут создавать бесшовные ИИ-опыты, имитирующие взаимодействие с человеком.Стоимость
[Вход $/миллион токенов | Выход $/миллион токенов] $0,25 | $1,25Контекстное окно 200K
Потенциальные возможности использования
Взаимодействие с клиентами: быстрая и точная поддержка при живом общении, переводыМодерация контента: выявление рискованного поведения или запросов клиентов
Задачи экономии: оптимизация логистики, управление запасами, извлечение знаний из неструктурированных данных.
Дифференциатор Умнее, быстрее и доступнее других моделей в своей интеллектуальной категории.
Доступность модели
Opus и Sonnet доступны для использования уже сегодня в нашем API, который стал общедоступным, что позволяет разработчикам зарегистрироваться и начать использовать эти модели немедленно.Haiku будет доступна в ближайшее время.Sonnet используется в бесплатном сервисе , а Opus доступен для подписчиков Claude Pro.
Sonnet также доступен сегодня через Amazon Bedrock и в режиме частного предварительного просмотра в Google Cloud's Vertex AI Model Garden – Opus и Haiku скоро появятся в обеих системах.
Умнее, быстрее, безопаснее
Мы считаем, что интеллектуальность моделей не имеет предела, и в ближайшие несколько месяцев планируем часто выпускать обновления для семейства моделей Claude 3. Мы также рады выпустить ряд функций для расширения возможностей наших моделей, особенно для корпоративного использования и крупномасштабных развертываний. Эти новые функции будут включать в себя использование инструментов (также известный как вызов функций), интерактивное кодирование (также известный как REPL) и более продвинутые агентские возможности.По мере того как мы расширяем границы возможностей ИИ, мы также стремимся к тому, чтобы наши защитные ограждения не отставали от этих скачков в производительности. Наша гипотеза заключается в том, что нахождение на переднем крае развития ИИ – это наиболее эффективный способ направить его траекторию к положительным социальным результатам.