Главная  /  Блог / Статьи  /  Архитектура Ada Lovelace

Архитектура Ada Lovelace

Больше ядер — больше возможностей

Новая архитектура GPU NVIDIA была официально представлена 20 сентября на мероприятии GTC. Ada Lovelace названа в честь великой женщины-математика (1815 – 1852), которая считается первым программистом в истории. Именно Ada создала первое описание вычислительной машины и составила для нее программу, а также ввела в употребление термины «цикл» и «рабочая ячейка».

Имя первой женщины-программиста для названия новой архитектуры графических процессоров выбрано не случайно. Эта архитектура позиционируется NVIDIA как переломный этап в работе с трассировкой лучей и нейронной графикой. Давайте разбираться.

Немного истории

В 2018 году NVIDIA запустила архитектуру Turing для графических процессоров. Используя новые аппаратные ускорители, Turing объединил растеризацию, трассировку лучей в реальном времени, искусственный интеллект и моделирование, чтобы обеспечить невероятную реалистичность компьютерных игр и интерактивный опыт кинематографического качества. 

Спустя два года на смену Turing пришла архитектура Ampere с более мощными RT и тензорными ядрами, а также новой структурой SM, которая обеспечивала увеличенную производительность FP32. В сумме Ampere получилась в 1,7 раза быстрее Turing в растровой графике, и до 2 раз быстрее в сценах с трассировкой лучей.

В то время как прогресс в процессе производства кремния замедлился, современная компьютерная графика усложнилась в геометрической прогрессии. Инновации в освещении игровых сцен привели к тому, что изображение в играх выглядит так реалистично, как никогда прежде. Battlefield V стала первой игрой, использующей преимущества гибридного рендеринга с трассировкой лучей NVIDIA, требующего 39 операций трассировки лучей на пиксель для расчета световых эффектов в обычной сцене. Четыре года спустя Cyberpunk 2077 с новым режимом RT: Overdrive Mode стал требовать более 600 вычислений трассировки лучей на пиксель. Для создания среды такого уровня сложности с высокой частотой кадров NVIDIA и разработала архитектуру Ada Lovelace, которая показывает себя до 2-х раз быстрее в играх с растровой графикой и до 4-х раз быстрее в играх с трассировкой лучей по сравнению с Ampere. 

Добиться подобных впечатляющих результатов чипам Ada помогают целый ряд обновлений.

Особенности Ada Lovelace

Чип Ada Lovelace был масштабирован до рекордных размеров благодаря производственному процессу TSMC 4n. Технологические инновации и исследования материалов позволили инженерам NVIDIA создать графический процессор с 76,3 миллиардами транзисторов и 18 432 ядрами CUDA, способный работать с тактовой частотой более 2,5 ГГц, сохраняя при этом ту же TGP 450 Вт, что и флагманский графический процессор GeForce RTX 3090 Ti предыдущего поколения. Результатом стал самый быстрый и самый сложный в мире игровой графический процессор с характеристиками мощности, акустики и температуры, ожидаемыми от видеокарты высочайшего класса.

GeForce RTX 4090 — первая видеокарта GeForce, основанная на новой архитектуре Ada. В основе GeForce RTX 4090 лежит графический процессор AD102, который является самым мощным графическим процессором на основе архитектуры NVIDIA Ada. AD102 был разработан, чтобы обеспечить революционную производительность для геймеров и создателей контента, и позволяет RTX 4090 стабильно обеспечивать частоту кадров более 100 кадров в секунду при разрешении 4K во многих играх.

Ada AD102 GPU

Теперь о самом интересном — строении чипа и цифрах. Полноценный чип AD102 включает 12 кластеров обработки графики (GPC), 72 кластера обработки текстур (TPC), 144 потоковых мультипроцессора (SM) и 384-битный интерфейс памяти с 12 32-битными контроллерами памяти. Также стоит упомянуть о наличии у чипа 288 ядер FP64 (по 2 на SM). Скорость FP64 TFLOP составляет 1/64 от скорости TFLOP операций FP32. Небольшое количество ядер FP64 включено для обеспечения правильной работы любых программ с кодом FP64, включая код FP64 у тензорных ядер.

Таким образом, полноценный чип AD102 включает:

  • 18432 ядра CUDA
  • 144 ядра RT
  • 576 тензорных ядер
  • 576 текстурных блоков

Доминирующим аппаратным блоком высокого уровня во всех графических процессорах семейства AD10x Ada является GPC, который в свою очередь включает в себя все ключевые графические процессоры: Raster Engine и два раздела растровых операций (ROP), каждый из которых содержит восемь отдельных блоков ROP  и шесть TPC. Каждый TPC включает в себя один PolyMorph Engine и два SM.

Каждый SM (потоковый мультипроцессор) в чипах AD10x содержит:

  • 128 ядер CUDA
  • одно ядро ​​RT Ada третьего поколения
  • четыре тензорных ядра Ada четвертого поколения
  • четыре текстурных блока
  • регистровый файл размером 256 КБ
  • 128 КБ L1-кэша, которые можно настроить в зависимости от потребностей графики или вычислительной нагрузки

Также каждый SM в чипах AD10x разделен на 4 блока обработки, включающих:

  • регистровый файл размером 64 КБ
  • кэш инструкций L0
  • один планировщик деформации
  • один блок диспетчеризации
  • 16 ядер CUDA, предназначенных для обработки FP32 (до 16 операций FP32 за такт)
  • 16 ядер CUDA, которые могут обрабатывать операции FP32 или INT32 (16 операций FP32 за такт ИЛИ 16 операций INT32 за такт)
  • одно тензорное ядро Ada четвертого поколения
  • четыре блока загрузки/сохранения
  • блок специальных функций (SFU), который выполняет трансцендентные и графические инструкции интерполяции

Как уже было упомянуто выше, один потоковый мультипроцессор (SM) у чипов Ada имеет 128 Кб L1-кэша. Полноценный чип AD102 содержит 18432 КБ кэш-памяти L1 (по сравнению с 10752 КБ в GA102). 

С кэшем L2 все обстоит еще лучше, ведь он был полностью переработан. AD102 оснащен 98304 КБ кэш-памяти L2, что в 16 раз больше по сравнению с 6144 КБ, поставляемыми в GA102. Такой большой пул доступной быстрой кэш-памяти означает, что сложные операции, такие как трассировка лучей (особенно трассировка пути), принесут наибольшую выгоду.

Что касается скорости памяти, то благодаря тесному сотрудничеству NVIDIA и Micron видеокарта GeForce RTX 4080 поставляется с памятью GDDR6X 22,4 Гбит/с; это самая высокая скорость среди всех графических процессоров с памятью на основе GDDR, в то время как GeForce RTX 4090 по заверениям NVIDIA и вовсе  обеспечивает пиковую пропускную способность памяти в 1 ТБ/с.

Последующие графические процессоры Ada, включая AD103 и AD104, будут использовать ту же базовую архитектуру, что и AD102.

Ядра RT 3-го поколения

Ядра RT третьего поколения чипа Ada Lovelace выводят технологию трассировки лучей на новый уровень благодаря вдвое большей пропускной способности при пересечении «луч-треугольник», увеличивая пиковую производительность в RT-TFLOP. Как и в чипах Ampere и Turing, у графических процессоров Ada есть механизмы Box Intersection Engine и Triangle Intersection Engine. Они позволяет снять нагрузку с SM, освобождая его для выполнения других задач пиксельного, вершинного и вычислительного затенения.

Представленные только у третьего поколения ядер RT движки Opacity Micromap (OMM) и Displaced Micro-Mesh (DMM) дают значительное ускорение трассировке лучей. Движок OMM отвечает за трассировку лучей для текстур с альфа-тестированием, которые задействованы при отображении листвы, пламени и других частиц игрового мира. Движок DMM, в свою очередь, отвечает за более быстрое построение иерархии ограничивающих объемов (BVH) и значительно сокращает место для хранения BVH, тем сам обеспечивая трассировку лучей в реальном времени для геометрически сложных сцен. То есть Micro-Mesh Engine обеспечивает преимущество повышенной геометрической сложности без привычных затрат на производительность и хранение сложной геометрии. В сумме все четыре механизма делают Ada RT-ядро самым мощным RT-ядром из когда-либо созданных Nvidia.

С приходом Ada Lovelace также повышается и производительность шейдеров для операций трассировки лучей. Эти шейдеры занимаются вычислением уровня света, темноты и цвета во время рендеринга изображений 3D-сцены, и без них никуда в любой современной игре. Усовершенствованная трассировка лучей требует улучшенного расчета всех лучей, падающих на разные типы материалов по всей сцене, а технология Shader Execution Reordering (SER) помогает переупорядочить неэффективные нагрузки в более эффективные и получить прирост производительности шейдеров до 3х раз и дополнительный прирост FPS в игре на 25%.

Тензорные ядра 4-го поколения

Тензорные ядра — это специализированные высокопроизводительные вычислительные ядра, предназначенные для матричного умножения и аккумулирования математических операций, которые используются в приложениях искусственного интеллекта и высокопроизводительных вычислений. Тензорные ядра обеспечивают революционную производительность для матричных вычислений, которые имеют решающее значение для обучения нейронных сетей глубокого обучения и функций логического вывода, которые выполняются на периферии.

Тензорные ядра четвертого поколения чипа Ada Lovelace призваны значительно ускорить работу технологий на базе искусственного интеллекта. К таким в первую очередь относится NVIDIA DLSS, а конкретнее ее новая итерация NVIDIA DLSS 3, способная создавать новые высококачественные кадры для увеличения производительности в играх от 2х до 4х раз. Тензорные ядра Ada используют новый движок Hopper FP8 Transformer Engine с пропускной способностью до 1,4 петафлопс в тензорном блоке (увеличение до 5 раз!). Подробнее о работе NVIDIA DLSS 3 читайте здесь.

NVIDIA NVENC

В результате событий последних лет геймеры больше, чем когда-либо, используют такие сервисы, как Twitch. Внедрение кодировщика NVIDIA NVENC и оптимизации для OBS (Open Broadcaster Software) устранило необходимость в выделенном ПК для захвата видео, что позволило пользователям играть и транслировать с одного ПК с хорошим качеством потоковой передачи и высокой частотой кадров в играх. Обновление архитектуры не обошло стороной и энкодеры. 

Графические процессоры Ada выводят потоковую передачу и видеоконтент на новый уровень, включая поддержку кодирования видео AV1 в специализированном аппаратном кодировщике Ada восьмого поколения (известном как NVENC). Графические процессоры Ampere предыдущего поколения поддерживали декодирование AV1, но не поддерживали кодирование. Кодировщик Ada AV1 на 40% эффективнее кодировщика H.264, используемого в графических процессорах серии GeForce RTX 30. C Ada стримеры получили возможность транслировать видео в разрешении до 1440p (2к), при этом сохранив тот же битрейт и качество изображения, которые были у них с разрешением 1080p. Это же касается и видеозвонков и прямых эфиров. Для повышения производительности кодирования графические процессоры серии Ada GeForce RTX 40 с объемом памяти 12 ГБ и более оснащены двумя кодировщиками NVENC. Это позволяет кодировать видео с разрешением 8K/60 для профессионального редактирования видео или с четырьмя разрешениями 4K/60.

Выводы

Рекордная производительность Ada стала возможной благодаря ряду производственных инноваций. Инженеры NVIDIA тесно сотрудничали с TSMC, чтобы создать производственный процесс 4n, адаптированный для графических процессоров NVIDIA. Меньший процесс позволяет интегрировать в чип больше процессорных блоков и памяти. 

Графический процессор NVIDIA AD102 содержит 18 432 ядра CUDA (на 70% больше ядер CUDA, чем у Ampere), 18 МБ кэш-памяти L1, 96 МБ кэш-памяти L2 (в 16 раз больше, чем у Ampere) и большой регистровый файл размером 36 МБ. Весь графический процессор содержит более 76 миллиардов транзисторов, что уступает только NVIDIA H100. Несмотря на то, что GeForce RTX 4090 работает на тактовой частоте Boost Clock 2,5 ГГц, что на 660 МГц выше, чем у предыдущего флагмана GeForce RTX 3090 Ti, она потребляет те же 450 Вт TGP. В конечном итоге Ada обеспечивает вдвое более высокую энергоэффективность по сравнению с Ampere предыдущего поколения.

Какими бы огромными не были количество ядер, память и тактовая частота, графический процессор Ada — это нечто большее, чем просто эти цифры. Мультипотоковый процессор (SM) был значительно улучшен, особенно для рабочих нагрузок трассировки лучей.

Ядро RT третьего поколения Ada предлагает в 2 раза более высокую пропускную способность пересечения лучей и треугольников по сравнению с графическими процессорами Ampere предыдущего поколения (и в 4 раза быстрее, чем у Turing). 

Ada RT Core также включает в себя два новых аппаратных блока. Первый, Opacity Micromap Engine, ускоряет альфа-обход в 2 раза. С помощью этой новой возможности разработчики могут очень быстро назначать значения непрозрачности объектам неправильной формы (например, папоротникам и заборам) или полупрозрачным объектам (например, пламени или дыму), что позволяет ядру Ada RT напрямую проводить альфа-тестирование этой геометрии вместо того, чтобы полагаться на SM графического процессора.

Второй новый аппаратный блок, который был включен в ядро ​​​​Ada RT, — это Displaced Micro-Mesh Engine. Новый Micro-Mesh Engine был разработан для сокращения времени построения BVH и требований к хранению, которые традиционно требуются при работе со сложными объектами с высоким уровнем геометрической детализации. Благодаря этой новой функции для трассировки лучей был разработан новый смещенный примитив микросетки. Micro-Mesh Engine оценивает микро-сетки, и когда требуются дополнительные геометрические детали, Micro-Mesh Engine может динамически генерировать дополнительные микротреугольники по мере необходимости. По сравнению с традиционным рендерингом этих сложных объектов, MicroMesh Engine сокращает время сборки BVH в 10 раз, а требования к хранилищу BVH — в 20 раз.

Shader Execution Reordering организует и переупорядочивает рабочие нагрузки на лету, чтобы они могли более эффективно обрабатываться SM и RT Core.

В совокупности улучшения пропускной способности SM, более высокие тактовые частоты и количество ядер, ядро ​​​​RT Ada третьего поколения и новые функции, такие как переупорядочение выполнения шейдеров, обеспечивают графическому процессору Ada повышение производительности до 2 раз по сравнению с Ampere. Так как же в конечном итоге NVIDIA достигли увеличения производительности до 4 раз? Остальное приходится на новый ускоритель оптического потока графического процессора Ada и DLSS 3.

Графические процессоры Ada включают новые тензорные ядра ​​четвертого поколения. GeForce RTX 4090 предлагает удвоенную пропускную способность для существующих форматов FP16, BF16, TF32 и INT8, а ее тензорные ядра ​​четвертого поколения обеспечивают поддержку нового формата FP8. По сравнению с FP16, FP8 вдвое уменьшает требования к хранению данных и удваивает пропускную способность. Благодаря новому формату FP8 GeForce RTX 4090 обеспечивает производительность 1,4 петафлопса для рабочих нагрузок ИИ. 

И напоследок, все графические процессоры Ada поставляются с кодировщиком NVIDIA NVENC 8-го поколения, который добавляет поддержку кодирования AV1. AV1 на 40 % эффективнее предшествующего кодировщика H.264, который широко использовался ранее. Такое новшество позволит стримерам проводить трансляции с повышенным качеством, как будто они используют битрейт на 40% выше.

Надеемся, что этот материал был вам полезен. Также напоминаем, что в нашем апгрейд-сервисе вы всегда можете улучшить свой ПК или заказать полностью новый компьютер Boiling Machine с процессорами Intel 12 и 13 поколения, видеокартами GeForce RTX 30-й и 40-й серии и оперативной памятью DDR4 и DDR5 и твердотельными накопителями от Kingston.