Nvidia Tesla

Продукт
Название базовой системы (платформы): Nvidia Volta
Разработчики: Nvidia (Нвидиа)
Дата последнего релиза: ноябрь 2017 года
Технологии: Процессоры,  Центры обработки данных - технологии для ЦОД

Содержание

GPU NVIDIA Tesla – это массивно параллельные ускорители, основанные на платформе параллельных вычислений NVIDIA CUDA. Графические процессоры Tesla специально разработаны для экономичных, высокопроизводительных вычислений, вычислительной науки и супервычислений, обеспечивая намного более высокую скорость работы широкого круга научных и коммерческих приложений по сравнению с системой на базе CPU.

CUDA – это платформа параллельных вычислений и модель программирования NVIDIA, которая обеспечивает значительное ускорение ресурсоемких расчетов с помощью графических процессоров. Модель программирования CUDA, загруженная более 1,7 миллиона раз и поддерживающая свыше 220 ведущих инженерных, научных и коммерческих приложений, является самым распространенным способом использования GPU ускорения при разработке приложений.

2017: Nvidia Tesla V100

GPU для дата-центров, предназначенный для ускорения искусственного интеллекта, HPC и графики. Основанный на самой современной архитектуре GPU [Nvidia Volta]], Tesla V100 предлагает в одном GPU производительность, равную 100 CPU, предоставляя ученым, исследователям и инженерам возможность находить решения для ранее нерешаемых проблем.

Тренировка алгоритмов искусственного интеллекта

Ученые берутся за все более сложные задачи, начиная от распознавания речи и обучения виртуальных ассистентов и заканчивая обнаружением дорожной разметки, и обучением беспилотных автомобилей вождению. Решение подобного рода задач требует обучения экспоненциально более сложных моделей нейронных сетей в сжатые сроки.

Оснащенный 43 тыс. ядер Tensor, Tesla V100 – это первый ускоритель, преодолевший барьер производительности в 100 тера-операций в секунду (TOPS) в задачах глубокого обучения. Второе поколение технологии NVIDIA NVLink™ соединяет несколько графических ускорителей V100, обеспечивая пропускную способность в 160 ГБ/с и позволяя создавать самые мощные вычислительные серверы. Модели, обучение которых занимало недели на системах предыдущего поколения, теперь можно натренировать всего за несколько дней. Благодаря такому серьезному сокращению времени, затрачиваемого на тренировку алгоритмов, искусственный интеллект поможет решить самовершенно новые проблемы.

Инференс

Чтобы открыть нам доступ к актуальной информации, сервисам и продуктам, компании начали использовать искусственный интеллект. Однако удовлетворение потребностей пользователей – сложная задача. К примеру, по оценкам крупнейших компаний с гипермасштабируемой инфраструктурой, им придется вдвое увеличить быстродействие своих дата-центров, если каждый пользователь будет пользоваться их сервисами распознавания речи всего по три минуты в день.

Ускоритель Tesla V100 создан для обеспечения максимальной производительности в существующих сверхмасштабируемых дата-центрах. Один сервер, оснащенный Tesla V100 GPU и потребляющий 13 кВт энергии, обеспечивает в задачах инференса такую же производительность, как 30 CPU-серверов. Подобный скачок производительности и энергоэффективности способствует расширению масштабов применения сервисов с искусственным интеллектом.

высокопроизводительные вычисления

HPC – фундаментальная опора современной науки. Начиная от прогнозирования погоды и создания новых лекарств и заканчивая поиском источников энергии, ученые постоянно используют большие вычислительные системы для моделирования нашего мира и прогнозирования событий в нем. Искусственный интеллект расширяет возможности HPC, позволяя ученым анализировать большие объемы данных и добывая полезную информацию там, где одни симуляции не могут предоставить полную картину происходящего.

Графический ускоритель Tesla V100 создан, чтобы обеспечить слияние HPC и искусственного интеллекта. Это решение для HPC-систем, которое отлично проявит себя как в вычислениях для проведения симуляций, так и обработке данных для извечения из них полезной информации. Благодаря объединению в одной архитектуре ядер CUDA и Tensor, сервер, оснащенный графическими ускорителями Tesla V100, может заменить сотни традиционных CPU-серверов, выполняя традиционные задачи HPC и искусственного интеллекта. Теперь каждый ученый может позволить себе суперкомпьютер, который поможет в решении самых сложных проблем.

Спецификации Nvidia Tesla v100

2016: Nvidia Tesla P100

20 июня 2016 года компания Nvidia представила графический ускоритель для масштабируемых дата-центров — Nvidia Tesla P100. Решение для платформы ускоренных вычислений Nvidia Tesla содействует созданию класса серверов производительность которых на уровне нескольких сотен классических серверов на платформе CPU [1].

Дата-центры — обширные сетевые инфраструктуры с многочисленными взаимосвязанными CPU-серверами — обрабатывают огромное количество транзакций, но их мощи недостаточно для обработки научных приложений и задач, связанных с искусственным интеллектом, когда требуются более эффективные, более скоростные серверные узлы. Ускоритель Tesla P100 на архитектуре Nvidia Pascal с пятью передовыми технологиями, согласно заявлению компании, обеспечивает высокую производительность и экономичность для самых ресурсоемких приложений.

Графический ускоритель Nvidia Tesla P100 на базе Pascal, (2016)
«
Искусственный интеллект и познание требуют абсолютно нового подхода и нового уровня вычислений. Графические процессоры Nvidia совместно с технологией OpenPower уже ускоряют обучение Watson новым умениям. Связка из архитектуры Power от IBM и архитектуры Pascal от Nvidia с интерфейсом NVLink вместе еще больше ускорит изучение процессов познания, ускорив развитие искусственного интеллекта.

Д-р Джон Келли III (John Kelly III), старший вице-президент Cognitive Solutions и IBM Research
»

Tesla P100 — первый ускоритель Nvidia со скоростью вычислений двойной и одинарной точности в 5 и 10 терафлопс соответственно. Tesla P100 на основе архитектуры Pascal повышает скорость обучения нейронных сетей в 12 раз по сравнению с решениями на основе архитектуры Nvidia Maxwell, заявили в компании Nvidia.

Процессор Pascal обладает 15,3 млрд транзисторов, построенных на базе 16 нм процесса FinFET. Он создан, чтобы обеспечить требуемую производительность и энергоэффективность для нагрузок с практически неограниченными вычислительными требованиями.

Представление глубокого изучения, (2016)

Nvidia анонсировала ряд обновлений в платформе разработки для GPU-вычислений, Nvidia SDK. В число обновлений входит Nvidia CUDA 8. Версия платформы параллельных вычислений Nvidia представляет разработчикам прямой доступ к новым возможностям Pascal, включая унифицированную память и NVLink. Кроме того, в актуальный релиз входит библиотека анализа графов nvGRAPH, которую можно использовать для расчета траекторий, информационной безопасности и анализа логистики, что включает в сферу применения GPU-ускоренных вычислений аналитику Big Data.

Графические ускорители Nvidia Tesla P100 на платформе Pascal появятся в составе системы обучения Nvidia DGX-1 в июне 2016 года. Ожидается, что процессор появится в составе серверов в начале 2017 года.

2014: Nvidia Tesla K80

В ноябре 2014 года NVIDIA представила решение для платформы ускоренных вычислений NVIDIA Tesla: двухпроцессорный графический ускоритель Tesla K80 – ускоритель, предназначенный для широкого спектра приложений, включая машинное обучение, анализ данных, научные и высокопроизводительные (HPC) расчеты.

Двухпроцессорный ускоритель Tesla K80 – флагман платформы ускоренных вычислений Tesla, платформы для анализа информации и ускорения научных исследований. Данная платформа объединяет GPU-ускорители, используемую модель параллельного программирования CUDA и обширную экосистему разработчиков приложений, поставщиков приложений и поставщиков решений для ЦОД.

Двухпроцессорный графический ускоритель Tesla K80 обладает почти в два раза более высокой производительностью и вдвое более широкой полосой пропускания памяти по сравнению с предшественником - Tesla K40. Новый ускоритель работает в десять раз быстрее самого мощного на сегодня CPU, обгоняя центральные процессоры и конкурирующие ускорители в сотнях вычислительно тяжелых приложений для анализа данных и научных расчетов.

Пользователи смогут раскрыть потенциал широкого спектра приложений благодаря новой версии технологии NVIDIA GPU Boost, которая позволяет динамически управлять частотами, повышая производительность каждого конкретного приложения.

Двухпроцессорный ускоритель Tesla K80 был разработан для вычислительных задач в таких областях, как астрофизика, геномика, квантовая химия, анализ данных и не только. Он также оптимизирован для продвинутых задач «глубокого обучения», одной из самых быстро развивающихся областей индустрии машинного обучения.

Tesla K80 превосходит все остальные ускорители по скорости вычислений—до 8.74 терафлопс для вычислений с плавающей точкой в одинарной точности и 2.91 терафлопс для двойной точности. Tesla K80 в десять раз быстрее, чем самые быстрые CPU в ведущих научных и инженерных приложениях, таких, как AMBER, GROMACS, Quantum Espresso и LSMS.


Ключевые возможности двухпроцессорного ускорителя Tesla K80:

  • Два GPU на борту – вдвое более высокая скорость передачи данных в приложениях, использующих преимущества нескольких GPU.
  • 24ГБ ультраскоростной памяти GDDR5 – 12ГБ памяти на GPU – вдвое больше, чем у Tesla K40 – позволяет обрабатывать вдвое большие наборы данных.
  • Полоса пропускания 480ГБ/с – повышенная пропускная способность позволяет ученым обрабатывать петабайты информации вдвое быстрее по сравнению с Tesla K10. Оптимизировано для поисков источников энергии, обработки видео и изображений и анализа данных.
  • 4992 параллельных ядра CUDA® – ускоряют приложения до 10 раз по сравнению с CPU.
  • Динамическая технология NVIDIA GPU Boost – динамически меняет частоты GPU в зависимости от специфики приложений для максимальной производительности.
  • Динамический параллелизм – позволяет потокам GPU динамически рождать новые потоки для быстрой и легкой обработки данных в адаптивных и динамических структурах.

2013

Nvidia Tesla K20X

Производительность операций с двойной точностью

  • 1.31 Тфлоп на Tesla K20X
  • Более высокая двоичная точность, чем у потребительских решений Более быстрое сообщение с использованием PCI-E
  • Единственный продукт NVIDIA с двумя движками DMA для двунаправленного сообщения с использованием PCIe Высокая производительность в технических приложениях при работе с объемными наборами данных
  • Больший объем встроенной памяти (6 ГБ на K20X и 8 ГБ на Tesla K10 GPU) Более быстрое сообщение с InfiniBand при помощи NVIDIA GPUDirect
  • Специальный патч для Linux, драйвер InfiniBand и драйвер CUDA Высокопроизводительный драйвер CUDA для ОС Windows
  • Драйвер TCC снижает затраты вычислительных ресурсов ядра CUDA и поддерживает работу удаленного рабочего стола Windows, а также служб Windows

Файл:Tesla-k20-top.jpg

Ускорители Tesla GPU делают возможным совместное использование GPU и CPU в индивидуальном серверном узле или блейд-системе

Как выбрать графическую карту TESLA

Ключевые возможности Tesla K20X Tesla K20 Tesla K10 Tesla M2090 Tesla M2075
Производительность GPGPU 1 Kepler GK110 2 Kepler GK104s 1 Fermi GPU 1 Fermi GPU
Приложения для вычислений на GPU Обработка сейсмических данных, вычислительная гидрогазодинамика, компьютерное моделирование, финансовые вычисления, вычислительная химия и физика, анализ данных, спутниковая фотосъемка, моделирование погоды Обработка сейсмических данных, обработка сигналов и изображений, видеоаналитики Обработка сейсмических данных, вычислительная гидродинамика, компьютерное моделирование, финансовые вычисления, вычислительная химия и физика, анализ данных, сейсморазведочные построения, моделирование погоды
Пиковая производительность для вычислений двойной точности с плавающей точкой 1.31 Tflops 1.17 Tflops 190 Гигафлоп
(95 Гигафлоп на GPU)
665 Гигафлоп 515 Гигафлоп
Пиковая производительность для вычислений одинарной точности с плавающей точкой 3.95 Tflops 3.52 Tflops 4577 Гигафлоп
(2288 Гигафлоп на GPU)
1331 Гигафлоп 1030 Гигафлоп
Полоса пропускания памяти (без ECC) 250 GB/sec 208 GB/sec 320 ГБ/с
(160 ГБ/с на GPU
177 ГБ/с 150 ГБ/с
Размер памяти (GDDR5) 6 GB 5 GB 8 ГБ
(4 ГБ на GPU)
6 ГБ 6 ГБ
Ядра CUDA 2688 2496 3072
(1536 на GPU)
512 448

Примечания