Графічний прискорювач для дата-центрів Nvidia Tesla P100
- Високошвидкісний інтерфейс Nvidia NVLink
- 16нм FinFET - запорука високої енергоефективності
- CoWoS з HBM2 для великих навантажень
- Нові алгоритми штучного інтелекту
- Ряд оновлень Nvidia SDK
На минулому тижні компанія Nvidia анонсувала свою чергову розробку - графічний прискорювач Nvidia Tesla P100, призначений для експлуатації в складі сверхмасштабіруемих центрів обробки даних. Нове рішення надає можливість створення абсолютно нового класу серверів, які по продуктивності порівнянні з декількома сотнями звичайних серверних станцій, які базуються на CPU.
Сучасні центри обробки даних є мережеві інфраструктури, які складаються з взаємопов'язаних серверів на базі CPU, які при роботі здійснюють обробку великої кількості транзакцій. Однак, навіть їх продуктивності стає недостатньо для сучасних додатків, які пов'язані зі штучним інтелектом. Для подібного програмного забезпечення потрібне використання надшвидкісних і надефективних серверних вузлів. Новий прискорювач Tesla P100, створений на базі архітектури Nvidia Pascal з п'ятьма передовими технологіями, забезпечує необхідний високий рівень продуктивності для будь-яких, навіть самих ресурсоємних додатків.
За заявою представників компанії, прискорювач Tesla P100 є унікальним у своєму роді, швидкість обчислень подвійний і одинарної точності досягає 5 і 10 терафлопс. Це дозволяє збільшити швидкість обробки даних і домогтися відкриттів в різних областях.
Nvidia Pascal являє собою революційну архітектуру для експоненціального зростання продуктивності. За словами представників компанії, прискорювачі підвищують швидкість навчання нейронних мереж на порядок, в порівнянні з графічними прискорювачами минулого покоління.
Високошвидкісний інтерфейс Nvidia NVLink
Nvidia NVLink є високошвидкісний інтерфейс, призначений для організації зв'язку між графічними процесорами. Його основною функцією є розподіл навантаження між GPU, що дозволяє збільшити пропускну здатність. Інтерфейс NVLink дає можливість організувати зв'язку одночасно до 8 графічних прискорювачів Tesla P100, значно збільшуючи загальну продуктивність вузла. Відзначимо, що компанією IBM вже був впроваджений інтерфейс в процесори Power8.
16нм FinFET - запорука високої енергоефективності
Процесор Pascal отримав 15,3 мільярдів транзисторів, що базуються на 16-нм процесі FinFET. Його впровадження дозволило забезпечити високий рівень енергоефективності та продуктивності для вирішення будь-яких завдань з будь-якими обчислювальними вимогами.
CoWoS з HBM2 для великих навантажень
Архітектура Pascal - це єдиний пакет, який об'єднує в собі процесора і дані. Це дозволило на порядок оптимізувати обчислення. Для збільшення пропускної спроможності був застосований унікальний підхід до побудови пам'яті Chip-on-Wafer-on-Substrate (CoWoS) з HBM2. Його використання дозволило ефективність в три рази в порівнянні з архітектурою минулого покоління.
Нові алгоритми штучного інтелекту
Пікова продуктивність прискорювача може досягати 21 терафлопса і вище при вирішенні завдань глибокого вивчення. Цього вдалося домогтися за рахунок інструкції половинної точності, відзначили в Nvidia.
Впровадження графічного прискорювача Tesla P100 дозволяє перейти на абсолютно новий рівень продуктивності в додатках для обчислень і глибокого вивчення. Зокрема прискорювач може використовуватися в додатках молекулярної динаміки Amber.
В середньому продуктивність восьми графічних прискорювачів Tesla P100 порівнянна з продуктивністю 250 двухсокетних серверних вузлів, використовуваних для навчання нейронної мережі AlexNet. Не менш популярний додаток прогнозування погоди COSMO буде працювати швидше на восьми GPU Tesla P100, ніж використовувані в даний момент 27 двухсокетних сервера.
Ряд оновлень Nvidia SDK
Крім анонсу нового графічного прискорювача компанія Nvidia представила кілька оновлень в платформі Nvidia SDK, яка використовується в розробці PGU-обчислень.
Зокрема один з головних оновлень став вихід оновленої платформи Nvidia CUDA 8, яка відкриває розробникам прямий доступ до різних можливостей архітектури Pascal, в тому числі уніфіковану пам'ять і NVLink.
Додатково компанія представила прискорює бібліотеку cuDNN версії 5. Бібліотека отримала підтримку архітектури GPU Pascal, прискорення рекурентних нейронних мереж.
cuDNN вже використовується в складі TensorFlow від Google, Caffe від Університету Берклі, Theano від Університету Монреаля і Torch від Нью-Йоркського Університету, прискорюючи роботу фреймворків глибокого навчання.