Компанії microsoft і nvidia оголосили про спільне створення нової ші-моделі генерації природної мови , що отримала назву megatron-turing natural language generation (mt-nlg) («модель генерації природної мови мегатрона-тьюринга»). Зі слів розробників, створена ші-модель є найбільшою в світі і найбільш ефективною вже навченою моделлю природної мови, придатною для»монолітної трансформації».

Щоб отримати уявлення, наскільки велика нова система, можна порівняти її з ші-моделлю gpt-3, розробленою компанією openai. Останнім часом про неї багато говорилося в новинах. Gpt — 3 називалася найбільшою і просунутою мовною моделлю в світі. Вона придатна для вирішення «будь-яких лінгвістичних завдань англійською мовою».

тенденція зміни розмірів сучасних nlp-моделей з плином часу

Мовна іі-модель gpt-3 в даний час налічує 175 млрд параметрів. Нова модель mt-nlg охоплює 105 шарів і не менше 530 млрд параметрів. Це дозволяє вже її назвати найбільшою і найбільш потужною монолітної, навченої трансформаторної мовної моделлю.

Ai-модель mt-nlg є наступником моделей turing nlg 17b і megatron-lm. Вона змогла продемонструвати «неперевершену точність» в різних завданнях природної мови, таких як розуміння прочитаного, міркування здорового глузду, передбачення завершення тексту за змістом, розрізнення сенсу слів з декількома значеннями, генерація логічних висновків і створення висновків на природній мові.

зображення: графічний процесор nvidia a100

Навчання настільки потужної моделі стало можливим завдяки численним інноваціям в області розробки сучасної інфраструктури навчання на основі gpu (nvidia), які були використані разом з передовим програмним стеком розподіленого навчання (microsoft).

Навчання цієї гігантської моделі ai проводилося на суперкомп’ютері під назвою selene. Ця система складалася з 560 серверів nvidia dgx a100, кожен з яких містив по вісім графічних процесорів a100 з 80 гбайт відеопам’яті, підключеної через інтерфейси nvlink і nvswitch. Ця конфігурація аналогічна еталонній архітектурі, що використовується в хмарних суперкомп’ютерах azure ndv4.

Цікаво, що selene також працює на процесорах amd epyc 7742. Як заявляли розробники цієї машини з компанії the next platform, будівництво selene обійшлося приблизно в 75-85 млн доларів.

При розробці іі-моделі mt-nlg було створено 15 наборів даних природної мови, що містять понад 339 млрд токенів. Набори даних були взяті з англомовних веб-джерел, таких як академічні журнали, онлайн-спільноти (wikipedia і stack exchange), репозиторії коду (github), новинні сайти та інші. Найбільший набір даних називається the pile і важить 835 гбайт.

Крім цього, були розроблені методи навчання для підвищення ефективності і стабільності оптимізації.

Раніше редакція thg.ru опублікувала статтю про штучний інтелект . Штучний інтелект вже давно зайняв важливе місце в науково-фантастичній літературі і голлівудських блокбастерах. Саме вони формують думку більшості людей про те, що з себе представляє ші, і чого від нього слід очікувати. Але наскільки ця думка відповідає реальному стану речей? давайте розбиратися. Детальніше про це читайте в статті «штучний інтелект : правда і вигадка».

читайте також: