Відповідь на статтю “Повстання машин скасовується”

7 min readJun 10, 2024

Раптово-випадково натрапив на українську статтю проти ШІ-думерів. Автору вдалося сконцентрувати доволі приголомшливу кількість помилок на одиницю тексту і таким чином створити дуже коротку, але дуже ілюстративну, колекцію поганих аргументів про ШІ. Що спонукає зробити її розгляд.

Одразу кажу: я думаю, що той факт, що ця тема в принципі хоч якось хоч кимось згадалася в Україні — це позитивна річ. Також позитивною річчю є те, що голова урядового комітету з питань розвитку сфери ШІ в принципі щось десь чув про ШІ. Це правда важливий позитивний крок. І наскільки я можу судити, Олексій Молчановський є гарною людиною. І він не сказав нічого унікально неправильного — це доволі типові погані аргументи. І нижче я буду гнобити/критикувати його текст не тому, що він якось фундаментально більш поганий, ніж аналогічні західні тексти, а тому що це (а) компактна ілюстрація поганих аргументів, (б) цей мій канал орієнтований більше на українську аудиторію, ніж інші мої медіа-канали, і найголовніше (с), тому що одна справа — коли ти просто верзеш до комічного дурну маячню, але зовсім інша — коли ти намагаєшся зробити вигляд, що твоя маячня є серйозною розумною позицією, а передові світові дослідники цього питання — це «поціновувачі конспірологічних теорій з черговими апокаліптичними прогнозами щодо штучного інтелекту».

Отже, пройдемося по найбільших ілюстративних пунктах.

Основа сучасних технологій ШІ ґрунтується на тих самих підходах, що й технології багаторічної давнини. Відмінність у тому, що сьогодні вони забезпечуються набагато більшою кількістю даних. — це просто вигадане твердження. Автор ніяк не може знати, на яких саме технологіях грунтуються передові розробки сучасних ШІ лабораторій, тому що вони не публікують не тільки власні моделі, але навіть приблизний опис цих моделей. Звичайно, там deep learning та attention mechanism, але він не може знати, що ще там є і наскільки це нове чи навпаки не нове. Окрім того, Sora не може бути просто трансформером. Q* не може бути просто трансформером. Навіть GPT-4 скоріше за все не є просто трансформером, інакше OpenAI не приховувала б архітектуру.

Дані є секретом успіху новітніх технологій, але й проблемою, тому що якісні дані закінчуються. І є ризик того, що скоро ШІ просто не буде на чому навчати. Існують різні оцінки щодо того, скільки вже якісних даних використано, але з тим, що їх стає дедалі менше, згодні всі. — звичайно, можна надати таке визначення «якісних даних», що це твердження буде тривіально правильним, але що це дає з точки зору коректності аналізу ситуації? Дійсно, згідно до законів масштабування, треба поліноміально більше даних, щоб зменшувати функцію втрат ЛЛМ, і дійсно, за фіксованого обсягу даних функція втрат обмежена вище нуля, тобто збільшення розміру ЛЛМ до нескінченності не опустить функцію втрат нижче певного позитивного ліміту. Але, скільки ж тут “але”!

1. Вичерпання унікальних даних не зупинить зменшення функції втрат у локальних масштабах часу — воно просто зробить це більш дорогою та неефективною процедурою. Кожне наступне лінійне зменшення функції втрат буде даватися складніше, ніж за наявності унікальних даних, у тому сенсі, що коефіцієнти зворотної степеневої функції масштабування зміняться «у гірший бік», але це буде все одно зворотна степенева функція. Якщо екстраполювати функцію на нескінченність, то колись буде приблизно досягнуто ліміту, який відповідає даному обсягу даних, але враховуючи те, що ми знаємо про конкретний вигляд закону масштабування, то він «зламається» раніше, ніж буде досягнуто цей ліміт, і те що він «зламається», зовсім необовʼязково означає, що функція втрат перестане падати — це просто означає, що зміниться закон, за яким вона падає.

2. Ентропія людського тексту взагалі може буде вища, ніж ліміт функції масштабування за даного обсягу даних! Насправді, автори оригінальної статті про закону масштабування спекулюють про те, що точка «зламування» закону масштабування і є точкою ентропії людського тексту, але це звичайно гіпотеза. Тоді взагалі нові дані не дадуть принципово нічого — усе, що можна вивчити з людського тексту, можна вивчити з вже наявних даних. Звичайно, що формально досягнення ентропії буде означати, що «досягнуто плато ШІ», але ШІ, функція втрат якого відповідає ентропії тексту, це богоподібна сутність зі здатностями, які неспівставно та радикально перевершують усе, на що здатні люди. Якщо «насичення» відбудеться на цьому рівні, то для людей вже давно все буде запізно.

3. Створювати більш складний, унікальний та низькоентропійний тренувальний текст абсолютно легко. Елементарний приклад — генерація NP-складних задач. ЛЛМ може тренуватися генерувати рішення NP-складних задач, тому що верифікація рішень займає поліноміальний час, і ми просто можемо перевіряти рішення звичайними алгоритмами, генеруючи такі задачі буквально до нескінченності — до нульової ентропії, тому що звичайно, що ентропія тексту «умови та рішення NP-складних задач» дорівнює нулю + випадковість генерації умов задач. Або просто генеруйте умовно рандомний код і давайте ЛЛМ передбачити результати його виконання — строго кажучи, це нескінченне джерело унікального складного тексту, та ще й такого, що, якщо Всесвіт Turing countable, то максимальна здатність передбачати цей текст означає максимальну здатність розуміти Всесвіт. Це гіперболізований приклад, але він демонструє ступінь абсурдності твердження «якісні дані закінчуються».

4. Ніхто не буде обмежуватися текстом. Ніхто вже не обмежується текстом. Обсяг доступного відео набагато більший, ніж тексту, і кількість унікальної інформації там ще більша. Якщо унікальні відео закінчаться — ШІ, що здатний ідеально передбачати усі наявні відео, це безумовно ШІ богоподібних здатностей.

5. Альтман: «scaling laws are decided by god; the constants are determined by members of the technical staf». Будь-які висновки на основі наївного прийняття поточних коефіцієнтів законів масштабування приречені на провал, тому що коефіцієнти змінюються — але завжди в бік прискорення. Поточна оцінка коефіцієнтів законів масштабування — це не найкраща оцінка, а верхня оцінка.

6. Трансформери — це маленька частина історії ШІ. Закони масштабування трансформерів — це ще менша частина історії ШІ. Закони масштабування прийшли і підуть. Уявіть собі людину, що каже у 2005 році каже, що подальший прогрес в ШІ неможливий, тому що LSTM вичерпали свої можливості. Уявіть собі будь-яку людину в будь-який момент історії розвитку ШІ, яка робила будь-яке твердження виду «архітектура ШІ Х вичерпала свої можливості, тому прогрес ШІ зупиняється» — вона завжди була неправа. На початку статті автор каже, що не вважає, що ми живемо в унікальній точці в історії — але здається, що він вважає навпаки.

7. Відсутність статистично значущого зменшення функції втрат не означає автоматично відсутність важливого зростання здатностей. Залежність між функцію втрат та здатностями, про які ми піклуємося, складна і доволі незрозуміла.

Якщо послухати науковців, які вивчають нейронауки, то вони говорять, що нам необхідно ще років 100, щоб повністю зрозуміти, як функціонує мозок. Ми й досі маємо забагато відкритих питань. Це теза Крістофера Коха¹, професора з Allen Institute for Neuroscience, яку він висловив під час AI Debate 2.0 у 2020 році. — це, можливо, абсолютно рекордний текст за кількістю хибних аргументів на слово, який я зустрічав в принципі.

1. Думка Коха не є науковим консенсусом.

2. Науковий консенсус з такого питання не є навіть мінімально надійним прогнозом.

3. Проблема розуміння людського мозку дуже відрізняється від проблеми розуміння штучного інтелекту.

4. Проблема розуміння штучного інтелекту дуже відрізняється від проблеми створення штучного інтелекту.

5. Проблема створення штучного інтелекту гарантовано легша проблеми розуміння штучного інтелекту.

6. Навіть якби вчений, на якого посилається автор, був фахівцем з релевантного питання — створення штучного інтелекту, у нього не було б жодних шансів зробити правильний прогноз.

7. Цитата була висловлена 2020 року, до того, як 95% здібностей ШІ, які ми маємо зараз, були розроблені.

8. Середнє чи медіанне значення прогнозу само по собі практично не несе жодної інформації (власне, окрім того факту, що середнє чи медіанне значення існує) в контексті управління ризиками. Треба оцінювати розподіл прогнозу в цілому.

9. Це просто рандомний прогноз з тисяч рандомних прогнозів — і на кожний смак існує свій прогноз. Які причини орієнтуватися саме на нього?

10. Враховуючи екзистенційну важливість питання, треба мати астрономічну впевненість, щоб зробити висновок, що ризик не суттєвий.

Тож коли вигулькує поціновувач конспірологічних теорій з черговими апокаліптичними прогнозами щодо штучного інтелекту, я… запрошую його почитати історію технологій. — наводжу декілька прикладів дурних поціновувачів конспірологічних теорій і пропоную автору просвітити цих невігласів:

Сем Альтман, CEO OpenAI;

Деміс Хассабіс, CEO Google DeepMind;

Даріо Амодей, CEO Anthropic.

Джеффрі Хінтон і Йошуа Бенгіо, двоє з трьох дослідників, які отримали нагороду Тюрінга за роботу над нейронними мережами і яких вважають «хрещеними батьками» сучасного штучного інтелекту.

Ілія Сатскевер, CTO OpenAI на момент підписання.

Повний перелік невігласів (серед них є директори та лідери практично усіх передових ШІ лабораторій) можна побачити тут: https://www.safe.ai/work/statement-on-ai-risk

Бізнес має дуже велику зацікавленість, але дійсно цінні рішення, які може запропонувати ШІ, доволі обмеженні. Він може намалювати картинку, обробити текст, витягти звідти інформацію. Проте наскільки це буде краще, ніж робота професійного експерта?

Ем, що?

AlphaFold3 зробила роботу мільярдів аспірантів, що працюють багато років. Компанії, що створюють ліки за допомогою ШІ, виходять на IPO. Сценарісти та актори в Голівуді втрачають роботу через ШІ. Нейромережі роблять молекулярні симуляції на рівні точності, який вважався неможливим. Гібридні системи ШІ вирішують геометричні задачі на абсолютній межі людських можливостей (золото міжнародної олімпіади з математики). Github Copilot використовується значною часткою програмістів і помітно збільшує їхню продуктивність для будь-якого рівня досвіду та знань.

Розкажу про особистий досвід: я писав текст і залучив до цього чат GPT. Але пояснювати йому, як саме написати, виявилось довше, ніж писати самостійно. — розкажу про особистий досвід: одного разу я намагався зайти в ChatGPT, але авторизація не спрацювала. Відповідно, це все ще сирий дурний продукт, ризиків нема. Q.E.D.

Чому ми вирішили, що живемо в унікальний момент історії з погляду технологій? — цей аргумент працює завжди, сліпий аргумент. Око, яке бачить завжди білий колір, є сліпим. Аргумент, який призводить до одного і того самого висновку завжди, не є аргументом.

Поточний ШІ не має власних намірів та механізмів їх втілення. — ШІ вже демонструє стратегічний обман (і ще). Існує величезна кількість літератури на тему емпіричних свідчень щодо goal misgeneralization і specification gaming, що фактично є утворенням ШІ власних, відмінних від очікуваних, намірів та інколи відкриттям невідомих людині механізмів їх втілення. Ця проблема публічно визнається усьома передовими ШІ лабораторіями, наприклад DeepMind, але подібна інформація є на сайті кожної подібної лабораторії.

Відповідь на статтю “Повстання машин скасовується”

Written by Ihor Kendiukhov