Disney та OpenAI розроблять відео з використанням технологій штучного інтелекту.

Компанія Disney підписала угоду з OpenAI, яка має потенціал кардинально змінити ландшафт розважального контенту. Від початку 2026 року відеогенератор Sora від OpenAI зможе створювати відеоматеріали з участю більше 200 персонажів з усесвіту Disney, Marvel, Pixar і "Зоряних війн". Платформа Disney+ буде демонструвати добірку кліпів, створених користувачами.

Disney вирішила вкласти мільярд доларів в OpenAI, плануючи використовувати його технології для розвитку нових можливостей для своїх підписників Disney+. Генеральний директор компанії Роберт Айгер підкреслив, що Disney "обережно та відповідально розширить межі нашого оповідання за допомогою генеративного штучного інтелекту". Він також зазначив на конференції, що компанія має намір надати можливість підписникам створювати контент прямо в Disney+. Наприклад, глядачі зможуть запитати сцену, де Ельза і Попелюшка об'єднуються, щоб здолати Малефісенту, хоча така сцена триватиме лише близько 20 секунд.

Порівняння з історією кіно показує масштаб змін. Перший збережений кінофільм "Сцена в саду Раундхей" датується 1888 роком і триває близько двох секунд. Перші повністю згенеровані штучним інтелектом відео, створені дослідниками з Массачусетського технологічного інституту та Університету Меріленду у 2016 році, також тривали близько секунди. Тоді як критики 19 століття називали ранній кінематограф "дурною цікавістю", сучасні скептики часто висміюють відео зі штучним інтелектом як марнотратство.

Складність створення зображень пов'язана з роботою сучасних технологій. Ці системи базуються на методі дифузії, який розпочинається з "шумового" зображення і поступово трансформується в чітке зображення. Штучний інтелект в процесі роботи фактично усуває розмитість і додає нові пікселі під час кількох ітерацій, поки не виникає завершена картина. Кожна ітерація, що покращує згенероване зображення, веде до зростання витрат.

Відео є ще більш складним завданням. Серія кадрів повинна бути скоординована так, щоб риси обличчя залишалися незмінними, а об'єкти не зникали. У високоякісному відео за одну секунду змінюється безліч пікселів. Білл Піблз, дослідник з OpenAI, який брав участь у створенні Sora, підкреслив: "Ми усвідомили, наскільки важко працювати з відеоданими. У цих відео міститься величезна кількість пікселів".

Система OpenAI управляє пікселями, спочатку стискаючи відео до більш простої версії, що зберігає ключову інформацію. Потім вона обробляє його подібно до нарізки хліба: спочатку розбиває на кадри, а потім ділить їх на кубики. Такий підхід дозволяє моделі ефективно координувати всі кубики між собою.

Дослідники шукають ефективніші підходи. Тяньвей Їнь, науковий співробітник стартапу Reve, який співрозробив програмне забезпечення CausVid для генерації відео, пояснює: "Замість того, щоб генерувати все відео одразу, ви генеруєте кадр за кадром. На кожному кроці ваші обчислення обмежені набагато меншою частиною замість повного обсягу, і це дозволяє вам створювати набагато довші відео".

Їнь висловлює думку, що системи зможуть досягти п'ятихвилинної генерації вже в наступному році, а завдяки об'єднанню різних технологій штучного інтелекту, це може розширитися до години незабаром після цього. Генеральний директор Google, Сундар Пічаї, в інтерв'ю для BBC підкреслив, що в найближчі роки учні старших класів можуть почати створювати повнометражні фільми, використовуючи можливості штучного інтелекту.