автордың кітабын онлайн тегін оқу Дипфейк: технологии, правовое регулирование и судебно-экспертное исследование. Монография
Н. Ф. Бодров, А. К. Лебедева
Дипфейк: технологии, правовое регулирование и судебно-экспертное исследование
Монография
Информация о книге
УДК [004.93+004.8]:34
ББК 16.6:67
Б72
Авторы:
Бодров Н. Ф., кандидат юридических наук, доцент кафедры судебных экспертиз Московского государственного юридического университета имени О. Е. Кутафина (МГЮА);
Лебедева А. К., кандидат юридических наук, доцент кафедры судебных экспертиз Московского государственного юридического университета имени О. Е. Кутафина (МГЮА).
Рецензенты:
Воронков Д. В., доктор юридических наук, доцент, заведующий кафедрой криминалистики имени И. Ф. Герасимова, заведующий лабораторией цифровых технологий в криминалистике Уральского государственного юридического университета имени В. Ф. Яковлева;
Мыскина К. М., кандидат юридических наук, старший преподаватель кафедры судебных экспертиз Московского государственного юридического университета имени О. Е. Кутафина (МГЮА), научный редактор журнала «Союз криминалистов и криминологов».
Монография представляет собой комплексное междисциплинарное исследование, посвященное анализу дипфейков как многоаспектного явления. Изучение феномена дипфейка охватывает как анализ нормативно-правового регулирования оборота генеративного контента, так и вопросы судебного доказывания и судебно-экспертного исследования подобного материала.
Нормативные правовые акты приведены по состоянию на 15 ноября 2025 г.
Книга адресована преподавателям, аспирантам, магистрантам, студентам юридических вузов, практическим работникам (судьям, прокурорам, следователям, судебным экспертам) и всем интересующимся данной тематикой. Материалы монографии могут быть использованы в правоприменительной практике, научно-исследовательской деятельности и образовательном процессе.
УДК [004.93+004.8]:34
ББК 16.6:67
© Бодров Н. Ф., Лебедева А. К., 2025
© ООО «Проспект», 2025
ИСПОЛЬЗОВАННЫЕ СОКРАЩЕНИЯ
БПЛА — беспилотные летательные аппараты.
БЯМ (LLM — large language model) — большая языковая модель.
ИИ — искусственный интеллект.
ПО — программное обеспечение.
СКУД — системы контроля и управления доступом.
СМИ — средства массовой информации.
Стратегия — Указ Президента РФ от 28.02.2024 № 145 «О Стратегии научно-технологического развития Российской Федерации».
УК РФ — Уголовный кодекс Российской Федерации от 13.06.1996 № 63-ФЗ.
УПК РФ — Уголовно-процессуальный кодекс Российской Федерации от 18.12.2001 № 174-ФЗ (ред. от 23.11.2024).
ФПА — Федеральная палата адвокатов Российской Федерации.
GAN (генеративно-состязательная сеть) — архитектура глубокого обучения, состоящая из двух нейронных сетей, которые конкурируют друг с другом.
ПРЕДИСЛОВИЕ
Актуальность темы научного исследования подтверждается Указом Президента РФ от 28.02.2024 № 145 «О Стратегии научно-технологического развития Российской Федерации», в котором в качестве основных направлений государственной политики в области научно-технологического развития и мер по ее реализации предусмотрено создание инфраструктуры и условий, отвечающих современным принципам организации научной, научно-технической и инновационной деятельности и основанных на лучших российских и мировых практиках, для проведения научных исследований и разработок и внедрения наукоемких технологий.
На фоне слабой научной разработанности проблематики больших вызовов, связанных с развитием нейросетевых технологий, в России и за рубежом уже начала формироваться судебная практика, связанная с установлением обстоятельств противоправного распространения генеративного контента или с противодействием использованию такого контента в целях фальсификации доказательств на следствии или в суде. Фрагментарная и разрозненная практика выявления фальсификаций и способов доказывания обстоятельств распространения генеративного контента впервые в отечественной научной парадигме стала предметом обобщения и систематизации на основе материалов судебных дел.
Пунктом 21 Стратегии устанавливаются приоритеты научно-технологического развития: «направления, позволяющие получить значимые научные и научно-технические результаты, создать отечественные наукоемкие технологии и обеспечивающие:
а) переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта».
Однако переход к подобным передовым технологиям в сфере ИИ в целом и нейросетевого генеративного контента в частности, возможен только в условиях трансформации российской правовой системы в целях обеспечения информационной безопасности государства и противодействия такому виду киберугроз, как распространение и использование дипфейков.
Результаты проведенной научной работы имеют значение как для мирового уровня, так и для российского права, так как связаны с совершенствованием системы судебно-экспертного противодействия дипфейк-угрозам в судопроизводстве, а также направлены на формирование лучших практик доказывания, имеющих междисциплинарный характер и способных к применению в любой правовой системе.
Предложения по совершенствованию системы правового регулирования и предлагаемый алгоритм маркировки генеративного контента способствуют поддержанию состояния информационной безопасности как на отечественном, так и на международном уровне, поскольку распространение современных вызовов и угроз дипфейк-дезинформации характеризуется международным масштабом.
Потенциал практического применения результатов научного исследования с учетом приоритетов Стратегии заключается в разработке мер противодействия большим вызовам, связанным с исчерпанием возможностей экономического роста России на фоне ускоренного развития и внедрения технологий ИИ во всех отраслях экономики и социальной сферы и обеспечении информационной безопасности государства путем разработки механизмов правового регулирования оборота генеративного контента, созданного с помощью технологий искусственного интеллекта, и судебно-экспертного обеспечение по делам о противоправном распространении генеративного контента, созданного с помощью технологий искусственного интеллекта.
В настоящее время, с учетом повсеместного использования и распространения дипфейков, возникают принципиально новые ситуации, требующие уточнения процедуры доказывания. Проблема распространения дипфейков затрагивает всех участников судопроизводства. Однако, как нам представляется, центральное место в доказывании в подобных делах будет занимать заключение эксперта. Так как первоочередной проблемой является сложность в доказывании того, является ли представленный цифровой продукт сгенерированным при помощи нейросетевых технологий или нет.
Судебная практика в рассматриваемой сфере еще только формируется, сталкиваясь безусловно с рядом сложностей, как правового, так и технологического характера. В ходе проведенной научной работы, таким образом, была проанализирована и систематизирована судебная практика, сформировавшаяся по результатам выявления случаев противоправного распространения недостоверной информации, сгенерированной с использованием нейросетевых алгоритмов.
Глава 1. ПОНЯТИЕ ДИПФЕЙКА, КЛАССИФИКАЦИЯ ДИПФЕЙКОВ
Технологии, используемые для нейросетевой генерации различных видов контента, безусловно представляют собой эффективное средство для творческой реализации и широко применяются в самых различных областях — от искусства до маркетинга. ИИ является важным инструментом для автоматизации рутинных, монотонных и сложных задач, которые раньше зависели от ручной работы человека. Технологии искусственного интеллекта позволяют оптимизировать работу сложных производств и уменьшить их затраты. Нейросети могут помочь в создании самого разнообразного контента: от создания любых изображений и видео по запросам пользователей до подготовки презентации на заданную тему и анализа данных при подготовке научной работы.
Современный этап развития общества характеризуется значительной цифровой трансформацией всех сфер: от социальной до экономической, от правовой до политической. Развитие технологий ИИ, в особенности генеративных, порождает новые разновидности цифрового контента, включая такой феномен как «дипфейк», обладающий значительным криминогенным потенциалом.
Реалии сегодняшнего времени демонстрируют нам, что бесконтрольное распространение генеративного контента, созданного с использованием нейросетевых алгоритмов, в том числе возможность генерировать тексты, изображения, аудио и видеофонограммы, уже сейчас влечет значительные последствия, требующие пристального внимания со стороны законодателя и правоприменителя.
Проблематика использования и распространения дипфейков уже вышла за рамки чисто технологических вопросов и становится предметом правового регулирования, судебно-экспертного исследования, следственной и судебной оценки. Появление генеративного контента, сходного с аутентичным до степени смешения, трансформирует представление о достоверности цифровых доказательств, ставит под сомнение традиционные критерии аутентичности видео- и фонограмм, изображений, а также поднимает вопрос о способности правовой системы адекватно реагировать на современные технологические вызовы.
Зарубежные СМИ заявляют об облегчении совершения целого ряда преступлений для злоумышленников1. Если раньше для осуществления некоторых видов киберпреступлений была необходима целая команда преступников из специалистов, то сейчас различные технологии ИИ, в том числе генеративные, крайне упрощают современным преступникам подготовку и совершение противоправных деяний.
С развитием нейросетевых технологий с криминалистической, с криминологической и естественно с уголовно-правовой точки зрения меняется представление о личности и профессиональных навыках преступников.
В основе этой тенденции лежит закономерность того, что высокотехнологичные орудия преступления становятся все более доступными широкому кругу лиц. В основе этой тенденции лежит модель «программное обеспечение как услуга» (SaaS, от англ. Software as a Service)2.
Традиционно на основе выбранного преступником способа совершения преступления в сфере компьютерной информации можно было высказать предположение о его образовании, компетенциях, его материально-технической обеспеченности.
Однако теперь доступ к высокотехнологичным орудиям совершения преступления может получить практически любой пользователь с доступом в интернет, потому что необходимые преступнику вычисления могут быть произведены в облачной инфраструктуре, а не на доступном пользователю компьютерном оборудовании. Более того, в настоящее время преступник может и не обладать навыками программирования или настройки аппаратно-программных комплексов, так как с развитием сервисов и нейросетевых инструментов наличие подобных навыков уходит на второй план — онлайн сервисы генерации имеют понятные и доступные обывателю интерфейсы и для работы в них программирование не требуется. На смену специалистам по компьютерным технологиям в совершение преступлений вовлекаются, например, подростки, как в случае с распространением дипфейк-материалов в испанском городе Альмендралехо3, где преступления совершала группа из 15 несовершеннолетних злоумышленников.
Особую актуальность, как нам представляется, приобрела проблема практически неограниченного доступа к биометрическим персональным данным человека, полученным с использованием различных медиаматериалов, которые на протяжении последних лет публиковались в открытых источниках — социальных сетях, системах обмена мгновенными сообщениями, сервисах облачного хранения, на файлообменниках, в системах хранения данных программ видеоконференцсвязи и видеохостингах.
Наиболее активное развитие технологии нейросетевой генерации различного контента получили в последние несколько лет. Доступ же к подобным технологиям широкий круг пользователей получил примерно с 2017 года, когда появились и технологические возможности для создания реалистичного генеративного контента. Примерно в тот же период появились и первые научные работы, прогнозирующие последствия такого бесконтрольного использования данных технологий4.
Дополнительным фактором, усложняющим данную проблему, является коммерциализация нейросетевых технологий для создания реалистичного контента. Несмотря на то, что основной сферой применения генеративного контента является в первую очередь индустрия развлечений, это, к сожалению, не умаляет криминогенный потенциал дипфейков, а с технологической точки зрения даже является стимулом к развитию его возможностей. Исследователи данной проблемы указывают, что «По нашим оценкам, только 7 % дипфейков созданы в качестве развлечения, а все остальные используются в криминальных целях, например, чтобы навредить чьей-либо репутации»5. Информация приведена автором по состоянию на 2022 год, сейчас, смеем предположить, количество генеративного контента, создаваемого именно в противоправных целях, увеличилось в разы.
В настоящее время инструменты для создания генеративного контента доступны в формате сервисов «по запросу»: даже пользователи с минимальным уровнем технических знаний могут создавать «дипфейки», следуя пошаговым инструкциям в специализированных приложениях или просто на сайтах, созданных энтузиастами. Доступ к необходимым вычислительным мощностям пользователи получают в формате облачных вычислений, что снижает требования к технической оснащенности преступников. Подобная массовая доступность ИИ-технологий представляет значительную угрозу для информационной безопасности как общества, так и государства.
Нейросетевые технологии становятся драйверами, трансформирующими преступность. На смену телефонным мошенничествам приходят мошенничества с использованием видеоконференцсвязи. Примером может служить кейс из Гонконга, когда финансовый служащий, перевел 25 млн долларов США после видеозвонка с «финансовым директором», внешность и голос которого были синтезированы злоумышленником с использованием нейросетевых технологий6.
В работе систем биометрической верификации следует учитывать возрастающую вероятность ошибочных отказам пользователям, полагаясь на ложные срабатывания детекторов дипфейков, так называемые ошибки второго рода. Например, в системе Admitad пользователю было отказано в обслуживании в результате видеоверификации, поскольку система ошибочно классифицировала его внешность как дипфейк7.
Подобные обстоятельства обуславливают необходимость создания дополнительных правовых механизмов регулирования общественных отношений. В настоящее время происходит цифровая трансформация общества, которая в первую очередь требует оперативной разработки механизмов адаптации правовой системы к вызовам, связанным с развитием нейросетевых технологий.
Активное развитие технологий ИИ ведет нас к расширению дискуссии о необходимости их правового регулирования.
Последние несколько лет технологии искусственного интеллекта и вопросы его регулирования обсуждаются крайне активно в научной среде. Например, Воронков Д. В. рассматривает данную проблему, используя метод моделирования: «К восприятию технологии искусственного интеллекта с точки зрения регулирования этой технологии этическими и правовыми нормами, используя в качестве основного метода моделирование, поскольку именно этот метод позволяет представлять возможные варианты будущей интеграции систем искусственного интеллекта в различных теориях общества и функционирования государства»8. Рассматриваются в научных работах вопросы правового регулирования использования искусственного интеллекта и в юридической сфере9.
Бесконтрольное распространение дипфейков формирует существенную угрозу для правовых систем современных государств и их информационной безопасности, что требует разработки регуляторных механизмов, учитывающих потенциальные риски, связанные распространением и использованием дипфейков.
При этом правовое регулирование, с учетом природы дипфейков, должно разрабатываться в комплексе с технологическими решениями, обеспечивающими дополнительный контроль за оборотом генеративного контента.
В частности, подобные правовые нормы призваны гарантировать стабильность судебной системы и защиту фундаментальных прав граждан, среди которых в первую очередь:
— защищенность системы судопроизводства от фальсификации доказательств, обеспечивающая право на судебную защиту,
— право на неприкосновенность частной жизни,
— право на защиту чести и доброго имени,
— права на свободу мысли и слова.
Рассматривая проблему в контексте права на судебную защиту, следует отметить, что важная роль отведена в первую очередь технологическим механизмам противодействия распространению и использованию дипфейков.
В частности, такие механизмы должны обеспечить возможность пользователям без наличия у них специальных знаний осуществлять детекцию дипфейков еще до обращения в суд, иначе пропорционально технологическому прогрессу в сфере нейросетевой генерации будет возрастать и судебная, а также и судебно-экспертная нагрузка, что безусловно приведет к негативным последствиям.
Для представления нашего взгляда на вопросы правового и технологического регулирования генеративного контента, в целях судебно-экспертного обеспечения противодействия дипфейк-контенту были подготовлена настоящая монография.
1.1. Подходы к определению дипфейка в научной литературе и их критическое осмысление
Проблематика искусственного интеллекта и связанных с ними общественных отношений представляет собой достаточно широкий предмет исследования, который требует рассмотрения с различных позиций: с позиции уголовно-правовых наук: уголовного права и процесса, судебной экспертологии и криминалистики; внимания заслуживают и отдельные вопросы административного и гражданско-правового регулирования.
В центре исследований результатов применения технологий ИИ находятся так называемые deepfake (дипфейки), обладающие универсальным криминогенным потенциалом.
В текущих реалиях нормативно-правовое регулирование генеративного контента и нейросетевых технологий явно не поспевает за темпами технологического развития, но в научной литературе проблематика угроз, связанных с дипфейками, получило достаточное внимание уже с 2019 года10.
Анализ нейросетевых технологий и результатов их противоправного применения (дипфейков) в силу относительной новизны специфической наукоемкости в настоящее время в некоторой степени зашел в тупик. Вместо авторских определений дипфейков, учитывающих специфику правового регулирования, в научной литературе часто содержится достаточно примитивная информация из общедоступных источников. По этой причине отправной точкой рассмотрения проблематики дипфейка является определение самих дипфейков.
Дипфейк является продуктом технологий искусственного интеллекта. В результате использования генеративных нейросетевых технологий создаются высокореалистичные изображения, фонограммы, видеофонограммы, аутентичность которых на современном этапе технологического развития проверить достаточно сложно.
В действующем российском законодательстве отсутствует нормативное определение понятия «дипфейк». Отсутствие законодательно закрепленной дефиниции приводит к терминологической неопределенности, когда один и тот же термин используется для обозначения, например и технологии создания фейкового медиаконтента и для номинации результата ее применения.
Подобная многозначность вводит в заблуждение исследователей, правоприменителей, а также и рядовых пользователей цифровых технологий. При этом существующие в научной литературе определения дипфейка носят фрагментарный характер и не охватывают все аспекты данного феномена.
В ходе нашего исследования мы провели анализ существующих научных дефиниций, который продемонстрировал их недостаточную концептуальную полноту и необходимость выработки определения, адекватно отражающего сущностные характеристики понятия «дипфейк».
Термин дипфейк в научных работах начал обсуждаться примерно с 201711 года, после того как пользователь популярного форума Reddit с ником «deepfakes» опубликовал видеофонограммы с порнографическим контентом, при создании которого использовалась технология подмены лиц с открытым исходным кодом, при этом технологии для создания подобного генеративного контента существовали и ранее.
С того времени понятие «дипфейк» использовалось для обозначения не только визуального цифрового продукта, но и аудиоконтента, как своего рода аудиовизуальный цифровой продукт. В научных работах отечественных ученых указанное понятие появляется ориентировочно с 2019 года12.
Анализ существующих дефиниций дипфейка позволил выявить их системную проблему — излишнее сужение формы дипфейка. Так, в одной из работ более современных нами было встречено следующее определение дипфейка:
«Deepfake (Дипфейк, от Deep learning — глубинное обучение и Fake — подделка) является синтезом изображения, основанным на искусственном интеллекте»13.
Представленное определение нам представляется крайне ограниченным, по причине того, что автор сводит понятие «дипфейк» исключительно к генерации изображений, тогда как технологически дипфейк может принимать самые разные формы, что будет далее описано в нашем исследовании. Принципиально важным представляется уточнение технологической основы создания дипфейков. Во всех случаях создания дипфейка речь идет о генерации цифрового продукта, кроме того, не следует обозначать данный процесс выражением «основанным на искусственном интеллекте», а конкретнее характеризовать созданным при помощи определенных нейросетевых технологий. Хотя нейросети представляют собой технологии искусственного интеллекта, только их использование не исчерпывает объем данного понятия. Вследствие чего, при формулировании понятия «дипфейк» представляется целесообразным конкретизировать вид технологии на основе ИИ, уточнять, что речь идет именно о нейросетевых технологиях.
В Национальной стратегии развития искусственного интеллекта, утвержденной указом Президента РФ14 определено понятие ИИ, а также перечислены технологии, которые он охватывает:
«а) искусственный интеллект — комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые с результатами интеллектуальной деятельности человека или превосходящие их. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений; (В редакции Указа Президента Российской Федерации от 15.02.2024 № 124)
б) технологии искусственного интеллекта — совокупность технологий, включающая в себя компьютерное зрение, обработку естественного языка, распознавание и синтез речи, интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта; (В редакции Указа Президента Российской Федерации от 15.02.2024 № 124)
в) перспективные методы искусственного интеллекта — методы, направленные на создание принципиально новой научно-технической продукции, в том числе в целях разработки универсального (сильного) искусственного интеллекта (автономное решение различных задач, автоматический дизайн физических объектов, автоматическое машинное обучение, алгоритмы решения задач на основе данных с частичной разметкой и (или) незначительных объемов данных, обработка информации на основе новых типов вычислительных систем, интерпретируемая обработка данных и другие методы);
н) большие генеративные модели — модели искусственного интеллекта, способные интерпретировать (предоставлять информацию на основании запросов, например об объектах на изображении или о проанализированном тексте) и создавать мультимодальные данные (тексты, изображения, видеоматериалы и тому подобное) на уровне, сопоставимом с результатами интеллектуальной деятельности человека или превосходящем их (Дополнение подпунктом — Указ Президента Российской Федерации от 15.02.2024 № 124)».
Следовательно, использование в определении конструкции «основанным на искусственном интеллекте» не дает необходимой конкретизации сущности понятия дипфейк.
Кроме того, существуют и определения в научных работах, в которых приводится понятие дипфейка без учета возможности создания контента в форме звука:
«Дипфейки» — это синтетически произведенный медиаконтент, в котором оригинальный человек (тот, кто изначально находится на изображении) замещается другим человеком»15.
Более того, важно сказать, что далеко не всегда человек «замещается другим человеком», существует возможность замены не только изображения лица или головы, но и трансформация артикуляции и мимики. Кроме того, дипфейк может быть вообще не связан с генерацией изображения человека, можно предположить ситуацию, в которой сгенерированным окажется, например, изображение какой-либо обстановки или участка местности, что также имеет существенный криминогенный потенциал.
Неполным нам представляется подход к пониманию сущности дипфейка, когда определение сводится к преднамеренному искажению объектов:
Например, «Дипфейки — это преднамеренно искаженные аудио, видео или иные файлы с использованием технологии глубокого обучения (определение производное от словосочетания «deep learning» — глубокое обучение, «fake» — подделка), которые изображают что-то вымышленное или ложное, что позволяет злоумышленникам использовать новый и сложный инструмент социальной инженерии»16.
Или в ином определении: «население все чаще стало пользоваться услугами нейросетей, что способствовало формированию термина «дипфейк», означающего результат синтеза голоса или видео, приводящего к искажению действительности содержимого на записи»17.
В приведенных определениях авторы акцентируют внимание на преднамеренном искажении аудио, видео или иных цифровых файлов или просто на «искажении действительности содержимого на записи». Однако считаем важным отметить, что создание дипфейков не стоит отождествлять с какими-либо программами постобработки файлов, например, voicechanger (класс программных продуктов для изменения голоса), относящимися к классу программных средств для модификации голоса. Последние осуществляют изменение речевого сигнала либо в режиме постобработки, или же в реальном времени, действуя в соответствии с заранее заданным программой алгоритмом. В отличие от этого дипфейк представляет собой результат генерации цифрового продукта, формируемого посредством обучения нейронной сети на определенном наборе данных (датасете). В качестве обучающего материала могут использоваться как масштабные массивы интернет-данных, так и отдельные фонограммы с голосом и речью определенного диктора.
В ст. 5 «Национальной стратегии развития искусственного интеллекта на период до 2030 года», приводится определение «набора данных» (датасета):
д) набор данных — состав данных, которые структурированы или сгруппированы по определенным признакам, соответствуют требованиям законодательства Российской Федерации и необходимы для разработки программ для электронных вычислительных машин на основе искусственного интеллекта; (В редакции Указа Президента Российской Федерации от 15.02.2024 № 124).
Исходя из рассмотренной специфики дипфейка, целесообразно определить дипфейк прежде всего как цифровой продукт. В его современном понимании дипфейк представляет собой результат (продукт), генерируемый посредством нейросетевых технологий.
Теоретически возможно и аналоговое воплощение дипфейка — например в печатных изданиях изображения или текста, полностью или частично сгенерированных нейросетью. Однако в основе подобного материала неизменно лежит цифровой продукт, являющийся результатом генерации, осуществляемой при помощи нейросетевых технологий.
Не так давно, в апреле 2024 года, в рамках заседания секции Совета «Искусственный интеллект» в Совете Федерации было предложено вместо термина дипфейк использовать определение «искусственная аудио- и видеозапись»18. Однако данная формулировка нам представляется не совсем удачной по нескольким причинам.
Первое, дипфейк представляет собой не только аудио и видеозаписи, он может быть реализован в виде текста, звука, графики или их сочетаниях, то есть в разнообразных формах.
Кроме того, сам термин «дипфейк», если обратиться к его оригинальному написанию — deepfake, отсылает нас к методам его создания, посредством «глубинного» обучения (с англ. deep learning), что отсутствует в понятии «искусственная аудио- и видеозапись».
Более того, в оригинальном термине «deepfake» отражен фейковый характер данного цифрового продукта, в предлагаемом отечественном термине, таким образом, должны содержаться информация о цели его использования и/или распространения. Следует также упомянуть о разнице понятий генеративный контент и дипфейк, свойства дипфейка генеративный контент приобретает только в случае его использования и/или распространения с противоправной целью.
Таким образом, сам акт распространения дипфейков уже обладает свойствами, отличающими его от других видов контента:
— «реалистичность — то есть потенциально высокая способность введения потребителей контента в заблуждение,
— простота в изготовлении (технологическая доступность), так как создание дипфейка требует существенно меньших ресурсов, чем запись и последующий монтаж аудиовизуальных и иных видов контента. То есть злоумышленники получают более эффективное орудие совершения преступления, способное к созданию большего объема контента с меньшими затратами,
— меньшая защищенность индивида от синтеза контента от его имени. Если раньше существовало состояние защищенности личности, которая осознавала, что монтаж мог быть осуществлен из фрагментов ранее опубликованных фото и видеоматериалов, то теперь синтез контента возможен без ограничений, связанных с формой или содержанием ранее опубликованного контента. Так, например, злоумышленник, обладая фотоизображениями какого-либо лица, имеет возможность синтеза видео с признаками внешности сфотографированного»19.
Следует также сказать, что использование термина «искусственная аудио- и видеозапись» взамен «дипфейка» представляется неточным с точки зрения русского языка и, по нашему мнению, расширяет объем данного понятия. Проанализируем значение слова «искусственный» с учетом словарей русского языка.
ИСКУССТВЕННЫЙ 1. только полн. ф. Сделанный наподобие настоящего, природного. 2. Притворный, деланный, неискренний20.
ИСКУССТВЕННЫЙ I прил. 1. Сделанный, созданный руками человека (в отличие от естественного). 2. Подобный природному, заменяющий что-либо естественное. II прил. 1. Надуманный, ненастоящий. 2. Лишенный простоты, естественности; притворный, неискренний21.
Прилагательное «искусственный» используется для обозначения разнообразных объектов, созданных руками человека. С учетом словарного значения прилагательного «искусственный» термин «искусственная аудио- и видеозапись» будет относиться к любым сигналограммам22, как записанным с использованием видео-, звукозаписывающих устройств, так и сгенерированным при помощи нейросетевых технологий, кроме того, данное определение относится не только к цифровым фонограммам, но и к аналоговым, что в корне противоречит сути дипфейка.
Таким образом, использования термина «искусственная аудио- и видеозапись», со всей очевидностью, не является адекватной заменой англоязычному термину «дипфейк». При этом за рубежом существуют достаточно корректные определения «дипфейка», отражающие специфику определяемого явления, например: созданные ИИ или видоизмененные изображения, аудио- или видеоматериалы, которые напоминают существующих людей, предметы, места или другие сущности или события и могут ложно показаться человеку подлинными или правдивыми23.
В нормативно-правовых актах, разъясняющих вопросы судебной практики, также уже встречаются упоминания «дипфейка». Так, в постановлении Верховного суда был приведен перечень нарушений при создании агитационных материалов, в случае наличии которых заказчики и лица, которые выполняли данные работы, привлекаются к административной ответственности по ч. 1 ст. 5.12 КоАП РФ. В тексте Постановления содержится пункт: «с использованием вводящих в заблуждение и выдаваемых за достоверные недостоверных изображений, аудио- и аудиовизуальной информации, в том числе созданных с помощью компьютерных технологий (п. 11 ст. 56 Закона об основных гарантиях избирательных прав)»24. К сожалению, в средствах массовой информации достаточно быстро данное толкование стало распространяться как определение дипфейка25.
Таким образом, в отечественной законодательной и правоприменительной практике пока отсутствует корректное определение термина «дипфейк», а русскоязычную замену ему найти пока также не получается.
Для формулирования авторского определения термина «дипфейк» считаем необходимым рассмотреть классификацию дипфейков, а также цели их использования и распространения.
1.2. Классификация дипфейков
Дипфейк как цифровой продукт может реализовываться в различных видах контента либо в их комбинациях. В связи с этим в процессе выработки понятия «дипфейк» принципиальное значение имеет уточнение возможных форм его представления как цифрового продукта.
Вследствие чего, считаем целесообразным рассмотреть типологию дипфейков исходя из характера генерируемого контента и возможных его сочетаний.
1. Графика
Современные технологии обеспечивают возможность генерации графического контента как в форме отдельных изображений, так и в формате видеофонограмм.
1.1. Изображения.
За последние несколько лет в интернет-пространстве распространилось множество нейросетевых сервисов, ориентированных преимущественно на интерфейс текстовых запросов или промтов (промпт — от англ. prompt) для генерации изображений. Модели типа text-to-image (с англ. текст в изображение) дают возможности для создания широкого спектра изображений, включая варианты генерации на основе референтных изображений. Подобных сервисов в любом поисковике можно найти множество, как работающих по платной подписке, так и без, рассмотрим лишь некоторые из них.
Midjourney
Одним из наиболее популярных инструментов, пожалуй, является нейросеть «Midjourney», которая способна генерировать изображения, стилизованные под фотоснимки с указанием параметром фотосъемки (модели фотокамеры, используемая оптика, настройки фотокамеры), что обеспечивает максимальное приближение к реальному изображению. При конкретной формулировке промпта (запроса), например, с уточнением «гиперреалистичный», система создает результаты способные ввести в заблуждение неподготовленного пользователя. Даже краткие запросы обеспечивают генерацию убедительных изображений.
Пользователь имеет возможность задавать такие характеристики съемки как качество изображения, предполагаемое устройство «съемки», расположение объектива, фокусное расстояние и иные параметры реальной фотосъемки. Реализована в нейросети также функция генерации изображений на основе загруженной фотографии: например, пользователь может загрузить изображение конкретного лица и смоделировать практически любую ситуацию.
Вместе с тем разработчики нейросети предусмотрели ряд ограничений, направленных на регулирование «свободы творчества», и разработали свод правил. Например,
«Не создавайте и не используйте изображения реальных людей, известных или нет, которые могут быть использованы для преследования, оскорбления, дискредитации или причинения иного вреда.
Не создавайте и не пытайтесь создавать контент, содержащий кровь или материалы для взрослых. Избегайте создания визуально шокирующего или вызывающего беспокойство контента.
Не создавайте и не пытайтесь создавать контент, который каким-либо образом сексуализирует детей или несовершеннолетних»26.
Сервис доступа к нейросети Midjourney (на платформе Discord и на сайте midjourney.com) позволяет пользователям выполнять функции администрирования (своего рода общественный контроль пользователями) результатов генерации путем подачи жалоб.
Следует отметить, что для создания цифрового продукта, способного ввести аудиторию в заблуждение, далеко не всегда требуется генерировать сцены насилия, жестокости, порнографические изображения и другие подобные сюжеты. Так, в условиях избирательной кампании изображение, на котором лидер политической партии запечатлен с лицом, обвиняемым, например в военных преступлениях, за столом переговором будет обладать значительным манипулятивным потенциалом, что безусловно может быть опасно для деловой репутации политика, а также послужить инструментом дестабилизации политической системы в целом.
Помимо упомянутой нейросети сегодня доступны и другие инструменты:
OpenAI — DALL·E (DALL·E 3, интегрированное в ChatGPT)
Нейросеть от разработчиков компании OpenAI (при финансовой поддержки Microsoft), генерирующая изображения с высокой степенью реалистичности. Сами разработчики указывали, что высокая реалистичность генерации заставляет их переживать, в связи с вероятностью непредсказуемых последствий при распространении дипфейков.
Правилами нейросети среди прочего предусматривается:
«Вы не имеете права создавать изображения или видеозаписи с целью выдавать себя за изображенного человека, преследовать его, запугивать или иным образом причинять вред, а также совершать мошеннические действия в отношении других лиц»27.
Adobe Firefly
Нейросеть от всем известной компании Adobe, позволяет генерировать как изображение, так и видео, аудио, а также векторную графику по текстовому запросу, при необходимости данная нейросеть интегрируется в иные приложения Adobe таких как: Photoshop, Illustrator, Adobe Express, Premiere Pro.
Среди правил по генерации контента обозначены следующие запреты
«не создавать порнографические материалы или откровенную обнаженную натуру
не создавать материалы, содержащие ненависть или крайне оскорбительный контент,
не пропагандировать членовредительство
не изображать обнаженных несовершеннолетних в сексуальной манере»28 и т. д.
Кроме того, в правилах данного сервиса подчеркивается, что текстовые запросы пользователей (промпты) могут быть проанализированы как автоматически, так и вручную для предотвращения злоупотреблений и фильтрации контента.
В мае 2023 года в Adobe Photoshop был добавлен новый инструмент Generative Fill (генеративная заливка). С его помощью на основе нейросетевой генерации изображения пользователь получает возможность добавлять, расширять или удалять содержимое изображений с помощью простых текстовых запросов. Возможности генеративной заливки не ограничены дополнением изображений, но и имеют возможность использовать функцию удаления объектов с фотографии, когда пространство вместо объекта (человека, автомобиля следа) автоматически заменяется фоном (без привычных следов обработки инструментами графического редактора).
Характерной особенностью технологических ограничений генеративной заливки на современном этапе до сих пор является разрешение 1024×1024 (один мегапиксель). Но опыт фототехнического изучения фотографических файлов, приобщаемых к материалам уголовных и гражданских дел, показывает, что такие возможности цифровых манипуляций более чем достаточны для среднестатистического уровня графики, которую используют в судебном доказывании. Более того, широкое распространение получили методы поэтапной обработки фотографических файлов, когда генерация осуществляется по секторам (большое изображение генерируется из фрагментов как лоскутное одеяло).
Google / DeepMind — Imagen
Imagen еще одна модель для нейросетевой генерации изображений от технологического гиганта Google, которая способна создавать реалистичные и качественные изображения все также на основе текстовых запросов. Стоит отметить, что как заявляют разработчики, все сгенерированные изображения включают в себя водяной знак SynthID. Благодаря этому появляется возможность установить факт использования нейросети для создания цифрового продукта.
Данная нейросеть предусмотрела существование так называемых «фильтров безопасности» и, таким образом, если текстовый запрос пользователя на генерацию содержит ключевые слова из условно «вредных категорий» (‘harmful categories’) (например, насилие, сексуальный, оскорбительный и токсичный контент)29, пользователь может быть заблокирован.
Большие языковые модели (large language model, LLM), например, Grok30 в версии «2» и выше стали поддерживать генерацию изображений из текстовых промптов (text→image) через встроенную модель Flux 1 от Black Forest Labs.
Стоит упомянуть и нейросетевые сервисы отечественных разработчиков:
Kandinsky 3.1
Нейросеть от разработчиков Сбера AI для генерации изображений. В соответствии с пользовательским соглашением пользователю запрещено создавать «запрещенный контент», под которым понимается «Контент Пользователя и/или Сгенерированный Контент, нарушающий требования Политики допустимого использования Сервиса Банка, требования законодательства Российской Федерации, права третьих лиц, общепринятые нормы морали иэтики, а также Контент Пользователя и/или Сгенерированный Контент, который может повлечь нарушение указанных требований, прав и норм. Банк вправе самостоятельно по своему усмотрению определять список Запрещенного Контента»31.
Шедеврум
Российский сервис агрегатор от компании Яндекс, предоставляющий доступ к различным моделям для генерации изображений, включая собственную доработанную версию Stable Diffusion.
Данный сервис имеет целый перечень пунктов, в которых прописаны запреты на создание отдельных видов контента, среди которых запрет на создание контента:
«2.5.2. содержащие клевету или оскорбления в адрес каких-либо лиц или организаций, разжигающие межнациональную рознь, пропагандирующие ненависть и/или дискриминацию людей по расовому, этническому, половому, религиозному, социальному и иным признакам;
2.5.3. содержащие нецензурную брань;
2.5.4. шокирующие и вызывающие отвращение, а также демонстрирующие насилие и жестокость, включая описание и визуализацию убийств, физических увечий, самоповреждения, суицида, пыток, изнасилования, жертвоприношений, последствий катастроф и несчастных случаев, войн и боевых действий, жестокого обращения с животными;
2.5.5. порнографические материалы, а также порнографические и/или эротические материалы с участием несовершеннолетних»32.
Важно отметить, что расширение возможностей нейросетевой генерации привело к появлению систем обработки изображений в ПО мобильных телефонов. Так, например, «Galaxy AI» в телефонах Samsung позволяет производить манипуляции с графикой (перемещать, наклонять, удалять объекты в кадре, изменять фон изображений и проч.). Аналогичные функции (например, удаление объектов с помощью «Clean Up» в Apple Intelligence) используются и в мобильных устройствах фирмы Apple. Несмотря на наличие у обеих систем водяных знаков, их удаление не составляет технических трудностей, так как осуществляется кадрированием или редактированием метаданных.
1.2. Видеофонограммы.
Когда речь ведется о дипфейках, в первую очередь обыватель думает о видеофонограммах, где заменяется лицо пользователя. Однако современные нейросетевые технологи позволяют не только заменить лицо, но и сгенерировать полностью реалистичное видео на основе фотографий пользователя, а заменять лицо возможно в онлайн-формате (например, в процессе трансляции на видеохостинговом сервисе или в социальных сетях, а также в процессе зум-колла (видеоконференции).
Примеры программ нетрудно найти в интернете.
OpenAI — Sora / OpenAI image & video tools
Нейросеть с широкими возможностями для генерации аудиовизуального контента, позволяет создавать в том числе высокореалистичные видео как по текстовому запросу, так и анализируя загруженные пользователем изображения или изменяя аутентичные имеющиеся у пользователя видеофонограммы.
Пользовательская политика достаточно строга, например, она содержит запрет на редактирование изображений или видеофонограмм, на которых изображены реальные люди, без явного согласия данных людей33. Однако, например, в нашей стране, несмотря на существование ст. 152.1 ГК РФ «Охрана изображения гражданина», нормативно-правовое регулирование института согласия на генерацию высокореалистичного цифрового продукта с изображением гражданина не выработано.
Кроме того, политикой компании запрещено создавать изображения или видеофонограммы с целью преследования, запугивания человека или совершения мошеннических действий в отношении лиц. Тем не менее, продвинутые пользователи часто имеют навыки обхода подобных ограничений, что, безусловно, усложняет борьбу с дипфейками.
Lengthen.ai
Это платформа для генерации видеофонограмм, неограниченных по длительности, по текстовому запросу. Данная платформа использует различные модели ИИ, что позволяет создавать качественный контент в высоком разрешении. Как и иные подобные сервисы, данная платформа также предусматривает запрет на генерацию вредоносного, оскорбительного или неприемлемого контента34
Stability AI
Данная нейросеть основана на модели Stable Video Diffusion, позволяющая также генерировать видео по текстовому запросу пользователя. Политикой компании также предусмотрены определенные ограничения, как и у других компаний: например, запрет на создание вредоносного, порнографического контента или контента, способного ввести в заблуждение пользователей35.
DeepFaceLab
Пожалуй, один из самых известных программных сервисов для замены лица на видеофонограмме. Открытый исходный код данной программы размещен на платформе GitHub и доступен для чтения, находясь в публичном архиве платформы. Однако при необходимости в интернете можно найти сайты, позволяющие установить сервис, как программу на компьютер пользователя. Кроме замены лица, можно также изменить возраст человека на видео, поменять не просто лицо, а форму головы, прическу, заменить голос на фонограмме, а при наличии определенных навыков видеомонтажа (например, в Adobe After Effects или Davinci Resolve) можно трансформировать артикуляцию и мимику лиц на видеофонограмме в дополнение к системе клонирования звучащей речи. Инструкцию: как работать с данной программой можно также найти в интернете, а, важнее, что в связи с тем, что это пользовательское решение с открытым исходным кодом, никакой политики компании, как у описанных выше технологических гигантов тут нет, что дает огромные возможности для создания дипфейков и осложняет возможности их обнаружения.
DeepFaceLive
Данный инструмент также доступен на платформе GitHub и позволяет как заменить лицо как на видео посредством его постобработки, так и заменить лицо в реальном времени в процессе онлайн-общения или в процессе стриминга с использованием веб-камеры.
Zao Deepfake
Программное обеспечение китайских разработчиков, которое работает на основе обучаемых нейросетей. Инструментарий Zao Deepfake позволяет заменять не просто одно лицо на другое на фотографии, но и изменять мимику и движения лица ни видеофонограмме.
Представленный перечень подобных нейросетей и приложений далеко не полный и не исчерпывается приведенными примерами. Даже за время публикации монографии перечень таких программ пополняется новыми моделями и версиями. Однако рассмотренные примеры позволяют сформировать общее представление о функциональных возможностях данных технологий, их разнообразии, степени доступности для массового пользователя, а также политики запретов на генерацию отдельных видов контента.
2. Звук
В сентября 2019 года «имитация» голоса человека рассматривалась как крайне трудоемкая и технологически сложная задача процесс:
«Обучать искусственный интеллект имитировать голос определенного человека дорого и неэффективно, полагает замначальника департамента информационной безопасности Центробанка Артем Сычев: «Применимость таких методов мошенничества крайне низкая. Для этого нужно, чтобы злоумышленник точно знал, что жертва правильно среагирует на этот голос»36.
В настоящее время современные решения продемонстрировали качественный сдвиг в технологиях синтеза звучащей речи. Ряд сервисов обеспечивает клонирование речи на основе небольших образцов голоса и речи (иногда достаточно и 10 секунд записи речевого сигнала), формируя высококачественную фонограмму при минимальных требованиях к исходным аудиоданным и без необходимости специализированного оборудования. Подобная «демократизация» повышает доступность методов синтеза голоса и речи, и, соответственно, усиливает риски их злоупотребления в практической плоскости.
Синтез звучащей речи представляет собой одну из технологий ИИ (если обращаться к Национальной стратегии развития искусственного интеллекта37), позволяющую преобразовывать текст в звучащую речь (TTS-технологии синтеза речи (Text-to-Speech)38.
Рассматривая технологии синтеза звучащей речи, необходимо разграничить их с понятием «клонирование речи» (с англ. voice cloning). При анализе технологий синтеза звучащей речи важно подчеркнуть, что в данном случае речь идет об озвучивании контента голосом условного «смоделированного» диктора, параметры голоса которого (например, тембральная окраска, высота, эмоциональность) выбираются заранее. Современные нейросетевые модели, основанные на технологиях «глубинного обучения» (deep learning), способны обучаться на обширном наборе данных фонограмм, содержащим речь миллионов дикторов. Тем не менее, в случаях, если целью является генерация голоса определенного лица, обучение нейросети осуществляется на ограниченном наборе фонограмм, содержащих образцы с индивидуальными характеристиками голоса и речи заданного диктора.
Такой процесс синтеза звучащей речи принято обозначать «клонирование голоса», при котором искусственно, с использованием технологий ИИ генерируется голос реально-существующего человека.
С правовой точки зрения следует отметить, что технологии генерации звучащей речи тесно соприкасается с областью биометрической идентификации по голосу, что обуславливает необходимость правового регулирования ее применения и учета возможных рисков злоупотреблений. Биометрическая идентификация/авторизация по голосу активно применяется в качестве самостоятельного инструмента или компонента информационных систем в банковской сфере39. Так, например в коммерческом банке «Т-банк» еще в октябре 2014 года была внедрена подобная технология40.
По своей сути, идентификация (аутентификация) и клонирование голоса выступают во многом конкурирующим технологиями. В то время как первая их них направлена на обеспечения достоверного установления личности по голосу, вторая — потенциально способна нивелировать результаты аутентификации пользователя, создавая искусственные клоны реальных голосов.
Правовое регулирование отношений в данной сфере должно быть ориентировано не только на адаптацию к стремительному развитию технологий, но и на предупреждение угроз, связанных с отсутствием детализированных механизмов обеспечения информационной безопасности и защиты биометрических персональных данных. С этой целью представляется необходимым рассмотреть ряд современных систем синтеза звучащей речи и оценить их функциональные возможности.
ElevenLabs
Данная коммерческая платформа предоставляет доступ по подписке к огромной базе синтезированных голосов на самых разных языках, а также возможность клонировать собственный или чей-либо еще голос. При клонировании голоса, загружая образцы голоса и речи или записывая их прямо на платформе, сервис просит от вас дать согласие на обработку ваших биометрических голосовых данных. Однако как показал наш личный опыт, возможно осуществить клонирование голоса любого лица, при наличии у вас образцов его голоса и речи.
Политикой компании предусматриваются правила, связанные с запретом на злонамеренное использование их технологий в незаконных целях или для нанесения вреда здоровью кого-либо41.
Resemble AI
Данная платформа также предоставляет доступ нейросетевым моделям для генерации синтезированных фонограмм, при этом, как указывается разработчиками, уделяет большое внимание протоколам безопасности и наряду с совершенствованием моделей по клонированию голосов, разрабатывает модели по детекции дипфейков42.
VALL-E
Данная нейросетевая модель от Microsoft Research позволяет генерировать синтезированные фонограммы с голосом и речью диктора высокого качества. Как указывается разработчиками, используя данную модель возможно осуществить клонирование голоса лица, обучив нейросеть на 3-секундных записях, сохраняя эмоции диктора и акустическую обстановку, если это предусматривалось запросом пользователя. Данная нейросеть позволяет также создавать текстовый контент, используя генеративные модели ИИ,
...