Как ИИ повышает эффективность систем защиты информации. Максим Бузинов

Максим Бузинов

руководитель группы исследований «Ростелеком-Солар»
Формат
Запись

Максим Бузинов, руководитель группы исследований “Ростелеком-Солар” рассказал команде Global Digital Space как Искусственный Интеллект повышает эффективность систем защиты информации. На что стоит обратить внимание при развитии ИИ, о важности понимания механизма работы ИИ

 

 

Что такое искусственный интеллект? Почему он искусственный и почему интеллект?

Вопрос с небольшим подвохом. Почему интеллект? Почему искусственный? Ну, прежде всего его можно разложить на два слоя. Первый – философский.

Некоторые воспринимают искусственный интеллект, как некоторую такую замену человека или естественного интеллекта.

А второй – технический. Это то, как обстоят с этим механизмом принятия решений сейчас.

На данном уровне развития технологий за этим скрывается скорее набор сложных продвинутых алгоритмов, по своей сути ничем не отличающихся от алгоритмов, которые были ранее, лет 20- 30- 40 назад. Для компьютерного специалиста математика – это алгоритм оптимизации на самом деле. Это о том, что называется машинным обучением.

Но единственное отличие от тех, старых алгоритмов, это возможность обучаться на живых, на реальных данных, переобучаться в реальном времени. Тем самым вот этот класс алгоритмов стал называться интеллектом, потому что у него появилось новое свойство обучаемости.

И, по сути, есть три основных качества искусственного интеллекта.

Это умение воспринимать информацию – аналоги рецепторов.

Это умение обучаться или обобщать.

И третье – это умение принимать решения.

Вот эти три способности.

Поэтому так концептуально похожи на функции человеческого интеллекта. Поэтому было удобно назвать интеллектом. Ничего больше за этим не стоит пока что в развитии компьютерных технологий. Надеюсь, что в будущем это будет развиваться, и этот ИИ обретёт новые способности. Быть может, даже и какое-то сознание появится или зачатки мышления. 

 

Как использование ИИ влияет на эффективность современных систем защиты информации?

Стоит разделять ИИ на два типа.

Первый ИИ, алгоритмы ИИ – это те, что решают прикладные задачи. Довольно изолированные, легко формулируемые задачи.

Например, перехват какого-то подозрительного содержания в тексте или анализ аудиосигнала и вычленение оттуда голоса конкретного человека. Или распознавание эмоции человека на фотографиях или видеопотоке. Это прикладные задачи, и с ними на этом уровне сейчас ИИ себя очень хорошо и эффективно показывает. Это очень хорошее подспорье обычной человеческой аналитике, человеческому мониторингу.

И здесь всевозможные алгоритмы от анализа текста, контент-анализа, анализа видеопотока, анализа аудиопотока, всевозможные категоризации информации по косвенным признакам, по профилированию, профайлингу сотрудников и пользователей, такие задачи хорошо решаются.

Можно с уверенностью сказать, что бизнес-метрики и эффективность искусственного интеллекта явно измеримы. Мы делали замеры у некоторых заказчиков. По качеству, по скорости, по трудоресурсам, которые требуются для работы безопасников. Они значительно экономятся. Повышается эффективность. Но есть и вторая составляющая. Это тот самый автономный интеллект, который, может быть, некоторые поддавшиеся ажиотажу вокруг этой темы держат в уме. То, что есть некоторый автономный интеллект, который может заменить сотрудника безопасности, который в целом можно поставить в компании.

Может быть, даже он понаблюдает за тем, как работает офицер безопасности, и будет работать вместо него. Это пока недостижимо, могу сразу же отметить. Если где-то какие-то вендоры или рекламные материалы об этом говорят, то это, конечно, некоторая уловка. Пока что это не очень эффективно на практике себя показывает. 

 

Могли бы вы назвать 2-3 наиболее эффективных направления ИИ в области защиты информации в ближайшие годы?

Да. Здесь могу отметить прежде всего две проблемы: точность и полнота анализа информации. Точность – это то, что отвечает за ошибки. Ошибки, когда информация распознана неверно. Это можно ещё сравнить с проходом по валидатору в метро. Мы все сталкиваемся с этими ошибками, когда мы прикладываем карточку, а он не срабатывает. Или ложная сработка, что это неверная карточка была.

Здесь возникает проблема в безопасности намного серьёзнее. И искусственный интеллект, как показывает практика, можно натренировать смотреть на ложные сработки и вносить корректировки автоматически в правила политик, правила политик мониторинга, контроля, управления рисками, чтобы снижать вот этот процент ложных срабатываний, что будет сильно разгружать службу безопасности, когда десятки человек трудятся, обрабатывая эти ложные срабатывания. Это первое направление.

Второе направление – это контент-анализ. Здесь видится очень перспективной инвариантность движков машинного обучения по отношению к языкам. В последние годы очень хорошо себя зарекомендовали модели, состоящие из множества комбинаций нейронных сетей, различного рода свёрточных сетей, такие сложные архитектурные конструкции, которые обучаются на большом массиве исторических текстов и умеют читать текст на любом языке.

То есть я могу описывать текстом любое явление, а системе будет без разницы на каком языке потом это явление детектировать.

Тем самым можно будет писать, например, правила безопасности на русском, которые перехватывают учётные данные пользователей. Те или иные словари создавать, а система будет перехватывать на любом языке, неважно на каком.

Например, я хочу перехватывать какие-то вещи, связанные с профайлингом. Наркомания, например. Неважно на каком языке. И это уже работает.

И третье направление – это поведенческая аналитика и выявления аномалий. То, что даёт новые возможности по обнаружению скрытых угроз, которые невозможно заранее обнаружить преднастроенными правилами политик.

Работают они следующим образом: системы анализа поведения анализируют норму поведения для каждого сотрудника, и рамки поведения. То есть разные должности, разные функции, разные сотрудники могут по-разному проявлять себя в коммуникациях, по-разному себя вести, и у них формируется некоторый свой профиль, профиль нормального поведения. Система автоматом его считывает. Понимает, где допустимо для сотрудника поведение обычное, а где он явно выбивается, где появляются аномалии.

Особенно интересно видится здесь использование цепочек аномалий. Не просто разовых аномалий, а когда возникает, например, падение активности у человека, всплеск отправки сообщений по определённому каналу, накопление информации по другому каналу. И такие цепочки аномалий характерных формируют целые паттерны поведения, за которыми стоит прежде всего следить.

Их все невозможно отследить какими-то фиксированными правилами. Невозможно под каждого человека, когда тысяча сотрудников в компании, написать собственные правила.

А такие системы умеют как раз это делать. Реально фактически отслеживать норму поведения каждого сотрудника, анализировать тысячи действий, событий, то есть гигабайты, терабайты информации. И превращать это в аномалии. Это очень хорошее подспорье вот такой классической политике безопасности, которую реализуют системы DLP, SIEM и им подобные. Она ни в коем случае не заменяет, а находит то, что им, к сожалению, недоступно.

 

Какие распространённые мифы об ИИ мешают его распространению в сфере ИБ?

Мифов масса. На парочке я, наверное, остановлюсь. Прежде всего то, что искусственный интеллект освободит человека от его труда и махом решит все поставленные задачи. Это совершенно не так. ИИ требует скорее умения обращаться с ним, понимать, как он работает. Это некоторый такой инструмент, который может работать и в положительную, и в негативную сторону. Это не какая-то услуга, которую мне пришли, поставили, и она за меня всё сделала. Это миф, и если где-то в каких-то маркетинговых, рекламных материалах говорят, что ИИ, который решает задачу, не требуя никакого вмешательства, за вас всё сделает, то это маркетинговая уловка. 

 

Зависит от уровня задач.

Зависит, конечно. Но любая, даже самая простая задача, если не понимать, как функционирует этот чёрный ящик, то есть риск, что этот чёрный ящик совершенно неадекватно себя поведёт. Даже самая простая задача определения какого-нибудь объекта на изображениях вдруг себя поведёт таким образом, что начнёт срабатывать на изображениях памятников.

Или, наоборот, начнёт пропускать людей в масках.

Вот началась пандемия, люди в масках. Естественно сразу же куча проблем с этими системами распознавания лиц, которые резко пришлось дообучать под такого рода кейсы.

Поэтому задача может казаться простой. Сейчас она может легко решаться. Но меняются условия, меняются какие-то технические условия. Появляются новые вводные.

И если я не знаю как этот ящик чёрный устроен или как с ним обращаться, то это может превратиться просто в пустышку.

И, наверное, ещё один миф. О том, что ИИ не требует каких-то супервычеслительных мощностей. Что есть алгоритмы, которые работают на андроидах, на телефонах и так далее.

Если мы говорим про промышленные масштабы, то нужно понимать, что огромный объём событий, информации, это терабайты информации, всё-таки требует вычислительных мощностей, и тут ни о каких, конечно, железках уровня простых компьютеров речь не идёт. Это большие мощности, надо быть к этому готовым.

 

В чём нуждается отрасль ИИ сейчас, прежде всего в России, и какие вызовы стоят перед специалистами по анализу данных в ИБ сейчас?

Наверное, я один единственный вызов вижу, который кажется наиболее актуальным.

Конечно, есть вещи, связанные с тем, что необходимо со стороны государства увеличивать число программ обучения специалистов по анализу данных. Тем более в таких сильных вузах, например, как МФТИ, МГУ, ВШЭ. Там есть такие программы, но их надо намного больше расширять. И, конечно, взаимодействовать с бизнесом.

В общем главный вызов для любого, даже простого аналитика данных, его личный – это учиться коммуницировать с бизнес-заказчиком.

Это самое главное.

Обычно, заказчик не формулирует задачу точно и со всеми техническими условиями. То, что я вижу сейчас, это то, что data scientist, не поняв бизнес-контекста, не разобравшись в специфике выполняет задачу, и она у него очень здорово решается в его вакуумных, искусственных условиях. Но на практике это не работает без привлечения бизнес-аналитика, без привлечения к непосредственному участию в работе заказчика.

А ещё круче, если data scientist непосредственно ездит к заказчику, к постановщику задач, и регулярно прям вместе с ним анализирует что им необходимо, анализирует текущее положение дел, что он делает. И, может быть, даже выяснится, что и не нужно никакого ИИ в решении этой задачи, а можно решить её простым методом.

Таким образом главный вызов – это идти навстречу бизнесу, особенно в ИБ. Это такой очень насущный момент.

Здесь это особенно непросто, потому что в сфере безопасности все стараются как можно меньше делиться данными, делиться информацией. И data-аналитик должен быть готов. Буквально драться за данные и вытаскивать то, что необходимо заказчику. Самому додумывать и изучать бизнес-контекст. Экстраполировать исходную задачу в то, что будет действительно полезно. Не нужно ожидать то, что придёт некоторый бизнес-аналитик или заказчик и чётко скажет, что ему нужно решить. Так, к сожалению, не работает.

 

Запросить медиа-кит и прайс