loader image

PANN™-распознавание

Олег Гафуров

У меня есть товарищ по Фейсбуку, один из моих учителей, автор книги «Как люди думают», Дмитрий Чернышёв. В его авторском портфолио не только эта книга, есть и другие. Одна из них «Как люди видят». Я ещё не успел её прочитать, но название как раз может быть хорошим вопросом, чтобы разобраться во всех прелестях решения PANN™ в области распознавания картинок и образов.

А ведь действительно, как люди видят? Мне кажется, если бы этот вопрос себе задавали те, кто создаёт AI-решения и проекты по распознаванию фотографий, лиц, объектов и т.д., они бы пошли искать решение другим путём.

Впервые о том, как распознаёт объекты человеческий глаз и мозг, я услышал от Бориса Злотина, и мне его доводы и объяснения показались очень разумными. Я вдруг ясно начал вспоминать, как это делаю я сам. Что я фиксирую, когда я ищу мою дочь-первоклассницу в толпе детей, учителей и родителей? Любой наверно скажет, «знакомый образ». Вот именно, образ. Мой мозг распознаёт ребенка, даже если соседний пацан, надел ей на голову свою навороченную бейсболку.

При этом я не фокусируюсь на её шишке, полученной накануне, на её новых сережках (подарок мамы на началку) и т.п. Я фиксирую в голове только образ. Бывает, что в толпе играющих детей, я могу перепутать со спины или сбоку свою дочь с другой девочкой, но это на мгновение, пока она не повернётся и мозг снова не схватит знакомый образ или не отвергнет образ чужого ребенка.

Конечно в этом плане, мамин мозг способен наверно распознать дочь, даже если сама мама будет повернута к ней спиной))) Это тоже та ещё загадка Природы. Но я такое наблюдал.

Как же мы распознаём это? И как это должен делать ИИ? Борис привёл замечательный пример с шаржем на его товарища. А ведь действительно, в шарже не сам объект, а его комедийный образ на плоскости и нарисованный карандашом. Как же мы улавливаем что это наш друг, наш ребенок или сосед с третьего этажа?

И всё ведь действительно сводится к общим чертам, которые объединяют и этот шарж, и фото 10-тилетней давности и сам объект. Эти общие черты, Борис назвал их паттерны, и есть то, что даёт нам возможность распознать своего ребенка, друга или соседа в интерьере или в толпе.

А много ли требуется мне, чтобы распознать эти паттерны? Почему я обучаюсь видеть паттерны немного быстрее, чем любая искусственная нейросеть от Гугла или Майкрософта? Почему ей требуются сотни тысяч обучающих образов, специально подготовленных, миллионы итераций, колоссальные вычислительные мощности и всё для того, чтобы научить ИИ отличать кошечку от собачки.

Глядя на то, как обучаются даже двухлетний ребенок, легко понять, что здесь что-то не так. Ведь ребенку не нужны это тысячи картинок и миллион их просмотров. Всё что ему требуется, это пару раз показать кошечку и сказать, что это «кошечка» и тоже самое проделать с собакой. И ребенок достаточно легко начнёт различать их, даже если мы будем предъявлять ему животных разных пород и размеров.

Что в голове ребенка указывает на разницу между ними и почему это не требует у него столько много времени, как у классического ИИ. Форма морды, лап, поднятого хвоста и т.д., всё это паттерны, по которым малыш распознаёт их.

Как ни странно, это же можно отнести и к распознаванию болезней на снимках УЗИ, КТ или МРТ. Зная, что искать (паттерн), доктор тоже, прежде всего, ищет эти паттерны на снимке пациента. И найдя этот паттерн, определяет (не всегда верно) наличие или отсутствие заболевания, опухоли и т.д. И так в любой сфере. Покажите к примеру паттерн брака при производстве стеклопакета (микро-скол, трещину, затемнение и т.д.) и ИИ с легкостью будет отыскивать и отсеивать брак, без устали, без потери «концентрации», без сна и отдыха, 24/7.

Исследования в области распознавания образов с использованием искусственного интеллекта начались еще в 1950-х годах. Однако, настоящий прорыв в этой области произошел только в 2010-х годах, благодаря развитию глубокого обучения. Сейчас распознавание образов с использованием искусственного интеллекта широко применяется в различных областях, включая компьютерное зрение, робототехнику и биометрию (GPT).

Этот прорыв привел к созданию целого класса людей, которые занимаются разметкой и сортировкой данных. Их миллионы. В основе своей, это компании из Азии, где стоимость труда не такая высокая. Люди денно и нощно занимаются подготовкой картинок для обучения нейронных сетей, которые в последствии буду работать на компьютерное зрение.

А теперь представьте, сколько нужно денег, чтобы оплатить труд высококвалифицированных специалистов по разметке данных для Медицинского AI. Час времени врача, это совсем другой уровень стоимости обработки данных. И этих, размеченных картинок, необходимо очень большое количество, исчисляемое десятками тысяч для обучения сети одному заболеванию.

Теперь прибавьте время на перепроверку ошибок врача (устал, отвлёкся…), время на обучение самой ИНС, и вы получите неподъемную стоимость подобного проекта для средней руки больницы или университета. Здесь ещё не включена задача по переподготовке сети для другого заболевания или задачи, а это почти такой же круг.

Зато уже сейчас многие поднимают этические вопросы и вопросы об ответственности ИИ за неверно поставленный диагноз. Людям почему-то очень хочется иметь под рукой «козла отпущения».

Остаётся вопрос, почему до сих пор, никто не догадался посмотреть в глубину самого «мозга» ИИ. Может именно там кроется разгадка «умного ИИ» (не хочу приводить никаких аббревиатур, надоели и бестолковы)? Наверно давно надо было задаться этим вопросом: Что есть в голове двухлетнего малыша и нет в куче железа размером со стадион и больше?

Именно это ответ и нашла команда специалистов по ТРИЗ Бориса Злотина. Новый формальный нейрон и принцип обучения распознаванию паттернов, а не всей картинки целиком, позволяет приложениям omega-server.ai добиваться тысячекратного превосходства в скорости обучения без потери качества распознавания при стократном сокращении расходов на подготовку данных, вычислительные мощности и инфраструктуру.