Пробирочная нейронная сеть читает неразборчивый почерк
Ученые из Калифорнийского технологического института создали артифициальную нейронную сеть из ДНК, которая может решить классическую проблему искусственного интеллекта: правильно считывать цифры, написанные от руки. Данная работа является значительным шагом вперед в процессе демонстрации работы программ артифициального интеллекта в синтезированных биомолекулярных системах. Исследование проводилось в лаборатории доцента биоинженерии Лулу Цянь. Результаты появились в сети 4 июля 2018 года, а 19 июля они были опубликованы в издании «Nature». «Хотя ученые только начали исследование области создания искусственного интеллекта в молекулярных устройствах, их высокий потенциал уже не вызывает сомнений», — говорит Цянь. «Так же как электронные компьютеры и смартфоны наделили современных людей новыми способностями относительно наших предков, живших столетие назад, искусственные молекулярные устройства смогут столетие спустя сделать что-то, состоящее из молекул, включая такие вещи, как краска, бумага или бинт, например, более качественным и соответствующим окружающей обстановке». Искусственная нейронная сеть — это математическая модель, на создание которой ученых вдохновило изучение функционирования человеческого мозга. Несмотря на то, что искусственная нейронная сеть значительно упрощена, если сравнивать с ее биологическим прототипом, она способна комплексно обрабатывать информацию. Конечной целью этой работы для Цянь и ее лаборатории является программирование интеллектуального поведения (способности подсчитывать, делать выбор и других функций) посредством искусственной нейронной сети, сделанной из ДНК.
Концептуальная иллюстрация капли, содержащей искусственную нейронную сеть из ДНК, которая смоделирована для распознавания сложной и имеющей помехи информации, представленной как «молекулярный почерк».
«У каждого из людей в мозге свыше 80 миллиардов нейронов, благодаря чему мы способны приминать наисложнейшие решения. Мелкие животные, такие как круглые черви, используют всего несколько сотен нейронов. В данной работе мы спроецировали и создали биохимическую систему, которая функционирует как небольшая сеть из нейронов и способна классифицировать молекулярную информацию более комплексно, чем это было возможно ранее», — сказала Цянь. Для иллюстрации возможностей нейронных сетей из ДНК научным сотрудником лаборатории Тянь Кевином Черри было выбрано вызывающе сложное задание для искусственных электронных нейронных сетей — распознавание почерка. Почерк человека может варьировать в широком диапазоне, поэтому, когда кто-то внимательно разглядывает небрежно написанную последовательность из цифр, его мозг для их идентификации выполняет сложные вычислительные задачи. Так как даже для человека трудно распознавать чужой неаккуратный почерк, идентификация написанных от руки цифр является распространенным тестом для программ искусственного интеллекта в артифициальных нейронных сетях. Эти системы должны быть обучены тому, как распознать цифры, включая учет вариаций их различного написания от руки, сравнение неизвестных цифр с их, так называемыми, «воспоминаниями» и определение идентичности цифр.
В работе, описанной в «Nature», Черри, ведущий автор исследования, продемонстрировал, что нейронная сеть, созданная из тщательно подобранной ДНК последовательности может осуществлять заданные химические реакции для точной идентификации «молекулярного почерка». В отличие от воспринимаемого зрением почерка, который распознается благодаря разнообразию геометрических форм, каждый образец молекулярного почерка фактически не принимает форму цифры. Вместо этого, каждая молекулярная цифра сделана из 20 уникальных нитей ДНК, из 100 молекул, каждая из которых нужна для определения одного индивидуального пикселя в каждом паттерне 10 на 10. Данные ДНК-нити смешаны в пробирке. «Отсутствие геометрии является частым в естественных молекулярных подписях явлением, все еще требующим сложноустроенных биологических нейронных сетей для своей идентификации, например, смесь уникальных одорирующих молекул, которые составляют запах», — говорит Цянь. Рассматривая конкретный пример молекулярного почерка, ДНК нейронная сеть может определить его в какую-то из 9 категорий, где категория — одна из девяти возможных написанных от руки цифр. Сначала Черри создал ДНК нейронную сеть для распознавания написанных от руки шестерки и семерки. Он протестировал 36 написанных от руки цифр: пробирочная нейронная сеть корректно идентифицировала их во всех случаях. Теоретически его система может классифицировать более 12 тысяч видов написания от руки шестерок и семерок (90% из этого взято из базы написанных от руки цифр, которая широко используется для устройств со средствами самообучения) — выбирая из двух возможных вариантов.
Ключевым в данном процессе является кодирование «победителя, который забирает все» в стратегии конкурентноспособности молекул ДНК, которую разработали Цянь и Черри. Согласно данной стратегии, специфический тип молекулы ДНК дублирует аннигилятор (уничтожитель), использующийся для отбора победителя, когда проводится определение идентичности неизвестной цифры. «Аннигилятор создает комплекс с одной молекулой первого из соперников и одной молекулой второго, происходит реакция, в результате которой образуются инертные, не вступающие в реакцию компоненты», — говорит Черри. «Аннигилятор быстро поглощает все молекулы соперников до тех пор, пока не останутся только молекулы победителя. Затем победивший соперник восстанавливается до максимальной концентрации и продуцирует флуоресцентный сигнал являющийся индикатором для принятия сетью решения».
Затем Черри, базируясь на принципах своей первой нейронной сети из ДНК, построил новую, которая может создавать большее количество комплексов, и которая способна классифицировать цифры с 1 до 9. Когда исследуется неизвестная цифра, внутри «интеллектуального супа» проходит серия реакций и генерируется два флуоресцирующих сигнала, например, зеленый и желтый представляет пятерку, зеленый и красный — девятку. Цянь и Черри планируют расширять искусственную нейронную сеть, которая может обучаться, формируя «воспоминания», которые добавляют образцы для пробирочных тестов. Таким способом, говорит Цянь, один и тот же «интеллектуальный суп» может быть обучен выполнять разные задачи. «Общая медицинская диагностика определяет присутствие множества биомолекул, например, холестерина или глюкозы крови. При использование более передовых биомолекулярных систем, подобных нашей, однажды диагностическое тестирование сможет включить сотни биомолекул с анализом и получением ответа непосредственно в молекулярной среде», — говорит Черри.