13:32

Генетики хотят записать на бактерии петабайты данных

Один грамм бактерий может хранить в себе более 900 терабайтов информации. В то время как на грамм классического компьютерного жёсткого диска приходится лишь от одного до четырёх гигабайтов. Этим сравнением начинает рассказ о своём проекте группа студентов из Гонконга, получившая золотую медаль на престижном конкурсе.

Принцип "биошифрования при помощи рекомбинации" молодые люди придумали не без помощи старших товарищей-учёных, но бóльшую часть работы по его претворению в жизнь провели всё же сами.

За свой проект ребята получили одну из золотых медалей конкурса по генной инженерии iGEM 2010. Его с 2004 года проводит Массачусетский технологический институт (MIT). Участники соревнуются в умении придавать бактериям новые нужные черты, изменяя их ДНК.

Кто-то из конкурсантов научил микроорганизмы заращивать трещины в бетонных конструкциях, другие – искать нитраты в почве, третьи при помощи синтетической биологии побороли инфекции, вызываемые как грамположительными, так и грамотрицательными бактериями. А студенты из Китайского университета в Гонконге (CUHK) посчитали полезной функцией бактерий Escherichia coli возможность хранения в их геноме данных, нужных человеку.

"Бактерии нельзя взломать. Отказ электрооборудования или кража данных для обычного компьютера – норма. А бактериям хакерские атаки нипочём. Информация под надёжной защитой", – говорит один из кураторов проекта Аллен Юй. На снимке он держит в руках фотоаппарат (фото Allen Yu).

Студенты внедрили в ДНК микроорганизма короткий текст о своей заинтересованности в конкурсе: "iGEm is very interesting".

Вначале компьютерная программа преобразовала исходный текст в цифровую последовательность, используя таблицу ASCII. Так буквы в слове iGEM превратились в цифровой код: 105 71 69 77.

Далее этот код преобразовали в четверичный. Как нетрудно догадаться, переход к этой системе счисления позволяет оперировать четырьмя символами, каждый из которых соответствует одному из четырёх оснований цепи ДНК (0 = A, 1 = T, 2 = C, 3 = G). Итого получается, что iGEM становится "1221 0113 0111 0131" или "TCCTATTGATTTATGT". А вся фраза "iGEm is very interesting" превращается в последовательность из 96 пар оснований в ДНК.

Рассмотренный пример – короткое предложение. Китайцы же грезят о том, чтобы "укладывать" в колонии E. coli большие тексты, аудио- и видеофайлы. Отсюда ещё одна ступень: алгоритм сжатия без потерь DEFLATE, который помогает значительно уменьшить последовательности кодов до начала синтеза нужного куска ДНК.

Алгоритм позволяет не только уместить в том же объёме большее количество информации, но и уменьшить количество гомополимеров (полимеров с одинаковыми мономерными звеньями) и повторяющихся фрагментов кода.

Лаборатория в Гонконге соответствовала всем правилам безопасности, так что изменённые бактерии не могли сбежать (фото CUHK).

Понятно, что теоретически можно взять нужную последовательность оснований любой длины и внедрить её внутрь ДНК бактерии. Однако такой подход пока трудно реализуем. В таком случае логично разделить полученную последовательность на фрагменты и эти куски внедрить в геномы нескольких клеток.

Для этого нужен следующий шаг – создание обширной памяти параллельного действия (parallel storage), в которой все элементы (отдельные фрагменты) могут быть доступны одновременно. В ней можно расположить информацию любого размера (так как клеток может быть сколько угодно).

Проблема в том, как при этом не получить абракадабру, не нарушить порядок частей текста. Для этого студенты предлагают сопроводить каждый фрагмент заголовком, содержащим информацию о местоположении собственно "сообщения", и "контрольной суммой". В результате мы получаем поезд из трёх вагонов: голова, сообщение и контрольная сумма. В таком виде последовательность можно вводить в ДНК микроорганизмов.

Заголовок состоит из восьми оснований, каждая их пара подсказывает, в каких зоне, регионе, области и районе было расположено данное сообщение.

Четыре адресные единицы позволяют определить местоположение куска информации в начальном коде точно так же, как и на обычном жёстком диске (иллюстрация CUHK).

Контрольная сумма позволяет решить проблему малых мутаций, которые могут происходить в ходе хранения информации в клетке, а также помогает установить правильную последовательность фрагментов сообщения при расшифровке (об этом чуть позже).

Для того чтобы внедрить вставку в геном бактерии, студенты воспользовались стандартными процедурами. Они извлекли ДНК из клеток, при помощи ферментов перекроили их, после чего вернули геномы на законные места.

Последовательность "вагонов поезда" (иллюстрация CUHK).

Чтобы лишить непосвящённых возможности прочесть внедрённый код, китайцы разработали процесс биошифрования. Студенты использовали природный механизм сайт-специфической рекомбинации (site-specific recombination), осуществляющей перестройку последовательностей в ДНК E. coli.

Для простоты описания отметим лишь, что вагон-сообщение внутри каждого поезда также поделено на части повторами (repeated sequences или repeats) – они показаны на рисунке выше. Эти метки позволяют ферменту рекомбиназе менять куски сообщения местами в любом порядке. И даже учёные не знают, в какой последовательности куски в конце концов встанут.

Процесс рекомбинации генетики включили, запустив экспрессию соответствующего гена. В результате рекомбиназа перепутала части сообщений, и в ДНК клеток обосновался самый настоящий шифр. (Подробности смотрите в PDF-презентации.)

Расшифровка сохранённых данных производится в три шага. Сначала учёные секвенируют геномы E. coli. Для этого лучше использовать высокопроизводительные технологии последнего поколения. Из полученной информации извлекается массив тех самых "поездов", каждый разделяется на "вагоны".

Так как программе-клиенту известен ключ для подсчёта "контрольной суммы", она может определять (перебором), в какой последовательности шли фрагменты сообщения изначально, а значит, способна его прочитать. Затем происходит сборка всех сообщений в единую последовательность при помощи адресов (иллюстрация CUHK).

В результате всех перечисленных манипуляций Декларация независимости США, состоящая, по подсчётам студентов, из 8074 символов, могла бы уместиться всего лишь в 18 клетках E. coli. Учитывая, что в одном грамме бактерий содержится около 10 миллионов микроорганизмов, каждый фрагмент мог бы иметь более 500 тысяч копий.

В ходе нескольких месяцев лабораторных испытаний китайцы установили, что их прототип биошифровальной системы вполне работоспособен. Учёные определили, что потерь кода в геномах не происходило.

Имели место две мутации, но эти "нарушения" можно будет обойти. В случае секвенирования нескольких геномов (мы помним о нескольких копиях одной и той же информации) неизменённый вариант кода можно будет определить простым "большинством голосов".

Описанным методом молодые учёные получили ту самую, заявленную в самом начале плотность упаковки информации: один грамм E. coli соответствует 450 двухтерабайтным дискам.

Ещё одно весомое достоинство наработки – долговечность хранения любой информации. Бактерии способны размножаться на протяжении тысячелетий! Конечно, для этого им надо создать хорошие условия существования. Во-первых, больше клеток выживет, во-вторых, снизится число мутаций, а значит, будет меньше головной боли при расшифровке.

Компьютерное моделирование в другой работе показало, что 99% информации сохранится даже при изменении 15% ДНК микроорганизмов, что произойдёт лишь спустя тысячелетия.

Некоторые бактерии, такие как Deinococcus radiodurans, например, выживут и после ядерного удара. Возможно, кто-то из людей сохранит информацию в недрах этих микроорганизмов (фото с сайта scifun.ed.ac.uk).

И не стоит беспокоиться об утилизации биологических жёстких дисков. Китайцы подчёркивают, что использовали для работы незаразные штаммы кишечной палочки (DH5-α). Гораздо большей проблемой было не столько выпустить E. coli во внешнюю среду, сколько не внести внутрь системы загрязняющие её компоненты.

Напомним, что в прежних исследованиях в области хранения и обработки информации в живых организмах учёным удавалось создать прототип биологической вычислительной машины и цифровую память из вирусов. Экспериментировали разработчики и с DVD, покрывая их поверхность белками.

Вшивать стороннюю информацию в ДНК бактерий тоже пытались. В 2007 году группа исследователей из университета Кейо (Keio University) записала в ДНК почвенной бактерии Bacillus subtilis следующую строку "E=mc2 1905".

А чуть раньше (в 2001 году) группа профессора Картера Банкрофта (Carter Bancroft) из медицинской школы Нью-Йоркского университета пробовала создать способ долгосрочного хранения данных в ДНК. Но никто из генетиков не тестировал и не доводил начальную идею до создания более универсального продукта.

Студенты же впервые доказали, что возможно массовое применение такого процесса, придумали, как сжать данные, разделить их на части, безопасно распределить между клетками (что равносильно преодолению лимита на объём хранимых данных).

Кстати, использовать такую технологию китайцы предлагают не только в сфере компьютерной памяти, но и для создания штрихкодов внутри ДНК различных организмов. Мол, пометим мы эдакой последовательностью генно-модифицированную пшеницу в Европе, а потом в США можно будет точно установить, откуда привезли те или иные семена.

Между прочим, таким образом можно внести не только информацию о производителе, но и описание свойств продукта или авторские права (фото CUHK).

Впрочем, даже нынешние достижения китайцев не позволяют сказать, что до создания биологического компьютера рукой подать. Вряд ли в ближайшие годы люди начнут хранить большие объёмы информации в коробочке с бактериями на полке холодильника. Ведь придумать последовательность действий и проверить действенность принципа на практике – лишь полдела. Впереди – создание системы, которая сможет работать вне стен лаборатории на обычном столе.

Источник


Просмотров: 1400
Рейтинг: 5.0/1
Добавлено: 17.01.2011

Темы: CUHK, parallel storage, биотехнологии, Китай, петабайты данных, синтетическая биология, наука, ДНК бактерии, E. coli
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]