Биоинформатика. Порозов Ю.Б. - 11 стр.

UptoLike

ВУЗ:

Университет ИТМО | Санкт-Петербург

Составители:

Порозов Ю.Б.

Рубрика:

Биотехнология

б) Найдите файл GenBank с последовательностью ДНК E.Coli isocitrate

dehydrogenase J02799, который использовался в лабораторной

работе №1.

в) Откройте файл и найдите в нём нуклеотидную и аминокислотную

последовательности. Удостоверьтесь, что последовательность

нуклеотидов – ДНК – на самом деле кодирует аминокислотную

последовательность белка. Вы можете это сделать путем

идентификации нуклеотидов (триплетов) в последовательности ДНК,

которые точно соответствуют последовательности аминокислот.

Будьте внимательны! Рамка считывания, (первый кодон) может

начинаться не с первого нуклеотида, а со второго или с третьего!

− Генетический код может быть получен тут:

http://helixweb.nih.gov/gcode.html. Аминокислотный код

представлен на

http://www.mun.ca/biochem/courses/3107/aasymbols.html Вам

может потребоваться убрать строку с комментариями, пробелы

и иные символы из нуклеотидной последовательности.

− Быстрый, но в то же время грубый способ найти начало рамки

считывания (то есть место в последовательности нуклеотидов,

соответствующее первой аминокислоте) – это попытаться

использовать какие-либо функции поиска подстроки. Мы знаем

(см. генетический код), что ATG – M (метионин) и в то же время

ATG может являться стартовым кодоном. Также можно

попытаться найти и более специфичные (более длинные)

подстроки, а не только последовательность, кодирующую М –

попробуйте поискать кодоны для как минимум первых шести

аминокислот в последовательности нуклеотидов. Можно также

осуществить поиск конца последовательности – места, где

заканчиваются кодоны, кодирующие аминокислоты белка.

Нужно иметь в виду, что существуют три стоп-кодона – TAG,

TAA, TGA. Эти кодоны не транслируются в аминокислоты. Вы

можете использовать регулярные выражения (если это

возможно), поскольку генетический код вырожден, то есть одна

аминокислота может кодироваться несколькими кодонами.

Например, регулярное выражение для поиска Lysine – AA[A,G]

(для UNIX). Упражнение: как записать Leucine регулярным

выражением?

г) Вторая проблема кроется в том, что последовательность, кодирующая

интересующий нас белок, на самом деле может находиться на

комплементарной нити ДНК (а не той, которая приведена в базе

данных, так называемые leading strand и lagging strand, strand + и

strand-). Как можно получить комплементарную последовательность

Заказать работу

Вы здесь

Биоинформатика. Порозов Ю.Б. - 11 стр.

UptoLike

ВУЗ:

Порозов Ю.Б.

Биотехнология

Страницы