Биоинформатика. Порозов Ю.Б. - 11 стр.

UptoLike

Составители: 

Рубрика: 

9
б) Найдите файл GenBank с последовательностью ДНК E.Coli isocitrate
dehydrogenase J02799, который использовался в лабораторной
работе 1.
в) Откройте файл и найдите в нём нуклеотидную и аминокислотную
последовательности. Удостоверьтесь, что последовательность
нуклеотидов ДНК на самом деле кодирует аминокислотную
последовательность белка. Вы можете это сделать путем
идентификации нуклеотидов (триплетов) в последовательности ДНК,
которые точно соответствуют последовательности аминокислот.
Будьте внимательны! Рамка считывания, (первый кодон) может
начинаться не с первого нуклеотида, а со второго или с третьего!
Генетический код может быть получен тут:
http://helixweb.nih.gov/gcode.html. Аминокислотный код
представлен на
http://www.mun.ca/biochem/courses/3107/aasymbols.html Вам
может потребоваться убрать строку с комментариями, пробелы
и иные символы из нуклеотидной последовательности.
Быстрый, но в то же время грубый способ найти начало рамки
считывания (то есть место в последовательности нуклеотидов,
соответствующее первой аминокислоте) это попытаться
использовать какие-либо функции поиска подстроки. Мы знаем
(см. генетический код), что ATG – M (метионин) и в то же время
ATG может являться стартовым кодоном. Также можно
попытаться найти и более специфичные (более длинные)
подстроки, а не только последовательность, кодирующую М
попробуйте поискать кодоны для как минимум первых шести
аминокислот в последовательности нуклеотидов. Можно также
осуществить поиск конца последовательности места, где
заканчиваются кодоны, кодирующие аминокислоты белка.
Нужно иметь в виду, что существуют три стоп-кодона TAG,
TAA, TGA. Эти кодоны не транслируются в аминокислоты. Вы
можете использовать регулярные выражения (если это
возможно), поскольку генетический код вырожден, то есть одна
аминокислота может кодироваться несколькими кодонами.
Например, регулярное выражение для поиска Lysine AA[A,G]
(для UNIX). Упражнение: как записать Leucine регулярным
выражением?
г) Вторая проблема кроется в том, что последовательность, кодирующая
интересующий нас белок, на самом деле может находиться на
комплементарной нити ДНК (а не той, которая приведена в базе
данных, так называемые leading strand и lagging strand, strand + и
strand-). Как можно получить комплементарную последовательность