Биоинформатика. Порозов Ю.Б. - 42 стр.

UptoLike

Составители: 

Рубрика: 

40
Лабораторная работа 7
Текстовые методы в биоинформатике
Цель работы: продемонстрировать потребности и пользу от методов
text mining (TM) в системной биологии и биоинформатике.
ТМ это метод извлечения информации из больших объемов текста.
Очевидно, что эта информация зависит, в том числе, и от потребностей
пользователя, от правильности составления им запросов. В системной
биологии одной из целей является представление организма в виде схем и
диаграмм. Иными словами организм должен быть представлен как система
взаимосвязей их базовых компонентов, таких, как гены и белки. Многие из
таких взаимосвязей могут наблюдаться исследователем независимо от
других исследовательских групп в мире. Некоторые взаимосвязи могут
являться побочным продуктом исследований, проводимых с другой целью,
а не для установления случайно выявленной (или вообще какой либо)
взаимосвязи.
На данный момент мы будем рассматривать белок-белковые
взаимодействия. Белки являются продуктами экспрессии генов. Каждый
белок выполняет специфическую, присущую ему функцию в клетке. Их
можно рассматривать как «разумные» частицы, выполняющие свои задачи
в клетках. Белки могут влиять друг на друга при связывании и, возможно,
происходящем при этом ингибировании или активации. Это значит, что
взаимодействующие белки могут образовывать сети или пути. Такие пути
могут быть классифицированы, разделены на метаболические, сигнальные,
транскипционные и другие.
В первой части работы мы проведём исследование одного сигнального
пути. Этот путь является небольшой частью большей сети путей,
вовлеченной в регуляцию деления клетки. Когда этот сигнальный путь
ломается, распадается, то клетка начинает делиться бесконтрольно, что, в
свою очередь, приводит к раку. Поэтому этот путь является
исключительно важным для исследователей механизмов канцерогенеза.
Мы будем использовать доступные инструменты (медицинские базы
данных) для изучения различных аспектов этого пути.
Во второй части работы мы уделим внимание известному инструменту
TM GATE (http://gate.ac.uk/). Мы будем использовать его (расчет F-score)
для оценки распознавания определенных терминов в биологических
текстах. GATE является довольно мощным инструментом, однако он
может быть неточен при работе с биологическими текстами. Мы проверим
насколько эффективно инструмент общего предназначения работает с
медико-биологическими текстами и насколько сильно биологические
тексты отличаются от, скажем, новостных текстов.
Инструменты и ПО, используемое в лабораторной работе: