
بیوانفورماتیک چیست؟
مقدمه
دادههای زیستی با سرعتی بیسابقه در حال تولید هستند.برای مثال، تا ماه اوت سال ۲۰۰۰، مخزن GenBank از توالیهای اسید نوکلئیک شامل ۸٬۲۱۴٬۰۰۰ مدخل بود و پایگاه داده SWISS-PROT از توالیهای پروتئینی شامل ۸۸٬۱۶۶ مدخل بود.
به طور متوسط، میزان اطلاعات ذخیرهشده در این پایگاههای داده هر ۱۵ ماه دو برابر میشود.
علاوه بر این، از زمان انتشار ژنوم Haemophilus influenzae ، توالیهای کامل بیش از ۴۰ موجود زنده منتشر شده است، که از ۴۵۰ ژن تا بیش از ۱۰۰٬۰۰۰ ژن را شامل میشوند.
اگر به این اطلاعات، دادههای حاصل از پروژههای مرتبط بسیاری که به بررسی بیان ژن، تعیین ساختارهای پروتئینی رمزگذاریشده توسط ژنها و توصیف نحوه تعامل این محصولات با یکدیگر میپردازند را اضافه کنیم، میتوانیم تصور کنیم چه مقدار عظیم و متنوعی از اطلاعات در حال تولید است.
در نتیجه این هجوم دادهها، بسیاری از چالشها در زیستشناسی عملاً به چالشهایی در حوزه رایانش تبدیل شدهاند. چنین رویکردی ایدهآل است، زیرا رایانهها بهراحتی میتوانند مقادیر زیادی داده را پردازش کرده و پویاییهای پیچیدهای که در طبیعت مشاهده میشوند را بررسی کنند.
بیوانفورماتیک، موضوع این مرور کنونی، اغلب بهعنوان بهکارگیری تکنیکهای رایانشی برای درک و سازماندهی اطلاعات مرتبط با ماکرومولکولهای زیستی تعریف میشود.این پیوند ناگهانی میان دو حوزه عمدتاً به این واقعیت نسبت داده میشود که زیستشناسی خود یک فناوری اطلاعاتی است؛ فیزیولوژی و رفتار یک جاندار تا حد زیادی توسط ژنهای آن تعیین میشود، که در سطح پایه میتوان آنها را بهعنوان مخازن دیجیتال اطلاعات در نظر گرفت.
در همین حال، پیشرفتهای چشمگیری در فناوریهایی که دادههای خام را فراهم میکنند رخ داده است؛ به گفته آنتونی کرلاویج از شرکت Celera، یک آزمایشگاه تجربی میتواند بهراحتی بیش از ۱۰۰ گیگابایت داده در روز تولید کند .
این قدرت پردازشی شگفتانگیز با پیشرفتهای فناوری رایانهای همگام شده است؛ مهمترین زمینههای بهبود در CPU، حافظههای ذخیرهسازی دیسک و اینترنت بودهاند، که محاسبات سریعتر، ذخیرهسازی بهتر دادهها و انقلابی در روشهای دسترسی و تبادل دادهها را ممکن ساختهاند.
اهداف بیوانفورماتیک
اهداف بیوانفورماتیک سهگانه هستند.
هدف اول، در سادهترین شکل خود، بیوانفورماتیک دادهها را به گونهای سازماندهی میکند که به پژوهشگران اجازه دهد به اطلاعات موجود دسترسی داشته باشند و در صورت تولید دادههای جدید، آنها را ثبت کنند؛ برای مثال، پایگاه داده Protein Data Bank برای ساختارهای سهبعدی ماکرومولکولها .
در حالیکه ساماندهی دادهها کاری ضروری است، اطلاعات ذخیرهشده در این پایگاههای داده تا زمانی که تحلیل نشوند، عملاً بیاستفاده هستند.بنابراین، هدف بیوانفورماتیک بسیار فراتر از صرفاً کنترل حجم دادههاست.
هدف دوم، توسعه ابزارها و منابعی است که به تحلیل دادهها کمک میکنند.
برای مثال، پس از توالییابی یک پروتئین خاص، مقایسه آن با توالیهایی که پیشتر شناسایی شدهاند، اهمیت دارد.این کار نیازمند چیزی فراتر از یک جستجوی ساده در پایگاه داده است.به همین دلیل، برنامههایی مانند FASTA و PSI-BLAST باید در نظر بگیرند که چه چیزی بهعنوان یک شباهت زیستی مهم تلقی میشود.توسعه چنین منابعی نیازمند دانش گستردهای در نظریه رایانش، و همچنین درک عمیق از زیستشناسی است.
هدف سوم، استفاده از این ابزارها برای تحلیل دادهها و تفسیر نتایج به شیوهای معنادار از نظر زیستی است.به طور سنتی، مطالعات زیستی سیستمهای منفرد را با جزئیات بررسی کرده و معمولاً آنها را با چند سیستم مرتبط دیگر مقایسه میکردند.
اما در زیستاطلاعات، ما میتوانیم تحلیلهایی در مقیاس جهانی روی تمام دادههای موجود انجام دهیم، با هدف کشف اصول مشترکی که در بسیاری از سیستمها صدق میکنند، و برجستهسازی ویژگیهایی که در برخی سیستمها منحصربهفرد هستند.
در این مرور، ما معرفیای از بیوانفورماتیک ارائه میدهیم و به طور خاص، درباره دامنه دادههایی که در حال حاضر مورد بررسی قرار میگیرند، پایگاههای دادهای که این اطلاعات در آنها سازماندهی میشوند، انواع تحلیلهایی که با استفاده از سامانههای تنظیم بیان ژن انجام میشوند، و در نهایت برخی از کاربردهای عملی مهم بیوانفورماتیک بحث خواهیم کرد.
"...اطلاعات مرتبط با این مولکولها..."
ما با مروری بر منابع اطلاعات آغاز میکنیم:
این منابع را میتوان به توالیهای خام DNA، توالیهای پروتئینی، ساختارهای ماکرومولکولی، توالیهای ژنومی و سایر دادههای مربوط به کل ژنوم تقسیم کرد.
توالیهای خام DNA، رشتههایی از چهار حرف باز هستند که ژنها را تشکیل میدهند، و هر ژن معمولاً حدود ۱۰۰۰ باز دارد.
مخزن GenBank از توالیهای اسید نوکلئیک در حال حاضر حاوی ۹.۵ میلیارد باز در ۸.۲ میلیون مدخل است (تمام آمار پایگاه داده مربوط به اوت ۲۰۰۰ هستند).
در سطح بعدی، توالیهای پروتئینی قرار دارند که شامل رشتههایی از ۲۰ حرف آمینواسیدی هستند.
در حال حاضر حدود ۳۰۰٬۰۰۰ توالی پروتئینی شناختهشده وجود دارد، و یک پروتئین باکتریایی معمولی تقریباً ۳۰۰ اسیدآمینه دارد.
دادههای ساختاری ماکرومولکولی شکل پیچیدهتری از اطلاعات را نشان میدهند.
در حال حاضر ۱۳٬۰۰۰ مدخل در پایگاه داده ساختارهای پروتئینی (PDB) وجود دارد که بیشتر آنها ساختار پروتئینها هستند.
یک فایل PDB معمولی برای یک پروتئین با اندازه متوسط، مختصات xyz برای حدود ۲۰۰۰ اتم را شامل میشود.
در حال حاضر، هیجان علمی عمدتاً بر روی تعیین توالی کامل ژنوم متمرکز شده است.
همانند توالیهای خام DNA، ژنومها نیز از رشتههایی از حروف باز تشکیل شدهاند که از ۱.۶ میلیون باز در Haemophilus influenzae تا ۳ میلیارد باز در انسان متغیرند.
یکی از جنبههای مهم ژنومهای کامل، تمایز میان نواحی کدکننده و نواحی غیرکدکننده است — دنبالههای تکراری «بیمصرف» که بخش عمدهای از توالیهای باز را بهویژه در یوکاریوتها تشکیل میدهند.
ما اکنون میتوانیم سطوح بیان تقریباً هر ژن در یک سلول خاص را در مقیاس ژنومی اندازهگیری کنیم، هرچند دسترسی عمومی به چنین دادههایی هنوز محدود است.
اندازهگیری سطوح بیان تحت شرایط محیطی مختلف، مراحل گوناگون چرخه سلولی و انواع مختلف سلول در جانداران پرسلولی انجام میشود.
در حال حاضر، بزرگترین مجموعه داده برای مخمر، حدود ۲۰ نقطه زمانی را برای ۶٬۰۰۰ ژن ثبت کرده است (۱۰).
سایر دادههای مقیاس ژنومی شامل اطلاعات بیوشیمیایی درباره مسیرهای متابولیکی، شبکههای تنظیمی، دادههای تعامل پروتئین-پروتئین از آزمایشهای دو-هیبرید، و غیرفعالسازی سیستماتیک ژنها برای بررسی بقای جاندار هستند.
آنچه از این فهرست مشهود است، تنوع در اندازه و پیچیدگی مجموعه دادههای مختلف است.
دادههای مبتنی بر توالی به طور اجتنابناپذیری بیشتر از دادههای ساختاری هستند، زیرا تولید آنها نسبتاً آسانتر است.
این مسئله تا حدی به پیچیدگی بیشتر و محتوای اطلاعاتی بالاتر ساختارهای منفرد نسبت به توالیهای منفرد مربوط میشود.
در حالیکه اطلاعات زیستی بیشتری میتوان از یک ساختار منفرد نسبت به یک توالی پروتئینی استخراج کرد، این مشکل در مورد توالیها با تحلیل حجم بیشتری از دادهها جبران میشود.
«سازماندهی اطلاعات در مقیاس وسیع…»
تکرار و چندگانگی دادهها
مفهومی که زیربنای بیشتر روشهای پژوهشی در بیوانفورماتیک است، این است که بسیاری از این دادهها را میتوان بر اساس شباهتهای معنادار زیستی در گروههایی طبقهبندی کرد.
برای مثال، قطعاتی از توالیها اغلب در موقعیتهای مختلفی از DNA ژنومی تکرار میشوند .
ژنها را میتوان بر اساس عملکردهای خاص (مثلاً عملکردهای آنزیمی) یا طبق مسیر متابولیکیای که به آن تعلق دارند، خوشهبندی کرد ، هرچند در اینجا ممکن است یک ژن منفرد چندین عملکرد داشته باشد.
فراتر از این، پروتئینهای متمایز اغلب توالیهایی قابل مقایسه دارند – موجودات زنده معمولاً چندین نسخه از یک ژن خاص را از طریق دو برابر شدن ژنها دارند، و گونههای مختلف پروتئینهایی معادل یا مشابه دارند که زمانی که در مسیر تکامل از یکدیگر جدا شدند، به ارث بردهاند.
در سطح ساختاری، پیشبینی میشود که تنها تعداد محدودی ساختار سومپایه (ساختار سوم پروتئینها) وجود داشته باشد – تخمینها بین ۱٬۰۰۰ تا ۱۰٬۰۰۰ چینخوردگی (fold) را نشان میدهند – و پروتئینها حتی زمانی که توالیهای بسیار متفاوتی دارند، ساختارهای معادلی را اتخاذ میکنند .
در نتیجه، اگرچه تعداد ساختارها در پایگاه داده PDB بهصورت نمایی افزایش یافته است، اما نرخ کشف چینخوردگیهای جدید در واقع کاهش یافته است.
واژگان رایجی برای توصیف رابطه بین جفتهای پروتئین یا ژنهایی که از آنها مشتق شدهاند وجود دارد:
پروتئینهای آنالوگ (analogous) ساختارهای تاخوردهی مشابه دارند اما توالیهای متفاوت دارند، در حالیکه پروتئینهای همولوگ (homologous) هم از نظر توالی و هم از نظر ساختار مشابه هستند.
این دو دسته گاهی اوقات بهویژه وقتی که رابطه بین دو پروتئین دور است، به سختی از هم قابل تشخیصاند.
در میان همولوگها، تفکیک بین پروتئینهای ارتولوگ (orthologues) – یعنی پروتئینهایی در گونههای مختلف که از یک ژن نیایی مشترک بهوجود آمدهاند – و پارالوگ (paralogues) – یعنی پروتئینهایی که در نتیجه دو برابر شدن ژنها در یک ژنوم با هم مرتبطاند – سودمند است.معمولاً ارتولوگها عملکرد یکسانی را حفظ میکنند، در حالیکه پارالوگها عملکردهایی متمایز اما مرتبط را تکامل میدهند .
مفهوم مهمی که از این مشاهدات بهدست میآید، ایدهی «فهرست قطعات محدود» برای جانداران مختلف است :
یک فهرست موجود از پروتئینهای موجود در یک جاندار که طبق ویژگیهای مختلفی مانند توالی ژنی، چینخوردگی پروتئینی یا عملکرد، مرتب شدهاند.
اگر چینخوردگی پروتئینی را به عنوان مثال در نظر بگیریم، قبلاً اشاره شد که بهجز چند استثنا، ساختارهای سوم پروتئینها یکی از تعداد محدودی از چینخوردگیها را اتخاذ میکنند.
از آنجا که تعداد خانوادههای چینخوردگی بهمراتب کمتر از تعداد خانوادههای ژنی است، طبقهبندی پروتئینها بر اساس چینخوردگی، سادهسازی قابلتوجهی در محتوای یک ژنوم ایجاد میکند.
سادهسازیهای مشابهی را میتوان با سایر ویژگیها مانند عملکرد پروتئینی نیز انجام داد.
از اینرو انتظار میرود که مفهوم «فهرست قطعات محدود» در تحلیلهای ژنومی آینده بیش از پیش رایج شود.واضح است که یکی از جنبههای اساسی در مدیریت این حجم عظیم دادهها، توسعه روشهایی برای ارزیابی شباهتها بین بیومولکولهای مختلف و شناسایی آنهایی است که با هم مرتبطاند.
در ادامه، پایگاههای داده اصلی که دسترسی به منابع اولیه اطلاعات را فراهم میکنند بررسی میشوند، و همچنین برخی پایگاههای داده ثانویه که دادهها را بهطور نظاممند گروهبندی میکنند معرفی میگردند.
این طبقهبندیها امکان مقایسه بین ژنومها و محصولات آنها را آسانتر میکنند، و به شناسایی الگوهای مشترک میان موجودات مرتبط و نیز برجستهسازی ویژگیهایی که در برخی موجودات منحصربهفرد هستند کمک میکنند.
پایگاههای داده توالی پروتئینی
پایگاههای داده توالی پروتئینی به سه دستهی اولیه، ترکیبی و ثانویه تقسیم میشوند.
پایگاههای داده اولیه حاوی بیش از ۳۰۰٬۰۰۰ توالی پروتئینی هستند و بهعنوان مخزنی برای دادههای خام عمل میکنند.
برخی مخازن رایجتر، مانند SWISS-PROT و PIR-International ، علاوه بر ثبت توالیها، عملکرد پروتئینها، ساختار دومینها و تغییرات پساترجمهای آنها را نیز شرح میدهند.
پایگاههای داده ترکیبی مانند OWL و NRDB ، دادههای توالی را از پایگاههای اولیه مختلف گردآوری و فیلتر میکنند تا مجموعههایی ترکیبی و بدون افزونگی ایجاد کنند که نسبت به پایگاههای منفرد کاملترند.
این مجموعهها همچنین شامل دادههای توالی پروتئینی هستند که از نواحی کدکننده ترجمهشده در پایگاههای داده توالی DNA (که در ادامه به آنها اشاره میشود) استخراج شدهاند.
پایگاههای داده ثانویه حاوی اطلاعاتی هستند که از توالیهای پروتئینی استخراج شدهاند و به کاربر کمک میکنند تا تعیین کند آیا توالی جدیدی به یک خانواده پروتئینی شناختهشده تعلق دارد یا نه.
یکی از پرکاربردترین آنها PROSITE است، پایگاه دادهای از الگوهای کوتاه توالی و پروفایلهایی که نواحی زیستی مهم در پروتئینها را مشخص میکنند.
PRINTS این مفهوم را گسترش میدهد و مجموعهای از «اثر انگشتهای پروتئینی» را فراهم میکند – گروههایی از موتیفهای محافظتشده که یک خانواده پروتئینی را توصیف میکنند.
موتیفها معمولاً در طول توالی پروتئین از یکدیگر جدا هستند، اما ممکن است در فضای سهبعدی، هنگام تاخوردن پروتئین، در کنار هم قرار گیرند.
با استفاده از چندین موتیف، اثر انگشتها میتوانند چینخوردگیها و عملکردهای پروتئینی را به شکلی انعطافپذیرتر از PROSITE رمزگذاری کنند.
در نهایت، Pfam مجموعهای گسترده از همترازیهای چندگانه توالیها و مدلهای مخفی مارکوف (HMM) است که بسیاری از دومینهای رایج پروتئینی را پوشش میدهد.
Pfam-A شامل همترازیهایی دقیق و تهیهشده بهصورت دستی است، در حالیکه Pfam-B حاصل خوشهبندی خودکار کل پایگاه داده SWISS-PROT میباشد.
این پایگاههای داده ثانویه مختلف اخیراً در یک منبع واحد به نام InterPro تجمیع شدهاند.
پایگاههای داده ساختاری
در ادامه به پایگاههای داده ساختارهای ماکرومولکولی میپردازیم.
Protein Data Bank (PDB) آرشیو اولیهای از همه ساختارهای سهبعدی ماکرومولکولهایی مانند پروتئینها، RNA، DNA و کمپلکسهای مختلف را فراهم میکند.
اکثر حدود ۱۳٬۰۰۰ ساختار (تا اوت ۲۰۰۰) از طریق بلورنگاری پرتو ایکس و طیفنمایی رزونانس مغناطیسی هسته (NMR) حل شدهاند، اما برخی مدلهای نظری نیز در آن گنجانده شدهاند.
از آنجا که اطلاعات ارائهشده در مدخلهای PDB ممکن است استخراج آن دشوار باشد، PDBsum برای هر ساختار در PDB یک صفحه وب جداگانه فراهم میکند که تحلیلهای ساختاری دقیق، نمودارهای شماتیک و دادههایی درباره تعاملات بین مولکولهای مختلف در یک مدخل خاص را نمایش میدهد.
سه پایگاه داده مهم، پروتئینها را بر اساس ساختار طبقهبندی میکنند تا روابط ساختاری و تکاملی آنها را شناسایی کنند:
CATH ، SCOP ، و FSSP .
همهی این پایگاهها دارای طبقهبندی ساختاری سلسلهمراتبی هستند که در آن، گروههای پروتئینی در سطوح پایینتر درخت طبقهبندی، شباهت بیشتری دارند.
علاوه بر این، پایگاههای دادهی متعددی بر انواع خاصی از ماکرومولکولها تمرکز دارند.
این پایگاهها شامل موارد زیر هستند:
-
Nucleic Acids Database (NDB) ، برای ساختارهای مرتبط با اسیدهای نوکلئیک
-
پایگاه داده HIV protease ، برای ساختارهای پروتئاز HIV-1، HIV-2 و SIV و کمپلکسهای آنها
-
ReLiBase ، برای کمپلکسهای گیرنده-لیگاند (receptor-ligand)
این پایگاههای ساختاری امکان تحلیل عمیقتر ساختارهای بیومولکولی و مقایسه آنها را فراهم میکنند.
توالیهای نوکلئوتیدی و ژنومی
همانطور که پیشتر بیان شد، هیجانانگیزترین پیشرفت کنونی در دسترسی به توالیهای کامل ژنوم برای جانداران مختلف نهفته است.
پایگاههای داده GenBank ، EMBL و DDBJ شامل توالیهای DNA برای ژنهای منفرد هستند که محصولات پروتئینی و RNA را رمزگذاری میکنند.
مشابه پایگاههای ترکیبی توالی پروتئینی، پایگاه داده Entrez nucleotide دادههای توالی را از این پایگاههای داده اولیه گردآوری میکند.
از آنجا که تعیین توالی ژنوم کامل معمولاً از طریق همکاریهای بینالمللی انجام میشود، ژنومهای منفرد در سایتهای مختلف منتشر میشوند.
پایگاه داده Entrez genome تمام ژنومهای کامل و ناقص را در یک مکان گردآوری کرده و تا اوت ۲۰۰۰ نماینده بیش از ۱٬۰۰۰ موجود زنده بوده است.
علاوه بر فراهمکردن توالی خام نوکلئوتیدی، اطلاعات در سطوح مختلفی از جزئیات ارائه میشود، از جمله:
-
فهرست ژنومهای کاملشده
-
تمام کروموزومهای یک موجود
-
نمای دقیق از کروموزومهای منفرد با علامتگذاری نواحی کدکننده و غیرکدکننده
-
ژنهای منفرد
در هر سطح، نمایشهای گرافیکی، تحلیلهای از پیشمحاسبهشده و پیوندهایی به دیگر بخشهای Entrez وجود دارد.
برای مثال، حاشیهنویسیهای مربوط به ژنهای منفرد شامل توالی پروتئینی ترجمهشده، همترازی توالی با ژنهای مشابه در دیگر ژنومها، و خلاصههایی از عملکرد پیشبینیشده یا تجربی تأییدشده است.
GeneCensus نیز نقطه ورودی دیگری برای تحلیل ژنوم فراهم میکند که شامل مقایسه تعاملی ژنومهای کامل از دیدگاه تکاملی است.
این پایگاه امکان ساخت درختهای فیلوژنتیکی بر اساس معیارهای مختلفی مانند RNA ریبوزومی یا فراوانی چینخوردگیهای پروتئینی را فراهم میکند.
این سایت همچنین امکان مقایسه چندین ژنوم، تحلیل یک ژنوم منفرد و بازیابی اطلاعات درباره ژنهای مشخص را نیز فراهم میسازد.
پایگاه داده COGs پروتئینهای رمزگذاریشده در ۲۱ ژنوم کاملشده را بر اساس شباهت توالی طبقهبندی میکند.
اعضای یک خوشه گروههای ارتولوگ (COG) انتظار میرود که ساختار سوم مشابهی داشته باشند و اغلب عملکردهای مشابهی نیز دارا باشند.
کاربرد ساده و مستقیم این پایگاه داده، پیشبینی عملکرد پروتئینهایی است که هنوز شناسایی نشدهاند، از طریق همولوژی با پروتئینهای شناختهشده.
همچنین امکان شناسایی الگوهای فیلوژنتیکی فراوانی پروتئینها را فراهم میکند – برای مثال، آیا یک COG خاص در بیشتر یا همه موجودات یافت میشود یا فقط در چند گونه نزدیک به هم.
دادههای بیان ژن
جدیدترین منابع دادههای در مقیاس ژنومی، از آزمایشهای بیان ژن حاصل میشوند که میزان بیان ژنهای منفرد را اندازهگیری میکنند.
این آزمایشها مقدار mRNA یا محصولات پروتئینی تولیدشده توسط سلول را اندازه میگیرند.
برای mRNA، سه فناوری اصلی وجود دارد: ریزآرایه cDNA ، تراشه ژنی Affymetrix (GeneChip) ، و روشهای SAGE .
روش اول، سطح نسبی فراوانی mRNA را بین نمونههای مختلف میسنجد، در حالیکه دو روش دیگر سطوح مطلق را اندازه میگیرند.
بیشتر تلاشها در تحلیل بیان ژن بر ژنومهای مخمر و انسان متمرکز بوده است، و تاکنون مخزن مرکزی برای این دادهها وجود ندارد.
برای مخمر، مجموعه دادههای Young، Church و Samson از روش GeneChip استفاده میکنند، در حالیکه مجموعههای چرخه سلولی استنفورد ، تغییر دیاکسی و جهشیافتههای حذفشده از روش ریزآرایه بهره میبرند.
بیشتر این آزمایشها سطح mRNA را در سراسر چرخه سلولی مخمر اندازهگیری میکنند، هرچند برخی بر یک مرحله خاص تمرکز دارند.
برای انسان، کاربرد اصلی این فناوریها، درک بیان ژن در تومورها و سلولهای سرطانی بوده است.
پروژههای تصویر مولکولی تومورهای پستان (Molecular Portraits of Breast Tumours) ، و پروفایل مولکولی لنفوم و لوکمی دادههایی از آزمایشهای ریزآرایهای روی سلولهای سرطانی انسانی ارائه میدهند.
فناوریهای سنجش فراوانی پروتئینها در حال حاضر به الکتروفورز دو بعدی ژل همراه با طیفسنجی جرمی محدود میشوند.
از آنجا که ژلها بهطور معمول فقط میتوانند حدود ۱٬۰۰۰ پروتئین را تفکیک کنند ، تنها پروتئینهای با فراوانی بالا قابل مشاهده هستند.
در حال حاضر، دادههای حاصل از این آزمایشها فقط از طریق مقالات علمی در دسترس هستند .
یکپارچهسازی دادهها
سودمندترین تحقیقات در بیوانفورماتیک اغلب از ادغام چند منبع داده حاصل میشود .
برای مثال، مختصات سهبعدی یک پروتئین زمانی مفیدتر هستند که با دادههایی دربارهی عملکرد پروتئین، حضور آن در ژنومهای مختلف، و تعاملاتش با سایر مولکولها ترکیب شوند.
به این ترتیب، قطعات مجزای اطلاعات در چارچوبی مرتبط با سایر دادهها قرار میگیرند.
متأسفانه، دسترسی به این منابع اطلاعاتی و ایجاد ارجاع متقابل میان آنها همواره ساده نیست، چرا که تفاوت در نامگذاریها و فرمت فایلها وجود دارد.
در سطح پایه، این مشکل اغلب با ارائه پیوندهای خارجی به پایگاههای داده دیگر برطرف میشود.
برای مثال، در PDBsum، صفحات وب مربوط به ساختارهای منفرد کاربران را به مدخلهای متناظر در PDB، NDB، CATH، SCOP و SWISS-PROT هدایت میکنند.
در سطحی پیشرفتهتر، تلاشهایی برای ادغام دسترسی به چند منبع داده بهصورت یکپارچه انجام شده است.
یکی از این تلاشها Sequence Retrieval System (SRS) است که اجازه میدهد هر پایگاه دادهای با فرمت flat-file (متنی ساده) به یکدیگر ایندکس شوند؛
این قابلیت به کاربر اجازه میدهد تا مدخلهایی را از پایگاههای داده اسید نوکلئیک، توالی پروتئینی، موتیفهای پروتئینی، ساختار پروتئینی و منابع کتابسنجی بازیابی، پیوند و دسترسی پیدا کند.
نمونه دیگر، سامانه Entrez است که درگاهی مشابه برای دسترسی به توالیهای DNA و پروتئین، دادههای نقشهبرداری ژنومی، ساختارهای سهبعدی ماکرومولکولی و پایگاه داده کتابسنجی PubMed فراهم میکند.
جستجوی یک ژن خاص در هر یک از این پایگاهها امکان انتقال روان و مستقیم به اطلاعات ژنوم مربوطه، توالی پروتئینی رمزگذاریشده، ساختار آن، ارجاعات علمی و مدخلهای معادل برای تمام ژنهای مرتبط را فراهم میسازد.
«...درک و سازماندهی اطلاعات...»
پس از بررسی دادهها، میتوانیم به بحث درباره انواع تحلیلهایی که انجام میشوند بپردازیم.
حوزههای اصلی بیوانفورماتیک را میتوان بر اساس منابع اطلاعاتی مورد استفاده در مطالعات، تفکیک کرد.
برای توالیهای خام DNA، تحقیقات شامل تفکیک نواحی کدکننده از غیرکدکننده، شناسایی اینترونها، اگزونها و نواحی پروموتر برای حاشیهنویسی DNA ژنومی است .
برای توالیهای پروتئینی، تحلیلها شامل توسعه الگوریتمهایی برای مقایسه توالیها ، روشهایی برای تولید همترازیهای چندتایی توالی و جستجوی دومینهای عملکردی از طریق موتیفهای محافظتشده در این همترازیها هستند.
بررسی دادههای ساختاری شامل پیشبینی ساختارهای دوم و سوم پروتئینها، توسعه روشهایی برای همترازی ساختارهای سهبعدی ، بررسی هندسه پروتئینها از طریق اندازهگیریهای فاصله و زاویه، محاسبه شکل سطح و حجم، و تحلیل تعاملات پروتئین با سایر زیرواحدها، DNA، RNA و مولکولهای کوچک میشود.
این مطالعات به موضوعات شبیهسازی مولکولی منتهی شدهاند که در آن دادههای ساختاری برای محاسبه انرژیهای پایدارکننده ساختارهای ماکرومولکولی، شبیهسازی حرکات درونمولکولی، و محاسبه انرژیهای دخیل در اتصال مولکولی (molecular docking) به کار میروند.
در دسترس بودن فزاینده توالیهای ژنومی حاشیهنویسیشده، منجر به ظهور حوزههایی چون ژنومیک رایانشی و پروتئومیک شده است – یعنی تحلیلهای در مقیاس وسیع از ژنومهای کامل و پروتئینهای کدشده توسط آنها.
پژوهشها شامل شناسایی محتوای پروتئینی و مسیرهای متابولیکی در ژنومهای مختلف، شناسایی پروتئینهای متعامل، اختصاص عملکرد به محصولات ژنی و پیشبینی آنها، و تحلیلهای وسیع از سطوح بیان ژنها هستند.
برخی از این موضوعات پژوهشی در تحلیل نمونهای ما از سامانههای تنظیم رونویسی نمایش داده خواهند شد.
علاوه بر یافتن روابط بین پروتئینهای مختلف، بخش بزرگی از بیوانفورماتیک شامل تحلیل یک نوع داده برای استنتاج و درک مشاهدات نوع دیگری از دادهها است.
یک مثال از این امر، استفاده از دادههای توالی و ساختاری برای پیشبینی ساختارهای دوم و سوم توالیهای جدید پروتئینی است .
این روشها، بهویژه روشهای مبتنی بر توالی، اغلب بر قواعد آماریای مبتنی هستند که از ساختارها استخراج شدهاند؛مانند تمایل برخی توالیهای آمینواسیدی به تشکیل اجزای مختلف ساختار دوم.
مثالی دیگر استفاده از دادههای ساختاری برای درک عملکرد یک پروتئین است؛ در اینجا، مطالعاتی به بررسی رابطه بین چینخوردگیهای مختلف پروتئینی و عملکرد آنها پرداختهاند ، و شباهتهای بین جایگاههای اتصال در غیاب همولوژی را تحلیل کردهاند .
این مطالعات، همراه با سنجشهای شباهت، درک ما را از اینکه چه میزان اطلاعات زیستی را میتوان با دقت از یک پروتئین همولوگ به دیگری انتقال داد، افزایش میدهند .
طیف بیوانفورماتیک
توسعه تکنیکهای بیوانفورماتیکی موجب گسترش تحلیلهای زیستی در دو بعد شده است: عمق و گستره.
بعد نخست رویکردی به سمت طراحی منطقی دارو را ترسیم میکند.
هدف این است که با تمرکز بر یک پروتئین خاص، تحلیلی را دنبال کنیم که بیشترین درک ممکن را از آن پروتئین بهدست دهد.
از یک توالی ژنی آغاز میکنیم و میتوانیم توالی پروتئینی متناظر را با دقت زیاد تعیین کنیم.
از آنجا، الگوریتمهای پیشبینی ساختار را میتوان برای محاسبه ساختار مورد پذیرش پروتئین به کار برد.
محاسبات هندسی، شکل سطح پروتئین را تعریف میکنند و شبیهسازیهای مولکولی نیروهای پیرامون مولکول را تعیین میکنند.
در نهایت، با استفاده از الگوریتمهای docking میتوان لیگاندهایی را شناسایی یا طراحی کرد که به پروتئین متصل شوند، و این مسیر را برای طراحی دارویی که عملکرد پروتئین را بهطور خاص تغییر میدهد هموار میکند.
در عمل، مراحل میانی هنوز دستیابی دقیقی ندارند، و بهتر است با روشهای تجربی ترکیب شوند تا دادههای مورد نیاز (مثلاً ساختار واقعی پروتئین مورد نظر) بهدست آیند.
اهداف بعد دوم، یعنی گستره در تحلیل زیستی، مقایسه یک ژن با سایر ژنهاست.
در ابتدا، میتوان از الگوریتمهای ساده برای مقایسه توالیها و ساختارهای یک جفت پروتئین مرتبط استفاده کرد.
با افزایش تعداد پروتئینها، الگوریتمهای پیشرفتهتری برای تولید همترازیهای چندتایی به کار میروند، که الگوهای توالی یا قالبهای ساختاری استخراج میکنند که یک خانواده پروتئینی را تعریف میکنند.
با استفاده از این دادهها، همچنین میتوان درختهای فیلوژنتیکی (تکاملی) ساخت تا مسیر تکامل پروتئینها را ردیابی کرد.
در نهایت، با افزایش بیشتر حجم دادهها، اطلاعات باید در پایگاههای داده در مقیاس بزرگ ذخیره شوند.
در این سطح، مقایسهها پیچیدهتر میشوند و نیاز به طرحهای نمرهگذاری چندگانه دارند، و این امکان را فراهم میکنند که سرشماریهایی در مقیاس ژنومی انجام شود که توصیفهای آماری جامعی از ویژگیهای پروتئینی مانند فراوانی ساختارها یا عملکردهای خاص در ژنومهای مختلف ارائه دهند.
این تحلیلها همچنین به ما اجازه میدهند درختهای فیلوژنتیکیای بسازیم که مسیر تکامل کل موجودات زنده را نشان دهند.
«... بهکارگیری تکنیکهای رایانشی (علم اطلاعات)...»
حوزههای مختلفی که پیشتر به آنها اشاره شد، به انواع متفاوتی از تکنیکهای علم اطلاعات (informatics) نیاز دارند.
بهطور خلاصه:
-
برای سازماندهی دادهها، نخستین پایگاههای داده زیستی از فایلهای متنی ساده (flat files) استفاده میکردند.اما با افزایش حجم اطلاعات، روشهای پایگاهداده رابطهای (relational databases) با رابطهای وب محبوبتر شدهاند.
-
در تحلیل توالیها، تکنیکها شامل روشهای مقایسه رشتهها مانند جستجوی متنی و الگوریتمهای همترازی یکبعدی هستند.
-
شناسایی موتیفها و الگوها در چندین توالی به تکنیکهایی مانند یادگیری ماشین، خوشهبندی و دادهکاوی متکی است.
-
در تحلیل ساختارهای سهبعدی، تکنیکها شامل محاسبات هندسه اقلیدسی همراه با کاربردهای پایهای از شیمی فیزیک، نمایشهای گرافیکی از سطوح و حجمها، و روشهای مقایسه ساختاری و تطبیق سهبعدی هستند.
-
برای شبیهسازی مولکولی، از مکانیک نیوتونی، مکانیک کوانتومی، مکانیک مولکولی و محاسبات الکترواستاتیکی استفاده میشود.
در بسیاری از این حوزهها، روشهای رایانشی باید با تحلیلهای آماری دقیق ترکیب شوند تا بتوانند سنجش معناداری نتایج را بهصورت عینی ارائه دهند.
تنظیم رونویسی – یک مطالعه موردی در بیوانفورماتیک
پروتئینهای متصلشونده به DNA نقش مرکزی در تمام جنبههای فعالیت ژنتیکی درون یک جاندار دارند و در فرآیندهایی مانند رونویسی، بستهبندی، بازآرایی، همانندسازی و ترمیم شرکت میکنند.
در این بخش، بر مطالعاتی تمرکز میکنیم که به درک ما از تنظیم رونویسی در موجودات مختلف کمک کردهاند.از طریق این مثال، نشان میدهیم که چگونه بیوانفورماتیک برای افزایش دانش ما درباره سامانههای زیستی بهکار رفته و نیز کاربردهای عملی حوزههای مختلف را، که پیشتر بهطور خلاصه بیان شد، نشان میدهیم.
ما ابتدا با تحلیلهای ساختاری درباره چگونگی شناسایی توالیهای خاص باز توسط پروتئینهای متصلشونده به DNA آغاز میکنیم.
سپس، مطالعات ژنومی متعددی را مرور میکنیم که به شناسایی ماهیت فاکتورهای رونویسی در موجودات مختلف پرداختهاند و روشهایی را که برای شناسایی جایگاههای تنظیمی در نواحی پیشین (upstream) بهکار رفتهاند بررسی میکنیم.
در پایان، مروری بر تحلیلهای بیان ژن ارائه میدهیم که اخیراً انجام شدهاند و پیشنهاد میکنیم که چگونه تحلیلهای تنظیم رونویسی میتوانند برای تفسیر مشاهدات حاصل از آزمایشهای بیان ژن مورد استفاده قرار گیرند.
تمام نتایجی که در اینجا توصیف میکنیم از طریق مطالعات رایانشی بهدست آمدهاند.
مطالعات ساختاری
تا اوت ۲۰۰۰، ۳۷۹ ساختار از کمپلکسهای پروتئین–DNA در پایگاه داده PDB موجود بوده است.
تحلیل این ساختارها بینشهای ارزشمندی درباره اصول استریوشیمیایی اتصال فراهم کردهاند، از جمله چگونگی شناسایی توالیهای خاص باز و نحوهای که ساختار DNA اغلب در هنگام اتصال تغییر میکند.
ردهبندی ساختاری پروتئینهای متصلشونده به DNA (مشابه ردهبندیهای SCOP و CATH) نخستینبار توسط هریسون پیشنهاد شد و بهطور دورهای برای درج ساختارهای جدید بهروزرسانی شده است .
این ردهبندی از یک سیستم دو لایه تشکیل شده است:
-
در سطح اول، پروتئینها در ۸ گروه که ویژگیهای ساختاری کلی مشترک برای اتصال به DNA دارند، دستهبندی میشوند.
-
در سطح دوم، شامل ۵۴ خانواده از پروتئینهاست که از نظر ساختاری با یکدیگر همولوگ هستند.
ساخت چنین سیستمی باعث سادهسازی مقایسه روشهای مختلف اتصال میشود؛
این سیستم تنوع در هندسه کمپلکسهای پروتئین–DNA را نشان میدهد و در عین حال، بر اهمیت تعامل بین مارپیچهای آلفا و شیار بزرگ DNA که حالت غالب اتصال در بیش از نیمی از خانوادههای پروتئینی است تأکید میکند.
در حالیکه تعداد ساختارهای ثبتشده در PDB لزوماً بازتابدهنده اهمیت نسبی پروتئینها در سلول نیست، واضح است که موتیفهایی مانند مارپیچ-چرخش-مارپیچ (helix-turn-helix)، زینک فینگر (zinc-coordinating) و زیپ لوسینی (leucine zipper) به طور مکرر استفاده میشوند. این موتیفها چارچوبهای فشردهای را فراهم میکنند که مارپیچ آلفا را در سطح پروتئینهایی با ساختارهای متنوع ارائه میدهند.
در سطح کلیتر، میتوان تفاوتهایی را بین دومینهای فاکتورهای رونویسی که صرفاً به DNA متصل میشوند و آنهایی که در کاتالیز نیز نقش دارند، برجسته کرد . اگرچه استثنائاتی وجود دارد، دسته اول معمولاً از یک سمت به DNA نزدیک میشوند و در شیارها قرار میگیرند تا با لبههای بازها تعامل کنند. در حالیکه دسته دوم معمولاً بستر را دربر میگیرند و از شبکههای پیچیدهای از ساختارهای دوم و لوپها برای تعامل استفاده میکنند.
با تمرکز بر پروتئینهای دارای مارپیچ آلفا، ساختارها تنوع زیادی را هم در توالیهای آمینواسیدی و هم در هندسه دقیقشان نشان میدهند.
این پروتئینها به وضوح بهطور مستقل و متناسب با نیازهای بافت یا شرایط خاص تکامل یافتهاند.
در حالیکه اتصال دقیق مارپیچ آلفا به شیار بزرگ حاصل میشود، همچنان انعطافپذیری کافی وجود دارد تا هم پروتئین و هم DNA بتوانند آرایشهای متفاوتی را به خود بگیرند.
با این حال، چندین مطالعه که هندسههای اتصال مارپیچهای آلفا را تحلیل کردهاند، نشان دادند که اکثر آنها آرایشهای نسبتاً یکسانی دارند، صرفنظر از خانواده پروتئینی. این مارپیچها معمولاً از پهلو در شیار بزرگ DNA فرو میروند، و محور طولیشان تقریباً با شیب ستون فقرات DNA موازی است. بیشتر آنها با سر N–ترمینال درون شیار شروع میشوند و به سمت بیرون ادامه مییابند و دو تا سه چرخش مارپیچی را در ناحیه تماس انجام میدهند.
با توجه به جهتگیریهای اتصال مشابه، شگفتآور است که تعاملات بین موقعیتهای مختلف اسیدآمینه در طول مارپیچهای آلفا و نوکلئوتیدهای DNA در میان خانوادههای مختلف پروتئینی بسیار متفاوت است.
با این حال، با دستهبندی اسیدهای آمینه بر اساس اندازه زنجیره جانبیشان، میتوان الگوهای متفاوت تعامل را بهطور منطقی تفسیر کرد.
قوانین تعامل بر این فرض ساده استوار هستند که در یک موقعیت خاص روی مارپیچ آلفا با آرایش مشابه، اسیدهای آمینه کوچک با نوکلئوتیدهای نزدیکتر و اسیدهای آمینه بزرگ با نوکلئوتیدهای دورتر تعامل دارند .
مطالعات معادلی برای اتصال توسط موتیفهای ساختاری دیگر مانند سنجاقسر بتا (β-hairpins) نیز انجام شده است .هنگام بررسی این تعاملات، باید به یاد داشت که نواحی مختلف سطح پروتئین نیز سطوح تماس مختلفی با DNA فراهم میکنند.
این موضوع ما را به بررسی تعاملات در سطح اتمی میان جفتهای اسیدآمینه–باز میرساند.
چنین تحلیلهایی بر پایه این فرض استوارند که بخش قابل توجهی از اتصالهای اختصاصی DNA را میتوان از طریق یک «کد جهانی شناسایی» بین اسیدهای آمینه و بازها توجیه کرد – به این معنا که آیا برخی اسیدهای آمینه تمایل خاصی به تعامل با نوکلئوتیدهای مشخصی دارند، صرفنظر از نوع کمپلکس پروتئین–DNA .
مطالعات مختلف، پیوندهای هیدروژنی، تماسهای واندروالسی، و پیوندهای واسطهی آب را بررسی کردهاند .نتایج نشان داد که تقریباً دو سوم تعاملات با ستون فقرات DNA است و نقش اصلی آنها پایدارسازی مستقل از توالی است.
در مقابل، تعاملات با بازها الگوهای ترجیحی قویتری نشان میدهند، از جمله:
-
تعامل آرژنین یا لیزین با گوانین
-
تعامل آسپاراژین یا گلوتامین با آدنین
-
تعامل ترئونین با تیمین
این ترجیحات از طریق بررسی استریوشیمی زنجیره جانبی اسیدهای آمینه و لبههای بازها توضیح داده شدهاند.همچنین، انواع تعاملات پیچیدهتری مشخص شدهاند که در آنها یک اسیدآمینه با بیش از یک جفت باز تماس دارد و در نتیجه، توالی کوتاهی از DNA را شناسایی میکند.
این نتایج حاکی از آن است که ویژگیمندی جهانی (universal specificity) که در تمام کمپلکسهای پروتئین–DNA دیده شود، واقعاً وجود دارد.با این حال، بسیاری از تعاملاتی که معمولاً غیر اختصاصی تلقی میشوند (مانند تعامل با ستون فقرات DNA) نیز در شرایط خاص میتوانند اختصاصی باشند.
با تکیه بر درک ساختار پروتئین، موتیفهای اتصال به DNA و استریوشیمی زنجیره جانبی اسیدهای آمینه، یکی از کاربردهای مهم بیوانفورماتیک، پیشبینی اتصال بوده است – چه در مورد پروتئینهایی که مشخص است دارای یک موتیف خاص هستند، و چه در مورد پروتئینهایی که ساختارشان بدون کمپلکس حل شده است.
متداولترین موارد، پیشبینی تعامل مارپیچ آلفا با شیار بزرگ DNA است – یعنی اینکه با دانستن توالی آمینواسیدی، چه توالی DNA را ممکن است شناسایی کند .
در رویکردی دیگر، از تکنیکهای شبیهسازی مولکولی برای dock کردن کل پروتئین و DNA بر اساس محاسبات نیروی میدان اطراف دو مولکول استفاده شده است .
دلیل اینکه هر دو روش موفقیت محدودی داشتهاند، این است که حتی در موارد ظاهراً سادهای مانند اتصال مارپیچ آلفا، عوامل بسیاری دیگر نیز باید در نظر گرفته شوند.
مقایسه ساختارهای DNA در حالتهای آزاد و متصلشده نشان میدهد که خمشدگی DNA (DNA bending) یک ویژگی رایج در کمپلکسهایی است که با فاکتورهای رونویسی تشکیل میشوند .
این مورد و سایر عوامل مانند تعاملات الکترواستاتیکی و وابسته به کاتیونها به شناسایی غیرمستقیم توالی نوکلئوتیدی کمک میکنند، هرچند هنوز بهخوبی شناخته نشدهاند.
در نتیجه، اکنون روشن است که قواعد دقیق برای اتصال اختصاصی به DNA به هر خانواده پروتئینی بستگی دارد، اما الگوهای کلی مانند تعامل آرژنین–گوانین در بسیاری موارد حفظ میشوند.
مطالعات ژنومی
با توجه به حجم بالای دادههای بیوشیمیایی در دسترس، مطالعات ژنومی در بیوانفورماتیک بیشتر بر موجودات مدل متمرکز بودهاند، و تحلیل سیستمهای تنظیمی نیز از این قاعده مستثنا نبوده است.شناسایی فاکتورهای رونویسی در ژنومها معمولاً به استراتژیهای جستجوی شباهت متکی است که وجود رابطه عملکردی و تکاملی بین پروتئینهای همولوگ را فرض میکند.
در E. coli، مطالعات تاکنون تخمین زدهاند که این باکتری دارای حدود ۳۰۰ تا ۵۰۰ تنظیمکننده رونویسی است .
پایگاه داده PEDANT ، که بهطور خودکار عملکرد ژنها را اختصاص میدهد، نشان میدهد که معمولاً ۲–۳٪ از ژنومهای پروکاریوتی و ۶–۷٪ از ژنومهای یوکاریوتی شامل پروتئینهای متصلشونده به DNA هستند.
از آنجا که تا اوت ۲۰۰۰ تنها ۴۰ تا ۶۰٪ از ژنومها بهطور کامل حاشیهنویسی شده بودند، این آمار به احتمال زیاد، میزان واقعی را دستکم میگیرند.
با این حال، همین ارقام نیز نشاندهنده حجم زیادی از پروتئینها هستند، و مشخص است که تعداد فاکتورهای رونویسی در یوکاریوتها بیشتر از سایر گونههاست. این امر تعجبآور نیست، چرا که یوکاریوتها سامانه رونویسی پیچیدهتری را توسعه دادهاند.
نتیجهگیری از مطالعات ساختاری نشان میدهد که بهترین راهبرد برای شناسایی اتصال DNA توسط فاکتورهای رونویسی فرضی در هر ژنوم، دستهبندی آنها بر اساس همولوژی و تحلیل خانوادههای منفرد است.
چنین طبقهبندیهایی در پایگاههای داده توالی ثانویه که قبلاً معرفی شدند، ارائه میشوند، همچنین در پایگاههایی که بهطور تخصصی بر پروتئینهای تنظیمی تمرکز دارند، مانند RegulonDB و TRANSFAC.
حتی سودمندتر از این طبقهبندیها، اختصاص اطلاعات ساختاری به پروتئینها است؛
یعنی اگر یک فاکتور رونویسی مشخص باشد، آگاهی از موتیف ساختاری مورد استفاده آن برای اتصال به ما کمک میکند درک بهتری از چگونگی شناسایی توالی هدف آن داشته باشیم.
ژنومیک ساختاری از طریق بیوانفورماتیک، ساختار پروتئینهای رمزگذاریشده توسط ژنومها را با مقایسه با پروتئینهایی که ساختار آنها شناخته شده است، اختصاص میدهد .
این مطالعات نشان دادهاند که فاکتورهای رونویسی در پروکاریوتها اغلب دارای موتیف helix-turn-helix هستند و در یوکاریوتها اغلب موتیفهای homeodomain نوع helix-turn-helix، زینک فینگر یا زیپ لوسینی دیده میشوند.
طبقهبندی پروتئینها در هر ژنوم نشان میدهد که انواع مختلفی از پروتئینهای تنظیمی از نظر فراوانی با هم تفاوت دارند و خانوادهها از نظر اندازه نیز بهشکل معناداری متفاوتاند.
مطالعهای از Huynen و van Nimwegen نشان داده است که اعضای یک خانواده معمولاً عملکردهای مشابهی دارند، اما با تغییر نیازهای آن عملکرد در طول زمان، حضور هر خانواده ژنی در ژنوم نیز تغییر میکند.
در مطالعات اخیر، با ترکیب دادههای توالی و ساختار، حفظشدگی توالیهای آمینواسیدی در میان پروتئینهای مرتبط با اتصال DNA و تأثیر جهشها بر شناسایی توالی DNA مورد بررسی قرار گرفت.
خانوادههای ساختاری ذکرشده گسترش یافتند تا پروتئینهایی با شباهت توالی که ساختار آنها هنوز حل نشده نیز دربرگیرند. در اینجا نیز اعضای هر خانواده، همولوگ هستند و احتمالاً از یک نیای مشترک منشأ گرفتهاند.
برای هر خانواده، حفظشدگی اسیدهای آمینه با استفاده از همترازیهای چندتایی توالی محاسبه شد .
بهطور کلی، موقعیتهایی که با DNA تماس دارند، بهتر از بقیه سطح پروتئین محافظت میشوند، هرچند الگوهای حفظشدگی دقیق پیچیدهاند.
-
اسیدهای آمینهای که با ستون فقرات DNA تماس دارند، در تمام خانوادههای پروتئینی بسیار محافظتشدهاند و مجموعهای از تعاملات پایدارکننده مشترک در تمام پروتئینهای همولوگ را فراهم میکنند.
-
اما موقعیتهای تماسی با بازهای DNA، که توالی DNA را تشخیص میدهند، الگوهای پیچیدهتری دارند.
برای تفسیر این پیچیدگی، یک مدل سهگانه برای اتصال به DNA تعریف شد:
-
دسته اول: خانوادههایی که اتصال غیر اختصاصی دارند – معمولاً حاوی چند اسیدآمینه محافظتشده در موقعیتهای تماسی با باز هستند؛
بدون استثنا، این تعاملات در شیار کوچک DNA صورت میگیرند، جایی که تمایز بین نوع بازها کمتر است.
این تماسها معمولاً برای پایدارسازی تغییر شکل در ساختار DNA بهکار میروند، بهویژه در گشاد کردن شیار کوچک. -
دسته دوم: خانوادههایی که همه اعضایشان یک توالی نوکلئوتیدی خاص را هدف قرار میدهند –
در اینجا موقعیتهای تماسی با باز کاملاً یا بهشدت محافظتشدهاند و به پروتئینهای مرتبط اجازه میدهند که همان توالی DNA را شناسایی کنند. -
دسته سوم (و جالبترین): خانوادههایی که اتصال اختصاصی دارند اما اعضای مختلف آن توالیهای مختلفی را هدف قرار میدهند –
در اینجا جهشهای مکرر در اسیدهای آمینه موقعیتهای تماسی با باز رخ میدهد،
و اعضای خانواده را میتوان به زیرخانوادههایی بر اساس توالی اسیدهای آمینه در این موقعیتها تقسیم کرد؛
اعضای یک زیرخانواده، احتمالاً به همان توالی DNA متصل میشوند، در حالیکه زیرخانوادههای دیگر توالیهای متفاوتی را هدف قرار میدهند.
در کل، این زیرخانوادهها با عملکرد پروتئینها همراستا بودند، و مشاهده شد که اعضای هر زیرخانواده مسیرهای رونویسی مشابهی را تنظیم میکنند.
این تحلیل ترکیبی توالی و ساختار، بینشی در این مورد ارائه داد که پروتئینهای اسکلت همولوگ چگونه با تغییر توالی اسیدهای آمینه خود، ویژگیمندی متفاوتی بهدست میآورند.
در نتیجه، پروتئینها عملکردهای متفاوتی را تکامل دادهاند و بدینوسیله فاکتورهای رونویسی ساختاراً مرتبط توانستهاند ژنهای متفاوتی را تنظیم کنند.
بنابراین، فراوانی نسبی خانوادههای تنظیمکننده رونویسی در یک ژنوم نه تنها به اهمیت عملکرد پروتئین خاص بستگی دارد، بلکه به توانایی تطبیق موتیفهای اتصال به DNA برای شناسایی توالیهای مختلف نیز بستگی دارد. و این موضوع، ظاهراً بیشتر در موتیفهای سادهای مانند زینک فینگرها میسر است.
با در اختیار داشتن دانش درباره فاکتورهای رونویسی موجود در هر جاندار و درک چگونگی شناسایی توالیهای DNA توسط آنها، گام بعدی جستوجوی جایگاههای اتصال بالقوه آنها در توالیهای ژنومی است .
برای پروکاریوتها، بیشتر تحلیلها شامل گردآوری دادههایی از جایگاههای اتصال تجربیشده برای پروتئینهای خاص و ساخت یک توالی اجماعی (consensus sequence) است که تنوع در نوکلئوتیدها را در بر گیرد. جایگاههای اضافی از طریق جستوجوی الگوی کلمات در کل ژنوم و نمرهدهی بر اساس شباهت به توالی اجماعی شناسایی میشوند .
طبق انتظار، بیشتر جایگاههای پیشبینیشده در نواحی غیرکدکننده DNA قرار دارند ، و نتایج این مطالعات اغلب در پایگاههایی مانند RegulonDB ارائه میشوند.
روش جستوجوی اجماعی اغلب با مطالعات تطبیقی ژنومی (comparative genomics) در نواحی بالادستی ژنهای ارتولوگ در موجودات نزدیک تقویت میشود.
از طریق این رویکرد، مشخص شد که حداقل ۲۷٪ از موتیفهای تنظیمی شناختهشده در E. coli، در یک یا چند باکتری دورتر نیز محافظت شدهاند .
شناسایی جایگاههای تنظیمی در یوکاریوتها چالش بزرگتری نسبت به پروکاریوتها ایجاد میکند، زیرا توالیهای اجماعی (consensus sequences) معمولاً کوتاهتر، متغیرتر و در فواصل زیادی پراکندهاند.
با این حال، مطالعات اولیه در S. cerevisiae مشاهده جالبی را دربارهی پروتئین GATA در تنظیم متابولیسم نیتروژن نشان دادند. در حالی که توالی اجماعی ۵ نوکلئوتیدی GATA تقریباً در سراسر ژنوم یافت میشود، یک جایگاه اتصال منفرد برای ایجاد عملکرد تنظیمی کافی نیست . بنابراین، ویژگیمندی عملکرد GATA از طریق تکرار این توالی اجماعی در نواحی بالادستی (upstream) ژنهای هدف حاصل میشود.
مطالعهای اولیه از این مشاهده استفاده کرد تا جایگاههای تنظیمی جدید را پیشبینی کند، با جستوجوی الیگونوکلئوتیدهای بیشنماییشده (over-represented) در نواحی غیرکدکننده ژنوم مخمر و کرم .
پس از شناسایی جایگاههای اتصال تنظیمی، چالش بعدی تعیین ژنهایی است که واقعاً تنظیم میشوند، که معمولاً تحت عنوان رگولونها (regulons) شناخته میشوند.
بهطور کلی فرض بر این است که جایگاههای اتصال مستقیماً در بالادست رگولون قرار دارند، اما این فرض در ارگانیسمهای مختلف با مشکلات متفاوتی همراه است.
-
در پروکاریوتها، وجود اپرونها وضعیت را پیچیده میکند؛ زیرا ژن تنظیمشونده ممکن است چندین ژن پایینتر از جایگاه تنظیمی قرار داشته باشد. پیشبینی ساختار اپرونها دشوار است ،بهویژه در تعیین اینکه کدام ژن در ابتدای اپرون قرار دارد، و اغلب بین موجودات مرتبط، حفظ نظم ژنی در فاصلههای طولانی مشاهده نمیشود .
-
در یوکاریوتها، این مشکل حتی شدیدتر است؛
جایگاههای تنظیمی معمولاً در هر دو جهت عمل میکنند، فاصله زیادی از ژن هدف دارند (بهخاطر نواحی بینژنی بزرگ)،و تنظیم رونویسی اغلب حاصل عملکرد ترکیبی چندین فاکتور رونویسی است که بهصورت ترکیبی (combinatorial) عمل میکنند.
با وجود این مشکلات، این مطالعات توانستهاند مسیرهای تنظیم رونویسی سامانههای شناختهشده مانند پاسخ به شوک حرارتی را تأیید کنند . علاوه بر این، امکان تأیید تجربی پیشبینیها نیز وجود دارد، بهویژه از طریق دادههای بیان ژن.
مطالعات بیان ژن
بسیاری از مطالعات بیان ژن تا کنون بر توسعه روشهایی برای خوشهبندی ژنها بر اساس شباهت در الگوهای بیانیشان تمرکز داشتهاند، تا بتوان ژنهایی را که تحت شرایط مختلف سلولی بهصورت مشترک بیان میشوند شناسایی کرد.
بهطور خلاصه، رایجترین روشها عبارتاند از:
-
خوشهبندی سلسلهمراتبی (hierarchical clustering)
-
نقشههای خودسازمانده (self-organising maps)
-
خوشهبندی K-means
روشهای سلسلهمراتبی که از الگوریتمهای ساخت درختهای فیلوژنتیکی گرفته شدهاند، ژنها را بهصورت از پایین به بالا (bottom-up) گروهبندی میکنند؛ ژنهایی با بیشترین شباهت بیانی ابتدا خوشهبندی میشوند و سپس بهصورت تکراری ژنهای متنوعتر اضافه میشوند .
در مقابل، روشهای SOM و K-means رویکردی از بالا به پایین (top-down) دارند، که در آن کاربر ابتدا تعداد خوشهها را مشخص میکند. خوشهها در ابتدا بهصورت تصادفی تعیین میشوند و سپس ژنها بهصورت تکراری بازگروهبندی میشوند تا خوشهبندی بهینه حاصل شود.
با در اختیار داشتن این روشها، مسئلهی جذاب بعدی، ارتباط دادن دادههای بیان ژن با ویژگیهایی مانند ساختار، عملکرد و مکان سلولی محصول ژنی است.
نقشهبرداری این ویژگیها میتواند به درک ویژگیهای پروتئینهایی که با هم بیان میشوند کمک کند و همچنین نتایجی جالب درباره بیوشیمی کلی سلول ارائه دهد.
-
در مخمر، پروتئینهای کوتاهتر تمایل بیشتری به بیان بالا دارند، احتمالاً به این دلیل که تولید آنها سادهتر است.
-
از نظر ترکیب آمینواسیدی، ژنهایی با بیان بالا معمولاً غنی از آلانین و گلیسین و فقیر از آسپاراژین هستند؛ این موارد نشاندهنده الزامات بیوشیمیایی سلول هستند، زیرا سنتز آلانین و گلیسین از نظر انرژی کمهزینهتر از آسپاراژین است.
از دیدگاه ساختاری:
-
ساختارهای TIM barrel و NTP هیدرولاز بیشترین میزان بیان را دارند.
-
در مقابل، ساختارهای زیپ لوسینی، زینک فینگر و پروتئینهای دارای مارپیچ تراغشایی کمترین بیان را دارند.
این تفاوت به عملکردهای مرتبط با این ساختارها بازمیگردد:
-
گروه اول در مسیرهای متابولیکی رایجاند.
-
گروه دوم بیشتر در فرآیندهای پیامرسانی یا انتقال شرکت دارند.
همچنین این الگو در مکانیابی درونسلولی نیز دیده میشود:
-
پروتئینهای سیتوپلاسمی بیان بالایی دارند،
-
در حالیکه پروتئینهای هستهای و غشایی بیان کمتری دارند.
روابط پیچیدهتری نیز بررسی شدهاند.
محصولات ژنی که با یکدیگر تعامل دارند، به احتمال بیشتری الگوهای بیان مشابهی دارند نسبت به ژنهایی که تعاملی ندارند .
با این حال، مطالعهای جدید نشان داد که این رابطه به این سادگی نیست :
-
محصولات ژنی که بهطور دائمی با هم در ارتباطاند (مانند زیرواحد بزرگ ریبوزوم)، الگوهای بیانی مشابهی دارند.
-
اما محصولاتی که تعامل گذرا دارند (حتی اگر در یک مسیر متابولیکی باشند)، الگوهای بیانی بسیار متفاوتی دارند.
-
همانطور که در ادامه بیان میشود، یکی از محرکهای اصلی در تحلیل بیان ژن، مطالعه سلولهای سرطانی بوده است . بهطور کلی، مشخص شده که سلولهای مختلف (مانند سلولهای اپیتلیال و تخمدانی) را میتوان بر اساس پروفایلهای بیان ژنی از یکدیگر متمایز کرد، و اینکه این پروفایلها هنگامی که سلولها از محیط درونزنده (in vivo) به محیط کشت (in vitro) منتقل میشوند نیز حفظ میشوند.
تفاوتهای فیزیولوژیکی میان سلولها نیز در بیان ژنهای خاص مشهود است؛ برای مثال، سطوح بیان ژنهای مرتبط با چرخه سلولی، بهویژه ژنهای ریبوزومی، با نرخ تکثیر سلول ارتباط مستقیم داشتند.
این تحلیل تطبیقی را میتوان به سلولهای توموری گسترش داد؛
در اینجا، با مقایسه با سلولهای طبیعی میتوان علل زیستی بروز سرطان را شناسایی کرد. برای نمونه، در سرطان پستان، ژنهای مرتبط با تکثیر سلولی و مسیرهای انتقال پیام تنظیمشونده توسط اینترفرون (IFN) دارای بیان افزایشی بودند.یکی از مشکلات درمان سرطان، هدفگیری دقیق درمانها برای انواع تومورهای آسیبزای متمایز (پاتوژنتیکی) است، تا کارایی درمان حداکثر و عوارض جانبی حداقل شود. از این رو، بهبود در ردهبندی سرطانها، محور پیشرفتهای درمانی در این حوزه بوده است.
اگرچه تمایز میان انواع مختلف سرطان — برای مثال زیرگروههای لوکمیا حاد (leukaemia) — بهخوبی تثبیت شده، اما هنوز نمیتوان تشخیص بالینی را تنها بر اساس یک آزمایش انجام داد.
در مطالعهای اخیر، لوکمی حاد میلوئیدی (AML) و لوکمی حاد لنفوبلاستی (ALL) براساس پروفایلهای بیان ژنی بهخوبی از هم تفکیک شدند .
از آنجایی که این روش نیاز به دانش زیستی پیشین از بیماریها ندارد، میتواند استراتژی عمومی برای ردهبندی انواع مختلف سرطان باشد.بهوضوح، درک دادههای بیان ژن بدون شناخت تنظیم رونویسی ممکن نیست. با این حال، تحلیلها در این حوزه همچنان محدود به تحلیلهای مقدماتی از بیان ژن در جهشیافتههای مخمر فاقد اجزای کلیدی کمپلکس آغاز رونویسی است.
-
«...کاربردهای عملی فراوان...»
در ادامه به برخی از کاربردهای مهم بیوانفورماتیک میپردازیم:
-
یافتن همولوگها
همانطور که پیشتر بیان شد، یکی از محرکهای کلیدی در بیوانفورماتیک، یافتن شباهتها بین بیومولکولهای مختلف است. علاوه بر سازماندهی نظاممند دادهها، شناسایی پروتئینهای همولوگ چندین کاربرد عملی مستقیم دارد.
واضحترین کاربرد آن، انتقال اطلاعات میان پروتئینهای مرتبط است. برای مثال، اگر پروتئینی ضعیفشناختهشده در اختیار داشته باشیم، میتوان با جستوجوی همولوگهای آن که بهخوبی شناسایی شدهاند، برخی اطلاعات عملکردی یا ساختاری را با احتیاط از آنها به پروتئین ناشناخته نسبت داد.
در زمینه دادههای ساختاری:
-
مدلسازی نظری ساختار پروتئینها معمولاً بر پایه ساختارهای تجربیشده همولوگهای نزدیک انجام میشود .
-
در تکنیکهایی مانند شناسایی چینخوردگی (fold recognition)، پیشبینی ساختار سوم به شرط پایداری انرژی پیشبینیشده، بر اساس شباهت با همولوگهای دور صورت میگیرد .
-
رویکرد طراحی دارو به این صورت است:
-
با داشتن توالی نوکلئوتیدی ژن، میتوان توالی آمینواسیدی احتمالی پروتئین کدشده را با نرمافزارهای ترجمه تعیین کرد.
-
سپس با استفاده از تکنیکهای جستوجوی توالی، میتوان همولوگهای این پروتئین را در ارگانیسمهای مدل یافت.
-
بر اساس شباهت توالی، ساختار پروتئین انسانی را بر پایه ساختارهای تجربیشده مدلسازی کرد.
-
در پایان، با استفاده از الگوریتمهای docking، میتوان مولکولهایی را طراحی کرد که به ساختار مدل متصل شوند؛ و این مسیر را برای آزمایشهای بیوشیمیایی جهت بررسی فعالیت زیستی آنها روی پروتئین واقعی هموار کرد.
-
سرشماریهای بزرگمقیاس (Large-scale Censuses)
هرچند پایگاههای داده میتوانند بهطور مؤثر تمام اطلاعات مربوط به ژنومها، ساختارها و دادههای بیان ژن را ذخیره کنند، اما فشردهسازی این اطلاعات به شکل روندها و حقایق قابل فهم برای کاربران، بسیار مفید است.
این تعمیمهای کلی کمک میکنند تا موضوعات جالب برای تحلیلهای عمیقتر شناسایی شوند و مشاهدات جدید نیز در یک بافتار مناسب قرار گیرند، تا بتوان بررسی کرد که آیا آنها رفتاری غیرعادی دارند یا خیر. -
از طریق این سرشماریهای بزرگمقیاس میتوان به پرسشهای تکاملی، بیوشیمیایی و بیوفیزیکی متعددی پاسخ داد، از جمله:
-
آیا چینخوردگیهای خاصی از پروتئینها به گروههای فیلوژنتیکی خاصی تعلق دارند؟
-
چه الگوهای چینخوردگی در ارگانیسمهای خاص رایجتر هستند؟
-
تا چه حد الگوهای چینخوردگی بین ارگانیسمهای مرتبط مشترکاند؟
-
آیا این میزان اشتراک با روابط تکاملی سنتی (درختهای فیلوژنتیکی) همراستا است؟
-
مطالعات اولیه نشان دادهاند که:
-
تعداد نسبی چینخوردگیها بین ارگانیسمها بسیار متفاوت است،
-
و میزان اشتراک چینخوردگیها با طبقهبندیهای فیلوژنتیکی سنتی همراستا است.
-
ادغام دادهها برای تحلیلهای جامعتر با ادغام اطلاعات عملکردی پروتئینها، میتوان بررسی کرد که:
-
آیا چینخوردگیهای خاص پروتئینی با عملکردهای بیوشیمیایی مشخص مرتبط هستند؟ مطالعات پیشین این ارتباط را تأیید کردهاند ، و این یافتهها بر تنوع مسیرهای متابولیک بین ارگانیسمها تأکید دارند.
-
آیا فراوانی بالای یک چینخوردگی خاص در ژنوم، با سطوح بالای بیان آن پروتئین مرتبط است؟
-
همچنین در این سرشماریها میتوان اطلاعات دیگری را نیز در نظر گرفت، از جمله:
-
موقعیتهای زیرسلولی پروتئینها
-
و برهمکنشهای میان آنها
-
با ترکیب این اطلاعات با دادههای ساختاری، میتوان شروع به ترسیم نقشهای جامع از تمام برهمکنشهای پروتئین-پروتئین در یک ارگانیسم کرد. این نقشهها درک عمیقتری از شبکههای زیستی در مقیاس سلولی بهدست میدهند و میتوانند پایهای برای تحلیلهای عملکردی سیستمهای زیستی پیچیده باشند.
-
کاربردهای بیشتر در علوم پزشکی
جدیدترین کاربردهای بیوانفورماتیک در علوم پزشکی عمدتاً بر تحلیل دادههای بیان ژن متمرکز بودهاند . این تحلیلها معمولاً شامل جمعآوری دادههای بیان ژن از سلولهایی است که تحت تأثیر بیماریهای مختلف قرار گرفتهاند ،
مانند سرطان و آترواسکلروز، و مقایسه این دادهها با سطوح طبیعی بیان ژن در سلولهای سالم. شناسایی ژنهایی که در سلولهای بیمار به شکل متفاوتی بیان میشوند، میتواند مبنایی برای توضیح علل بیماریها فراهم کند و همچنین اهداف دارویی بالقوه را مشخص سازد.با استفاده از فرآیندی ، میتوان ترکیباتی طراحی کرد که به پروتئین بیانشده متصل شوند، یا حتی مهمتر از آن، تنظیمکنندههای رونویسی را که موجب تغییر سطح بیان شدهاند، هدف قرار داد.
وقتی یک ترکیب اولیه (lead compound) شناسایی شد، آزمایشهای میکروآرای (microarray) میتوانند برای بررسی پاسخ سلولی به مداخله دارویی به کار روند ، و همچنین به عنوان آزمایشهای اولیه برای شناسایی یا پیشبینی سمیت داروهای آزمایشی عمل کنند.
-
آینده بیوانفورماتیک و پزشکی فردمحور
پیشرفتهای آتی در بیوانفورماتیک همراه با ژنومیکس تجربی برای هر فرد، پیشبینی میشود که تحولی عظیم در آینده مراقبتهای بهداشتی ایجاد کنند.
یک سناریوی رایج در آینده برای بیمار ممکن است با ژنوتیپبرداری پس از تولد آغاز شود، برای بررسی میزان حساسیت یا ایمنی نسبت به بیماریها و عوامل بیماریزا. با داشتن این اطلاعات، میتوان ترکیب خاصی از واکسنها را برای هر فرد تجویز کرد، که باعث کاهش هزینههای درمانهای غیرضروری شده و برای بیماریهای آینده در زندگی فرد آمادگی ایجاد کند.
غربالگریهای منظم در طول عمر میتوانند برای راهنمایی در تغذیه و تشخیص زودهنگام بیماریها استفاده شوند. علاوه بر آن، درمانهای دارویی میتوانند بهطور خاص برای هر فرد و بیماریاش تنظیم شوند، که این امر مؤثرترین روش درمانی را با کمترین عوارض جانبی فراهم میآورد.
با توجه به نرخ فعلی پیشرفتها، چنین سناریویی در آیندهای نه چندان دور کاملاً امکانپذیر به نظر میرسد.
-
نتیجهگیری
با حجم عظیم دادههای زیستی که امروزه تولید میشود، روشهای محاسباتی به ابزارهایی ضروری برای تحقیقات زیستی تبدیل شدهاند.
بیوانفورماتیک که ابتدا برای تحلیل توالیهای زیستی توسعه یافته بود، اکنون شامل حوزههای متنوعی مانند زیستشناسی ساختاری، ژنومیکس و مطالعات بیان ژن شده است.
دو رویکرد اصلی که زیربنای مطالعات بیوانفورماتیکیاند:
-
مقایسه و گروهبندی دادهها بر اساس شباهتهای زیستی معنادار
-
تحلیل یک نوع داده برای استنتاج و درک اطلاعات مربوط به نوعی دیگر از دادهها
-
این رویکردها بازتابدهنده اهداف اصلی بیوانفورماتیک هستند، یعنی:
-
درک و سازماندهی اطلاعات مرتبط با مولکولهای زیستی در مقیاس وسیع
-
در نتیجه، بیوانفورماتیک نهتنها عمق بیشتری به مطالعات زیستی بخشیده، بلکه بعد گستردگی و مقایسهای را نیز افزوده است. به این ترتیب، ما میتوانیم سیستمهای منفرد را با جزئیات بررسی کنیم و همچنین آنها را با سیستمهای مرتبط مقایسه کنیم تا اصول مشترک را شناسایی کرده و ویژگیهای خاص و منحصربهفرد را نیز برجسته سازیم.
-
همانطور که پیشتر گفتیم، یکی از منابع جدید و هیجانانگیز دادههای ژنومی، دادههای بیان ژن هستند. با ترکیب اطلاعات بیان ژن با طبقهبندیهای ساختاری و عملکردی پروتئینها، میتوان این سؤال را مطرح کرد:
-
هنگامی که دادههای بیوشیمیایی یا ساختاری در دست نیست، مطالعات میتوانند روی ارگانیسمهای سادهتر مانند مخمر انجام شوند، و نتایج به همولوگهای آن در ارگانیسمهای سطح بالاتر مانند انسان تعمیم داده شود که در آنها آزمایشها دشوارتر است.
-
-
رویکردی مشابه در ژنومیک نیز بهکار میرود.
شناسایی همولوگها بهطور گستردهای برای تأیید نواحی کدکننده در ژنومهای تازه تعیین توالیشده استفاده میشود، و دادههای عملکردی برای حاشیهنویسی ژنهای منفرد منتقل میگردد.در مقیاس وسیعتر، این روش فرآیند درک ژنومهای پیچیده را ساده میکند؛ زیرا ابتدا ارگانیسمهای ساده تحلیل میشوند، سپس همان اصول بر ارگانیسمهای پیچیدهتر اعمال میگردد — یکی از دلایلی که پروژههای اولیه ژنومیک ساختاری روی Mycoplasma genitalium متمرکز بودند .
جالب آنکه، همین ایده را میتوان برعکس نیز بهکار برد: اهداف دارویی بالقوه را میتوان با بررسی اینکه آیا همولوگهای پروتئینهای میکروبی ضروری در انسان وجود ندارند، سریعاً شناسایی کرد. در مقیاسی کوچکتر، تفاوتهای ساختاری بین پروتئینهای مشابه میتوانند برای طراحی مولکولهای دارویی که بهطور اختصاصی به یک ساختار متصل شوند و نه به دیگری، مورد استفاده قرار گیرند.
-
طراحی منطقی دارو (Rational Drug Design)
یکی از اولین کاربردهای پزشکی بیوانفورماتیک، کمک به طراحی منطقی داروها بوده است.
ژن MLH1 یک ژن انسانی است که پروتئین ترمیم ناهمسانی (mismatch repair) را کد میکند و روی بازوی کوتاه کروموزوم ۳ قرار دارد . با استفاده از تحلیلهای پیوستگی (linkage analysis) و شباهت آن به ژنهای mmr در موش، این ژن در سرطان کولورکتال غیرپولیپوزیس (HNPCC) دخیل دانسته شده است .
منبع:
Luscombe, Nicholas M., Dov Greenbaum, and Mark Gerstein. "What is bioinformatics? An introduction and overview." Yearbook of medical informatics 10, no. 01 (2001): 83-100.