به فروشگاه اینترنتی آریاطب خوش آمدید!

قیمت همکاری

دسته بندی ها:

برند ها:

لندینگ:

محصولات:

بیوانفورماتیک چیست؟

بیوانفورماتیک چیست؟

مقدمه
داده‌های زیستی با سرعتی بی‌سابقه در حال تولید هستند.برای مثال، تا ماه اوت سال ۲۰۰۰، مخزن GenBank از توالی‌های اسید نوکلئیک شامل ۸٬۲۱۴٬۰۰۰ مدخل بود  و پایگاه داده SWISS-PROT از توالی‌های پروتئینی شامل ۸۸٬۱۶۶ مدخل بود.
به طور متوسط، میزان اطلاعات ذخیره‌شده در این پایگاه‌های داده هر ۱۵ ماه دو برابر می‌شود.
علاوه بر این، از زمان انتشار ژنوم Haemophilus influenzae ، توالی‌های کامل بیش از ۴۰ موجود زنده منتشر شده است، که از ۴۵۰ ژن تا بیش از ۱۰۰٬۰۰۰ ژن را شامل می‌شوند.
اگر به این اطلاعات، داده‌های حاصل از پروژه‌های مرتبط بسیاری که به بررسی بیان ژن، تعیین ساختارهای پروتئینی رمزگذاری‌شده توسط ژن‌ها و توصیف نحوه تعامل این محصولات با یکدیگر می‌پردازند را اضافه کنیم، می‌توانیم تصور کنیم چه مقدار عظیم و متنوعی از اطلاعات در حال تولید است.

در نتیجه این هجوم داده‌ها، بسیاری از چالش‌ها در زیست‌شناسی عملاً به چالش‌هایی در حوزه رایانش تبدیل شده‌اند. چنین رویکردی ایده‌آل است، زیرا رایانه‌ها به‌راحتی می‌توانند مقادیر زیادی داده را پردازش کرده و پویایی‌های پیچیده‌ای که در طبیعت مشاهده می‌شوند را بررسی کنند.
بیوانفورماتیک، موضوع این مرور کنونی، اغلب به‌عنوان به‌کارگیری تکنیک‌های رایانشی برای درک و سازماندهی اطلاعات مرتبط با ماکرومولکول‌های زیستی تعریف می‌شود.این پیوند ناگهانی میان دو حوزه عمدتاً به این واقعیت نسبت داده می‌شود که زیست‌شناسی خود یک فناوری اطلاعاتی است؛ فیزیولوژی و رفتار یک جاندار تا حد زیادی توسط ژن‌های آن تعیین می‌شود، که در سطح پایه می‌توان آن‌ها را به‌عنوان مخازن دیجیتال اطلاعات در نظر گرفت.
در همین حال، پیشرفت‌های چشمگیری در فناوری‌هایی که داده‌های خام را فراهم می‌کنند رخ داده است؛ به گفته آنتونی کرلاویج از شرکت Celera، یک آزمایشگاه تجربی می‌تواند به‌راحتی بیش از ۱۰۰ گیگابایت داده در روز تولید کند .
این قدرت پردازشی شگفت‌انگیز با پیشرفت‌های فناوری رایانه‌ای همگام شده است؛ مهم‌ترین زمینه‌های بهبود در CPU، حافظه‌های ذخیره‌سازی دیسک و اینترنت بوده‌اند، که محاسبات سریع‌تر، ذخیره‌سازی بهتر داده‌ها و انقلابی در روش‌های دسترسی و تبادل داده‌ها را ممکن ساخته‌اند.

اهداف بیوانفورماتیک

اهداف بیوانفورماتیک سه‌گانه هستند.
هدف اول، در ساده‌ترین شکل خود، بیوانفورماتیک داده‌ها را به گونه‌ای سازمان‌دهی می‌کند که به پژوهشگران اجازه دهد به اطلاعات موجود دسترسی داشته باشند و در صورت تولید داده‌های جدید، آن‌ها را ثبت کنند؛ برای مثال، پایگاه داده Protein Data Bank برای ساختارهای سه‌بعدی ماکرومولکول‌ها .
در حالی‌که سامان‌دهی داده‌ها کاری ضروری است، اطلاعات ذخیره‌شده در این پایگاه‌های داده تا زمانی که تحلیل نشوند، عملاً بی‌استفاده هستند.بنابراین، هدف بیوانفورماتیک بسیار فراتر از صرفاً کنترل حجم داده‌هاست.

هدف دوم، توسعه ابزارها و منابعی است که به تحلیل داده‌ها کمک می‌کنند.
برای مثال، پس از توالی‌یابی یک پروتئین خاص، مقایسه آن با توالی‌هایی که پیش‌تر شناسایی شده‌اند، اهمیت دارد.این کار نیازمند چیزی فراتر از یک جستجوی ساده در پایگاه داده است.به همین دلیل، برنامه‌هایی مانند FASTA و PSI-BLAST  باید در نظر بگیرند که چه چیزی به‌عنوان یک شباهت زیستی مهم تلقی می‌شود.توسعه چنین منابعی نیازمند دانش گسترده‌ای در نظریه رایانش، و همچنین درک عمیق از زیست‌شناسی است.

هدف سوم، استفاده از این ابزارها برای تحلیل داده‌ها و تفسیر نتایج به شیوه‌ای معنادار از نظر زیستی است.به طور سنتی، مطالعات زیستی سیستم‌های منفرد را با جزئیات بررسی کرده و معمولاً آن‌ها را با چند سیستم مرتبط دیگر مقایسه می‌کردند.
اما در زیست‌اطلاعات، ما می‌توانیم تحلیل‌هایی در مقیاس جهانی روی تمام داده‌های موجود انجام دهیم، با هدف کشف اصول مشترکی که در بسیاری از سیستم‌ها صدق می‌کنند، و برجسته‌سازی ویژگی‌هایی که در برخی سیستم‌ها منحصربه‌فرد هستند.

در این مرور، ما معرفی‌ای از بیوانفورماتیک ارائه می‌دهیم و به طور خاص، درباره دامنه داده‌هایی که در حال حاضر مورد بررسی قرار می‌گیرند، پایگاه‌های داده‌ای که این اطلاعات در آن‌ها سازمان‌دهی می‌شوند، انواع تحلیل‌هایی که با استفاده از سامانه‌های تنظیم بیان ژن انجام می‌شوند، و در نهایت برخی از کاربردهای عملی مهم بیوانفورماتیک بحث خواهیم کرد.

"...اطلاعات مرتبط با این مولکول‌ها..."
 

ما با مروری بر منابع اطلاعات آغاز می‌کنیم:

این منابع را می‌توان به توالی‌های خام DNA، توالی‌های پروتئینی، ساختارهای ماکرومولکولی، توالی‌های ژنومی و سایر داده‌های مربوط به کل ژنوم تقسیم کرد.
توالی‌های خام DNA، رشته‌هایی از چهار حرف باز هستند که ژن‌ها را تشکیل می‌دهند، و هر ژن معمولاً حدود ۱۰۰۰ باز دارد.
مخزن GenBank از توالی‌های اسید نوکلئیک در حال حاضر حاوی ۹.۵ میلیارد باز در ۸.۲ میلیون مدخل است (تمام آمار پایگاه داده مربوط به اوت ۲۰۰۰ هستند).
در سطح بعدی، توالی‌های پروتئینی قرار دارند که شامل رشته‌هایی از ۲۰ حرف آمینواسیدی هستند.
در حال حاضر حدود ۳۰۰٬۰۰۰ توالی پروتئینی شناخته‌شده وجود دارد، و یک پروتئین باکتریایی معمولی تقریباً ۳۰۰ اسیدآمینه دارد.

داده‌های ساختاری ماکرومولکولی شکل پیچیده‌تری از اطلاعات را نشان می‌دهند.
در حال حاضر ۱۳٬۰۰۰ مدخل در پایگاه داده ساختارهای پروتئینی (PDB) وجود دارد که بیشتر آن‌ها ساختار پروتئین‌ها هستند.
یک فایل PDB معمولی برای یک پروتئین با اندازه متوسط، مختصات xyz برای حدود ۲۰۰۰ اتم را شامل می‌شود.

در حال حاضر، هیجان علمی عمدتاً بر روی تعیین توالی کامل ژنوم متمرکز شده است.
همانند توالی‌های خام DNA، ژنوم‌ها نیز از رشته‌هایی از حروف باز تشکیل شده‌اند که از ۱.۶ میلیون باز در Haemophilus influenzae تا ۳ میلیارد باز در انسان متغیرند.
یکی از جنبه‌های مهم ژنوم‌های کامل، تمایز میان نواحی کدکننده و نواحی غیرکدکننده است — دنباله‌های تکراری «بی‌مصرف» که بخش عمده‌ای از توالی‌های باز را به‌ویژه در یوکاریوت‌ها تشکیل می‌دهند.

ما اکنون می‌توانیم سطوح بیان تقریباً هر ژن در یک سلول خاص را در مقیاس ژنومی اندازه‌گیری کنیم، هرچند دسترسی عمومی به چنین داده‌هایی هنوز محدود است.
اندازه‌گیری سطوح بیان تحت شرایط محیطی مختلف، مراحل گوناگون چرخه سلولی و انواع مختلف سلول در جانداران پرسلولی انجام می‌شود.
در حال حاضر، بزرگ‌ترین مجموعه داده برای مخمر، حدود ۲۰ نقطه زمانی را برای ۶٬۰۰۰ ژن ثبت کرده است (۱۰).

سایر داده‌های مقیاس ژنومی شامل اطلاعات بیوشیمیایی درباره مسیرهای متابولیکی، شبکه‌های تنظیمی، داده‌های تعامل پروتئین-پروتئین از آزمایش‌های دو-هیبرید، و غیرفعال‌سازی سیستماتیک ژن‌ها برای بررسی بقای جاندار هستند.

آنچه از این فهرست مشهود است، تنوع در اندازه و پیچیدگی مجموعه داده‌های مختلف است.
داده‌های مبتنی بر توالی به طور اجتناب‌ناپذیری بیشتر از داده‌های ساختاری هستند، زیرا تولید آن‌ها نسبتاً آسان‌تر است.
این مسئله تا حدی به پیچیدگی بیشتر و محتوای اطلاعاتی بالاتر ساختارهای منفرد نسبت به توالی‌های منفرد مربوط می‌شود.
در حالی‌که اطلاعات زیستی بیشتری می‌توان از یک ساختار منفرد نسبت به یک توالی پروتئینی استخراج کرد، این مشکل در مورد توالی‌ها با تحلیل حجم بیشتری از داده‌ها جبران می‌شود.

«سازمان‌دهی اطلاعات در مقیاس وسیع…»

تکرار و چندگانگی داده‌ها
مفهومی که زیربنای بیشتر روش‌های پژوهشی در بیوانفورماتیک است، این است که بسیاری از این داده‌ها را می‌توان بر اساس شباهت‌های معنادار زیستی در گروه‌هایی طبقه‌بندی کرد.
برای مثال، قطعاتی از توالی‌ها اغلب در موقعیت‌های مختلفی از DNA ژنومی تکرار می‌شوند .
ژن‌ها را می‌توان بر اساس عملکردهای خاص (مثلاً عملکردهای آنزیمی) یا طبق مسیر متابولیکی‌ای که به آن تعلق دارند، خوشه‌بندی کرد ، هرچند در اینجا ممکن است یک ژن منفرد چندین عملکرد داشته باشد.
فراتر از این، پروتئین‌های متمایز اغلب توالی‌هایی قابل مقایسه دارند – موجودات زنده معمولاً چندین نسخه از یک ژن خاص را از طریق دو برابر شدن ژن‌ها دارند، و گونه‌های مختلف پروتئین‌هایی معادل یا مشابه دارند که زمانی که در مسیر تکامل از یکدیگر جدا شدند، به ارث برده‌اند.

در سطح ساختاری، پیش‌بینی می‌شود که تنها تعداد محدودی ساختار سوم‌پایه (ساختار سوم پروتئین‌ها) وجود داشته باشد – تخمین‌ها بین ۱٬۰۰۰ تا ۱۰٬۰۰۰ چین‌خوردگی (fold) را نشان می‌دهند – و پروتئین‌ها حتی زمانی که توالی‌های بسیار متفاوتی دارند، ساختارهای معادلی را اتخاذ می‌کنند .
در نتیجه، اگرچه تعداد ساختارها در پایگاه داده PDB به‌صورت نمایی افزایش یافته است، اما نرخ کشف چین‌خوردگی‌های جدید در واقع کاهش یافته است.

واژگان رایجی برای توصیف رابطه بین جفت‌های پروتئین یا ژن‌هایی که از آن‌ها مشتق شده‌اند وجود دارد:
پروتئین‌های آنالوگ (analogous) ساختارهای تاخورده‌ی مشابه دارند اما توالی‌های متفاوت دارند، در حالی‌که پروتئین‌های همولوگ (homologous) هم از نظر توالی و هم از نظر ساختار مشابه هستند.
این دو دسته گاهی اوقات به‌ویژه وقتی که رابطه بین دو پروتئین دور است، به سختی از هم قابل تشخیص‌اند.
در میان همولوگ‌ها، تفکیک بین پروتئین‌های ارتولوگ (orthologues) – یعنی پروتئین‌هایی در گونه‌های مختلف که از یک ژن نیایی مشترک به‌وجود آمده‌اند – و پارالوگ (paralogues) – یعنی پروتئین‌هایی که در نتیجه دو برابر شدن ژن‌ها در یک ژنوم با هم مرتبط‌اند – سودمند است.معمولاً ارتولوگ‌ها عملکرد یکسانی را حفظ می‌کنند، در حالی‌که پارالوگ‌ها عملکردهایی متمایز اما مرتبط را تکامل می‌دهند .

مفهوم مهمی که از این مشاهدات به‌دست می‌آید، ایده‌ی «فهرست قطعات محدود» برای جانداران مختلف است :
یک فهرست موجود از پروتئین‌های موجود در یک جاندار که طبق ویژگی‌های مختلفی مانند توالی ژنی، چین‌خوردگی پروتئینی یا عملکرد، مرتب شده‌اند.
اگر چین‌خوردگی پروتئینی را به عنوان مثال در نظر بگیریم، قبلاً اشاره شد که به‌جز چند استثنا، ساختارهای سوم پروتئین‌ها یکی از تعداد محدودی از چین‌خوردگی‌ها را اتخاذ می‌کنند.
از آنجا که تعداد خانواده‌های چین‌خوردگی به‌مراتب کمتر از تعداد خانواده‌های ژنی است، طبقه‌بندی پروتئین‌ها بر اساس چین‌خوردگی، ساده‌سازی قابل‌توجهی در محتوای یک ژنوم ایجاد می‌کند.
ساده‌سازی‌های مشابهی را می‌توان با سایر ویژگی‌ها مانند عملکرد پروتئینی نیز انجام داد.
از این‌رو انتظار می‌رود که مفهوم «فهرست قطعات محدود» در تحلیل‌های ژنومی آینده بیش از پیش رایج شود.واضح است که یکی از جنبه‌های اساسی در مدیریت این حجم عظیم داده‌ها، توسعه روش‌هایی برای ارزیابی شباهت‌ها بین بیومولکول‌های مختلف و شناسایی آن‌هایی است که با هم مرتبط‌اند.

 

در ادامه، پایگاه‌های داده اصلی که دسترسی به منابع اولیه اطلاعات را فراهم می‌کنند بررسی می‌شوند، و همچنین برخی پایگاه‌های داده ثانویه که داده‌ها را به‌طور نظام‌مند گروه‌بندی می‌کنند معرفی می‌گردند.
این طبقه‌بندی‌ها امکان مقایسه بین ژنوم‌ها و محصولات آن‌ها را آسان‌تر می‌کنند، و به شناسایی الگوهای مشترک میان موجودات مرتبط و نیز برجسته‌سازی ویژگی‌هایی که در برخی موجودات منحصربه‌فرد هستند کمک می‌کنند.

پایگاه‌های داده توالی پروتئینی

پایگاه‌های داده توالی پروتئینی به سه دسته‌ی اولیه، ترکیبی و ثانویه تقسیم می‌شوند.
پایگاه‌های داده اولیه حاوی بیش از ۳۰۰٬۰۰۰ توالی پروتئینی هستند و به‌عنوان مخزنی برای داده‌های خام عمل می‌کنند.
برخی مخازن رایج‌تر، مانند SWISS-PROT و PIR-International ، علاوه بر ثبت توالی‌ها، عملکرد پروتئین‌ها، ساختار دومین‌ها و تغییرات پساترجمه‌ای آن‌ها را نیز شرح می‌دهند.

پایگاه‌های داده ترکیبی مانند OWL  و NRDB ، داده‌های توالی را از پایگاه‌های اولیه مختلف گردآوری و فیلتر می‌کنند تا مجموعه‌هایی ترکیبی و بدون افزونگی ایجاد کنند که نسبت به پایگاه‌های منفرد کامل‌ترند.
این مجموعه‌ها همچنین شامل داده‌های توالی پروتئینی هستند که از نواحی کدکننده ترجمه‌شده در پایگاه‌های داده توالی DNA (که در ادامه به آن‌ها اشاره می‌شود) استخراج شده‌اند.

پایگاه‌های داده ثانویه حاوی اطلاعاتی هستند که از توالی‌های پروتئینی استخراج شده‌اند و به کاربر کمک می‌کنند تا تعیین کند آیا توالی جدیدی به یک خانواده پروتئینی شناخته‌شده تعلق دارد یا نه.
یکی از پرکاربردترین آن‌ها PROSITE  است، پایگاه داده‌ای از الگوهای کوتاه توالی و پروفایل‌هایی که نواحی زیستی مهم در پروتئین‌ها را مشخص می‌کنند.

PRINTS این مفهوم را گسترش می‌دهد و مجموعه‌ای از «اثر انگشت‌های پروتئینی» را فراهم می‌کند – گروه‌هایی از موتیف‌های محافظت‌شده که یک خانواده پروتئینی را توصیف می‌کنند.
موتیف‌ها معمولاً در طول توالی پروتئین از یکدیگر جدا هستند، اما ممکن است در فضای سه‌بعدی، هنگام تاخوردن پروتئین، در کنار هم قرار گیرند.
با استفاده از چندین موتیف، اثر انگشت‌ها می‌توانند چین‌خوردگی‌ها و عملکردهای پروتئینی را به شکلی انعطاف‌پذیرتر از PROSITE رمزگذاری کنند.

در نهایت، Pfam  مجموعه‌ای گسترده از هم‌ترازی‌های چندگانه توالی‌ها و مدل‌های مخفی مارکوف (HMM) است که بسیاری از دومین‌های رایج پروتئینی را پوشش می‌دهد.
Pfam-A شامل هم‌ترازی‌هایی دقیق و تهیه‌شده به‌صورت دستی است، در حالی‌که Pfam-B حاصل خوشه‌بندی خودکار کل پایگاه داده SWISS-PROT می‌باشد.

این پایگاه‌های داده ثانویه مختلف اخیراً در یک منبع واحد به نام InterPro تجمیع شده‌اند.

 

پایگاه‌های داده ساختاری

در ادامه به پایگاه‌های داده ساختارهای ماکرومولکولی می‌پردازیم.
Protein Data Bank (PDB)  آرشیو اولیه‌ای از همه ساختارهای سه‌بعدی ماکرومولکول‌هایی مانند پروتئین‌ها، RNA، DNA و کمپلکس‌های مختلف را فراهم می‌کند.
اکثر حدود ۱۳٬۰۰۰ ساختار (تا اوت ۲۰۰۰) از طریق بلورنگاری پرتو ایکس و طیف‌نمایی رزونانس مغناطیسی هسته (NMR) حل شده‌اند، اما برخی مدل‌های نظری نیز در آن گنجانده شده‌اند.

از آنجا که اطلاعات ارائه‌شده در مدخل‌های PDB ممکن است استخراج آن دشوار باشد، PDBsum  برای هر ساختار در PDB یک صفحه وب جداگانه فراهم می‌کند که تحلیل‌های ساختاری دقیق، نمودارهای شماتیک و داده‌هایی درباره تعاملات بین مولکول‌های مختلف در یک مدخل خاص را نمایش می‌دهد.

سه پایگاه داده مهم، پروتئین‌ها را بر اساس ساختار طبقه‌بندی می‌کنند تا روابط ساختاری و تکاملی آن‌ها را شناسایی کنند:
CATH ، SCOP ، و FSSP .
همه‌ی این پایگاه‌ها دارای طبقه‌بندی ساختاری سلسله‌مراتبی هستند که در آن، گروه‌های پروتئینی در سطوح پایین‌تر درخت طبقه‌بندی، شباهت بیشتری دارند.

علاوه بر این، پایگاه‌های داده‌ی متعددی بر انواع خاصی از ماکرومولکول‌ها تمرکز دارند.
این پایگاه‌ها شامل موارد زیر هستند:

  • Nucleic Acids Database (NDB) ، برای ساختارهای مرتبط با اسیدهای نوکلئیک

  • پایگاه داده HIV protease ، برای ساختارهای پروتئاز HIV-1، HIV-2 و SIV و کمپلکس‌های آن‌ها

  • ReLiBase ، برای کمپلکس‌های گیرنده-لیگاند (receptor-ligand)

این پایگاه‌های ساختاری امکان تحلیل عمیق‌تر ساختارهای بیومولکولی و مقایسه آن‌ها را فراهم می‌کنند.

توالی‌های نوکلئوتیدی و ژنومی

همان‌طور که پیش‌تر بیان شد، هیجان‌انگیزترین پیشرفت کنونی در دسترسی به توالی‌های کامل ژنوم برای جانداران مختلف نهفته است.
پایگاه‌های داده GenBank ، EMBL  و DDBJ  شامل توالی‌های DNA برای ژن‌های منفرد هستند که محصولات پروتئینی و RNA را رمزگذاری می‌کنند.
مشابه پایگاه‌های ترکیبی توالی پروتئینی، پایگاه داده Entrez nucleotide داده‌های توالی را از این پایگاه‌های داده اولیه گردآوری می‌کند.

از آنجا که تعیین توالی ژنوم کامل معمولاً از طریق همکاری‌های بین‌المللی انجام می‌شود، ژنوم‌های منفرد در سایت‌های مختلف منتشر می‌شوند.
پایگاه داده Entrez genome  تمام ژنوم‌های کامل و ناقص را در یک مکان گردآوری کرده و تا اوت ۲۰۰۰ نماینده بیش از ۱٬۰۰۰ موجود زنده بوده است.

علاوه بر فراهم‌کردن توالی خام نوکلئوتیدی، اطلاعات در سطوح مختلفی از جزئیات ارائه می‌شود، از جمله:

  • فهرست ژنوم‌های کامل‌شده

  • تمام کروموزوم‌های یک موجود

  • نمای دقیق از کروموزوم‌های منفرد با علامت‌گذاری نواحی کدکننده و غیرکدکننده

  • ژن‌های منفرد

در هر سطح، نمایش‌های گرافیکی، تحلیل‌های از پیش‌محاسبه‌شده و پیوندهایی به دیگر بخش‌های Entrez وجود دارد.
برای مثال، حاشیه‌نویسی‌های مربوط به ژن‌های منفرد شامل توالی پروتئینی ترجمه‌شده، هم‌ترازی توالی با ژن‌های مشابه در دیگر ژنوم‌ها، و خلاصه‌هایی از عملکرد پیش‌بینی‌شده یا تجربی تأییدشده است.

GeneCensus  نیز نقطه‌ ورودی دیگری برای تحلیل ژنوم فراهم می‌کند که شامل مقایسه تعاملی ژنوم‌های کامل از دیدگاه تکاملی است.
این پایگاه امکان ساخت درخت‌های فیلوژنتیکی بر اساس معیارهای مختلفی مانند RNA ریبوزومی یا فراوانی چین‌خوردگی‌های پروتئینی را فراهم می‌کند.
این سایت همچنین امکان مقایسه چندین ژنوم، تحلیل یک ژنوم منفرد و بازیابی اطلاعات درباره ژن‌های مشخص را نیز فراهم می‌سازد.

پایگاه داده COGs  پروتئین‌های رمزگذاری‌شده در ۲۱ ژنوم کامل‌شده را بر اساس شباهت توالی طبقه‌بندی می‌کند.
اعضای یک خوشه گروه‌های ارتولوگ (COG) انتظار می‌رود که ساختار سوم مشابهی داشته باشند و اغلب عملکردهای مشابهی نیز دارا باشند.
کاربرد ساده و مستقیم این پایگاه داده، پیش‌بینی عملکرد پروتئین‌هایی است که هنوز شناسایی نشده‌اند، از طریق همولوژی با پروتئین‌های شناخته‌شده.
همچنین امکان شناسایی الگوهای فیلوژنتیکی فراوانی پروتئین‌ها را فراهم می‌کند – برای مثال، آیا یک COG خاص در بیشتر یا همه موجودات یافت می‌شود یا فقط در چند گونه نزدیک به هم.

 

داده‌های بیان ژن

جدیدترین منابع داده‌های در مقیاس ژنومی، از آزمایش‌های بیان ژن حاصل می‌شوند که میزان بیان ژن‌های منفرد را اندازه‌گیری می‌کنند.
این آزمایش‌ها مقدار mRNA یا محصولات پروتئینی تولیدشده توسط سلول را اندازه می‌گیرند.
برای mRNA، سه فناوری اصلی وجود دارد: ریزآرایه cDNA ، تراشه ژنی Affymetrix (GeneChip) ، و روش‌های SAGE .
روش اول، سطح نسبی فراوانی mRNA را بین نمونه‌های مختلف می‌سنجد، در حالی‌که دو روش دیگر سطوح مطلق را اندازه می‌گیرند.

بیشتر تلاش‌ها در تحلیل بیان ژن بر ژنوم‌های مخمر و انسان متمرکز بوده است، و تاکنون مخزن مرکزی برای این داده‌ها وجود ندارد.
برای مخمر، مجموعه‌ داده‌های Young، Church  و Samson از روش GeneChip استفاده می‌کنند، در حالی‌که مجموعه‌های چرخه سلولی استنفورد ، تغییر دیاکسی و جهش‌یافته‌های حذف‌شده از روش ریزآرایه بهره می‌برند.
بیشتر این آزمایش‌ها سطح mRNA را در سراسر چرخه سلولی مخمر اندازه‌گیری می‌کنند، هرچند برخی بر یک مرحله خاص تمرکز دارند.

برای انسان، کاربرد اصلی این فناوری‌ها، درک بیان ژن در تومورها و سلول‌های سرطانی بوده است.
پروژه‌های تصویر مولکولی تومورهای پستان (Molecular Portraits of Breast Tumours) ، و پروفایل مولکولی لنفوم و لوکمی  داده‌هایی از آزمایش‌های ریزآرایه‌ای روی سلول‌های سرطانی انسانی ارائه می‌دهند.

فناوری‌های سنجش فراوانی پروتئین‌ها در حال حاضر به الکتروفورز دو بعدی ژل همراه با طیف‌سنجی جرمی محدود می‌شوند.
از آنجا که ژل‌ها به‌طور معمول فقط می‌توانند حدود ۱٬۰۰۰ پروتئین را تفکیک کنند ، تنها پروتئین‌های با فراوانی بالا قابل مشاهده هستند.
در حال حاضر، داده‌های حاصل از این آزمایش‌ها فقط از طریق مقالات علمی در دسترس هستند .

یکپارچه‌سازی داده‌ها

سودمندترین تحقیقات در بیوانفورماتیک اغلب از ادغام چند منبع داده حاصل می‌شود .
برای مثال، مختصات سه‌بعدی یک پروتئین زمانی مفیدتر هستند که با داده‌هایی درباره‌ی عملکرد پروتئین، حضور آن در ژنوم‌های مختلف، و تعاملاتش با سایر مولکول‌ها ترکیب شوند.
به این ترتیب، قطعات مجزای اطلاعات در چارچوبی مرتبط با سایر داده‌ها قرار می‌گیرند.

متأسفانه، دسترسی به این منابع اطلاعاتی و ایجاد ارجاع متقابل میان آن‌ها همواره ساده نیست، چرا که تفاوت در نام‌گذاری‌ها و فرمت فایل‌ها وجود دارد.

در سطح پایه، این مشکل اغلب با ارائه پیوندهای خارجی به پایگاه‌های داده دیگر برطرف می‌شود.
برای مثال، در PDBsum، صفحات وب مربوط به ساختارهای منفرد کاربران را به مدخل‌های متناظر در PDB، NDB، CATH، SCOP و SWISS-PROT هدایت می‌کنند.

در سطحی پیشرفته‌تر، تلاش‌هایی برای ادغام دسترسی به چند منبع داده به‌صورت یکپارچه انجام شده است.
یکی از این تلاش‌ها Sequence Retrieval System (SRS) است که اجازه می‌دهد هر پایگاه داده‌ای با فرمت flat-file (متنی ساده) به یکدیگر ایندکس شوند؛
این قابلیت به کاربر اجازه می‌دهد تا مدخل‌هایی را از پایگاه‌های داده اسید نوکلئیک، توالی پروتئینی، موتیف‌های پروتئینی، ساختار پروتئینی و منابع کتاب‌سنجی بازیابی، پیوند و دسترسی پیدا کند.

نمونه دیگر، سامانه Entrez است که درگاهی مشابه برای دسترسی به توالی‌های DNA و پروتئین، داده‌های نقشه‌برداری ژنومی، ساختارهای سه‌بعدی ماکرومولکولی و پایگاه داده کتاب‌سنجی PubMed  فراهم می‌کند.

جستجوی یک ژن خاص در هر یک از این پایگاه‌ها امکان انتقال روان و مستقیم به اطلاعات ژنوم مربوطه، توالی پروتئینی رمزگذاری‌شده، ساختار آن، ارجاعات علمی و مدخل‌های معادل برای تمام ژن‌های مرتبط را فراهم می‌سازد.

«...درک و سازمان‌دهی اطلاعات...»

پس از بررسی داده‌ها، می‌توانیم به بحث درباره انواع تحلیل‌هایی که انجام می‌شوند بپردازیم.
حوزه‌های اصلی بیوانفورماتیک را می‌توان بر اساس منابع اطلاعاتی مورد استفاده در مطالعات، تفکیک کرد.

برای توالی‌های خام DNA، تحقیقات شامل تفکیک نواحی کدکننده از غیرکدکننده، شناسایی اینترون‌ها، اگزون‌ها و نواحی پروموتر برای حاشیه‌نویسی DNA ژنومی است .
برای توالی‌های پروتئینی، تحلیل‌ها شامل توسعه الگوریتم‌هایی برای مقایسه توالی‌ها ، روش‌هایی برای تولید هم‌ترازی‌های چندتایی توالی و جستجوی دومین‌های عملکردی از طریق موتیف‌های محافظت‌شده در این هم‌ترازی‌ها هستند.

بررسی داده‌های ساختاری شامل پیش‌بینی ساختارهای دوم و سوم پروتئین‌ها، توسعه روش‌هایی برای هم‌ترازی ساختارهای سه‌بعدی ، بررسی هندسه پروتئین‌ها از طریق اندازه‌گیری‌های فاصله و زاویه، محاسبه شکل سطح و حجم، و تحلیل تعاملات پروتئین با سایر زیرواحدها، DNA، RNA و مولکول‌های کوچک می‌شود.

این مطالعات به موضوعات شبیه‌سازی مولکولی منتهی شده‌اند که در آن داده‌های ساختاری برای محاسبه انرژی‌های پایدارکننده ساختارهای ماکرومولکولی، شبیه‌سازی حرکات درون‌مولکولی، و محاسبه انرژی‌های دخیل در اتصال مولکولی (molecular docking) به کار می‌روند.

در دسترس بودن فزاینده توالی‌های ژنومی حاشیه‌نویسی‌شده، منجر به ظهور حوزه‌هایی چون ژنومیک رایانشی و پروتئومیک شده است – یعنی تحلیل‌های در مقیاس وسیع از ژنوم‌های کامل و پروتئین‌های کدشده توسط آن‌ها.
پژوهش‌ها شامل شناسایی محتوای پروتئینی و مسیرهای متابولیکی در ژنوم‌های مختلف، شناسایی پروتئین‌های متعامل، اختصاص عملکرد به محصولات ژنی و پیش‌بینی آن‌ها، و تحلیل‌های وسیع از سطوح بیان ژن‌ها هستند.

برخی از این موضوعات پژوهشی در تحلیل نمونه‌ای ما از سامانه‌های تنظیم رونویسی نمایش داده خواهند شد.

علاوه بر یافتن روابط بین پروتئین‌های مختلف، بخش بزرگی از بیوانفورماتیک شامل تحلیل یک نوع داده برای استنتاج و درک مشاهدات نوع دیگری از داده‌ها است.
یک مثال از این امر، استفاده از داده‌های توالی و ساختاری برای پیش‌بینی ساختارهای دوم و سوم توالی‌های جدید پروتئینی است .
این روش‌ها، به‌ویژه روش‌های مبتنی بر توالی، اغلب بر قواعد آماری‌ای مبتنی هستند که از ساختارها استخراج شده‌اند؛مانند تمایل برخی توالی‌های آمینواسیدی به تشکیل اجزای مختلف ساختار دوم.

مثالی دیگر استفاده از داده‌های ساختاری برای درک عملکرد یک پروتئین است؛ در اینجا، مطالعاتی به بررسی رابطه بین چین‌خوردگی‌های مختلف پروتئینی و عملکرد آن‌ها پرداخته‌اند ، و شباهت‌های بین جایگاه‌های اتصال در غیاب همولوژی را تحلیل کرده‌اند .
این مطالعات، همراه با سنجش‌های شباهت، درک ما را از اینکه چه میزان اطلاعات زیستی را می‌توان با دقت از یک پروتئین همولوگ به دیگری انتقال داد، افزایش می‌دهند .

 

طیف بیوانفورماتیک

  توسعه تکنیک‌های بیوانفورماتیکی موجب گسترش تحلیل‌های زیستی در دو بعد شده است: عمق و گستره.

بعد نخست رویکردی  به سمت طراحی منطقی دارو را ترسیم می‌کند.
هدف این است که با تمرکز بر یک پروتئین خاص، تحلیلی را دنبال کنیم که بیشترین درک ممکن را از آن پروتئین به‌دست دهد.

از یک توالی ژنی آغاز می‌کنیم و می‌توانیم توالی پروتئینی متناظر را با دقت زیاد تعیین کنیم.
از آنجا، الگوریتم‌های پیش‌بینی ساختار را می‌توان برای محاسبه ساختار مورد پذیرش پروتئین به کار برد.
محاسبات هندسی، شکل سطح پروتئین را تعریف می‌کنند و شبیه‌سازی‌های مولکولی نیروهای پیرامون مولکول را تعیین می‌کنند.
در نهایت، با استفاده از الگوریتم‌های docking می‌توان لیگاندهایی را شناسایی یا طراحی کرد که به پروتئین متصل شوند، و این مسیر را برای طراحی دارویی که عملکرد پروتئین را به‌طور خاص تغییر می‌دهد هموار می‌کند.

در عمل، مراحل میانی هنوز دستیابی دقیقی ندارند، و بهتر است با روش‌های تجربی ترکیب شوند تا داده‌های مورد نیاز (مثلاً ساختار واقعی پروتئین مورد نظر) به‌دست آیند.

اهداف بعد دوم، یعنی گستره در تحلیل زیستی، مقایسه یک ژن با سایر ژن‌هاست.
در ابتدا، می‌توان از الگوریتم‌های ساده برای مقایسه توالی‌ها و ساختارهای یک جفت پروتئین مرتبط استفاده کرد.
با افزایش تعداد پروتئین‌ها، الگوریتم‌های پیشرفته‌تری برای تولید هم‌ترازی‌های چندتایی به کار می‌روند، که الگوهای توالی یا قالب‌های ساختاری استخراج می‌کنند که یک خانواده پروتئینی را تعریف می‌کنند.

با استفاده از این داده‌ها، همچنین می‌توان درخت‌های فیلوژنتیکی (تکاملی) ساخت تا مسیر تکامل پروتئین‌ها را ردیابی کرد.
در نهایت، با افزایش بیشتر حجم داده‌ها، اطلاعات باید در پایگاه‌های داده در مقیاس بزرگ ذخیره شوند.

در این سطح، مقایسه‌ها پیچیده‌تر می‌شوند و نیاز به طرح‌های نمره‌گذاری چندگانه دارند، و این امکان را فراهم می‌کنند که سرشماری‌هایی در مقیاس ژنومی انجام شود که توصیف‌های آماری جامعی از ویژگی‌های پروتئینی مانند فراوانی ساختارها یا عملکردهای خاص در ژنوم‌های مختلف ارائه دهند.
این تحلیل‌ها همچنین به ما اجازه می‌دهند درخت‌های فیلوژنتیکی‌ای بسازیم که مسیر تکامل کل موجودات زنده را نشان دهند.

 

«... به‌کارگیری تکنیک‌های رایانشی (علم اطلاعات)...»

حوزه‌های مختلفی که پیش‌تر به آن‌ها اشاره شد، به انواع متفاوتی از تکنیک‌های علم اطلاعات (informatics) نیاز دارند.
به‌طور خلاصه:

  • برای سازمان‌دهی داده‌ها، نخستین پایگاه‌های داده زیستی از فایل‌های متنی ساده (flat files) استفاده می‌کردند.اما با افزایش حجم اطلاعات، روش‌های پایگاه‌داده رابطه‌ای (relational databases) با رابط‌های وب محبوب‌تر شده‌اند.

  • در تحلیل توالی‌ها، تکنیک‌ها شامل روش‌های مقایسه رشته‌ها مانند جستجوی متنی و الگوریتم‌های هم‌ترازی یک‌بعدی هستند.

  • شناسایی موتیف‌ها و الگوها در چندین توالی به تکنیک‌هایی مانند یادگیری ماشین، خوشه‌بندی و داده‌کاوی متکی است.

  • در تحلیل ساختارهای سه‌بعدی، تکنیک‌ها شامل محاسبات هندسه اقلیدسی همراه با کاربردهای پایه‌ای از شیمی فیزیک، نمایش‌های گرافیکی از سطوح و حجم‌ها، و روش‌های مقایسه ساختاری و تطبیق سه‌بعدی هستند.

  • برای شبیه‌سازی مولکولی، از مکانیک نیوتونی، مکانیک کوانتومی، مکانیک مولکولی و محاسبات الکترواستاتیکی استفاده می‌شود.

در بسیاری از این حوزه‌ها، روش‌های رایانشی باید با تحلیل‌های آماری دقیق ترکیب شوند تا بتوانند سنجش معناداری نتایج را به‌صورت عینی ارائه دهند.

 

تنظیم رونویسی – یک مطالعه موردی در بیوانفورماتیک

پروتئین‌های متصل‌شونده به DNA نقش مرکزی در تمام جنبه‌های فعالیت ژنتیکی درون یک جاندار دارند و در فرآیندهایی مانند رونویسی، بسته‌بندی، بازآرایی، همانندسازی و ترمیم شرکت می‌کنند.
در این بخش، بر مطالعاتی تمرکز می‌کنیم که به درک ما از تنظیم رونویسی در موجودات مختلف کمک کرده‌اند.از طریق این مثال، نشان می‌دهیم که چگونه بیوانفورماتیک برای افزایش دانش ما درباره سامانه‌های زیستی به‌کار رفته و نیز کاربردهای عملی حوزه‌های مختلف را، که پیش‌تر به‌طور خلاصه بیان شد، نشان می‌دهیم.

ما ابتدا با تحلیل‌های ساختاری درباره چگونگی شناسایی توالی‌های خاص باز توسط پروتئین‌های متصل‌شونده به DNA آغاز می‌کنیم.
سپس، مطالعات ژنومی متعددی را مرور می‌کنیم که به شناسایی ماهیت فاکتورهای رونویسی در موجودات مختلف پرداخته‌اند و روش‌هایی را که برای شناسایی جایگاه‌های تنظیمی در نواحی پیشین (upstream) به‌کار رفته‌اند بررسی می‌کنیم.
در پایان، مروری بر تحلیل‌های بیان ژن ارائه می‌دهیم که اخیراً انجام شده‌اند و پیشنهاد می‌کنیم که چگونه تحلیل‌های تنظیم رونویسی می‌توانند برای تفسیر مشاهدات حاصل از آزمایش‌های بیان ژن مورد استفاده قرار گیرند.

تمام نتایجی که در اینجا توصیف می‌کنیم از طریق مطالعات رایانشی به‌دست آمده‌اند.

 

مطالعات ساختاری

تا اوت ۲۰۰۰، ۳۷۹ ساختار از کمپلکس‌های پروتئین–DNA در پایگاه داده PDB موجود بوده است.
تحلیل این ساختارها بینش‌های ارزشمندی درباره اصول استریوشیمیایی اتصال فراهم کرده‌اند، از جمله چگونگی شناسایی توالی‌های خاص باز و نحوه‌ای که ساختار DNA اغلب در هنگام اتصال تغییر می‌کند.

رده‌بندی ساختاری پروتئین‌های متصل‌شونده به DNA (مشابه رده‌بندی‌های SCOP و CATH) نخستین‌بار توسط هریسون  پیشنهاد شد و به‌طور دوره‌ای برای درج ساختارهای جدید به‌روزرسانی شده است .
این رده‌بندی از یک سیستم دو لایه تشکیل شده است:

  1. در سطح اول، پروتئین‌ها در ۸ گروه که ویژگی‌های ساختاری کلی مشترک برای اتصال به DNA دارند، دسته‌بندی می‌شوند.

  2. در سطح دوم، شامل ۵۴ خانواده از پروتئین‌هاست که از نظر ساختاری با یکدیگر همولوگ هستند.

ساخت چنین سیستمی باعث ساده‌سازی مقایسه روش‌های مختلف اتصال می‌شود؛
این سیستم تنوع در هندسه کمپلکس‌های پروتئین–DNA را نشان می‌دهد و در عین حال، بر اهمیت تعامل بین مارپیچ‌های آلفا و شیار بزرگ DNA که حالت غالب اتصال در بیش از نیمی از خانواده‌های پروتئینی است تأکید می‌کند.

در حالی‌که تعداد ساختارهای ثبت‌شده در PDB لزوماً بازتاب‌دهنده اهمیت نسبی پروتئین‌ها در سلول نیست، واضح است که موتیف‌هایی مانند مارپیچ-چرخش-مارپیچ (helix-turn-helix)، زینک فینگر (zinc-coordinating) و زیپ لوسینی (leucine zipper) به طور مکرر استفاده می‌شوند. این موتیف‌ها چارچوب‌های فشرده‌ای را فراهم می‌کنند که مارپیچ آلفا را در سطح پروتئین‌هایی با ساختارهای متنوع ارائه می‌دهند.

در سطح کلی‌تر، می‌توان تفاوت‌هایی را بین دومین‌های فاکتورهای رونویسی که صرفاً به DNA متصل می‌شوند و آن‌هایی که در کاتالیز نیز نقش دارند، برجسته کرد . اگرچه استثنائاتی وجود دارد، دسته اول معمولاً از یک سمت به DNA نزدیک می‌شوند و در شیارها قرار می‌گیرند تا با لبه‌های بازها تعامل کنند. در حالی‌که دسته دوم معمولاً بستر را دربر می‌گیرند و از شبکه‌های پیچیده‌ای از ساختارهای دوم و لوپ‌ها برای تعامل استفاده می‌کنند.

با تمرکز بر پروتئین‌های دارای مارپیچ آلفا، ساختارها تنوع زیادی را هم در توالی‌های آمینواسیدی و هم در هندسه دقیق‌شان نشان می‌دهند.
این پروتئین‌ها به وضوح به‌طور مستقل و متناسب با نیازهای بافت یا شرایط خاص تکامل یافته‌اند.

در حالی‌که اتصال دقیق مارپیچ آلفا به شیار بزرگ حاصل می‌شود، همچنان انعطاف‌پذیری کافی وجود دارد تا هم پروتئین و هم DNA بتوانند آرایش‌های متفاوتی را به خود بگیرند.

با این حال، چندین مطالعه که هندسه‌های اتصال مارپیچ‌های آلفا را تحلیل کرده‌اند، نشان دادند که اکثر آن‌ها آرایش‌های نسبتاً یکسانی دارند، صرف‌نظر از خانواده پروتئینی. این مارپیچ‌ها معمولاً از پهلو در شیار بزرگ DNA فرو می‌روند، و محور طولی‌شان تقریباً با شیب ستون فقرات DNA موازی است. بیشتر آن‌ها با سر N–ترمینال درون شیار شروع می‌شوند و به سمت بیرون ادامه می‌یابند و دو تا سه چرخش مارپیچی را در ناحیه تماس انجام می‌دهند.

با توجه به جهت‌گیری‌های اتصال مشابه، شگفت‌آور است که تعاملات بین موقعیت‌های مختلف اسیدآمینه در طول مارپیچ‌های آلفا و نوکلئوتیدهای DNA در میان خانواده‌های مختلف پروتئینی بسیار متفاوت است.
با این حال، با دسته‌بندی اسیدهای آمینه بر اساس اندازه زنجیره جانبی‌شان، می‌توان الگوهای متفاوت تعامل را به‌طور منطقی تفسیر کرد.
قوانین تعامل بر این فرض ساده استوار هستند که در یک موقعیت خاص روی مارپیچ آلفا با آرایش مشابه، اسیدهای آمینه کوچک با نوکلئوتیدهای نزدیک‌تر و اسیدهای آمینه بزرگ با نوکلئوتیدهای دورتر تعامل دارند .

مطالعات معادلی برای اتصال توسط موتیف‌های ساختاری دیگر مانند سنجاق‌سر بتا (β-hairpins) نیز انجام شده است .هنگام بررسی این تعاملات، باید به یاد داشت که نواحی مختلف سطح پروتئین نیز سطوح تماس مختلفی با DNA فراهم می‌کنند.

این موضوع ما را به بررسی تعاملات در سطح اتمی میان جفت‌های اسیدآمینه–باز می‌رساند.
چنین تحلیل‌هایی بر پایه این فرض استوارند که بخش قابل توجهی از اتصال‌های اختصاصی DNA را می‌توان از طریق یک «کد جهانی شناسایی» بین اسیدهای آمینه و بازها توجیه کرد – به این معنا که آیا برخی اسیدهای آمینه تمایل خاصی به تعامل با نوکلئوتیدهای مشخصی دارند، صرف‌نظر از نوع کمپلکس پروتئین–DNA .

مطالعات مختلف، پیوندهای هیدروژنی، تماس‌های واندروالسی، و پیوندهای واسطه‌ی آب را بررسی کرده‌اند .نتایج نشان داد که تقریباً دو سوم تعاملات با ستون فقرات DNA است و نقش اصلی آن‌ها پایدارسازی مستقل از توالی است.
در مقابل، تعاملات با بازها الگوهای ترجیحی قوی‌تری نشان می‌دهند، از جمله:

  • تعامل آرژنین یا لیزین با گوانین

  • تعامل آسپاراژین یا گلوتامین با آدنین

  • تعامل ترئونین با تیمین

این ترجیحات از طریق بررسی استریوشیمی زنجیره جانبی اسیدهای آمینه و لبه‌های بازها توضیح داده شده‌اند.همچنین، انواع تعاملات پیچیده‌تری مشخص شده‌اند که در آن‌ها یک اسیدآمینه با بیش از یک جفت باز تماس دارد و در نتیجه، توالی کوتاهی از DNA را شناسایی می‌کند.

این نتایج حاکی از آن است که ویژگی‌مندی جهانی (universal specificity) که در تمام کمپلکس‌های پروتئین–DNA دیده شود، واقعاً وجود دارد.با این حال، بسیاری از تعاملاتی که معمولاً غیر اختصاصی تلقی می‌شوند (مانند تعامل با ستون فقرات DNA) نیز در شرایط خاص می‌توانند اختصاصی باشند.

با تکیه بر درک ساختار پروتئین، موتیف‌های اتصال به DNA و استریوشیمی زنجیره جانبی اسیدهای آمینه، یکی از کاربردهای مهم بیوانفورماتیک، پیش‌بینی اتصال بوده است – چه در مورد پروتئین‌هایی که مشخص است دارای یک موتیف خاص هستند، و چه در مورد پروتئین‌هایی که ساختارشان بدون کمپلکس حل شده است.
متداول‌ترین موارد، پیش‌بینی تعامل مارپیچ آلفا با شیار بزرگ DNA است – یعنی اینکه با دانستن توالی آمینواسیدی، چه توالی DNA را ممکن است شناسایی کند .

در رویکردی دیگر، از تکنیک‌های شبیه‌سازی مولکولی برای dock کردن کل پروتئین و DNA بر اساس محاسبات نیروی میدان اطراف دو مولکول استفاده شده است .

دلیل اینکه هر دو روش موفقیت محدودی داشته‌اند، این است که حتی در موارد ظاهراً ساده‌ای مانند اتصال مارپیچ آلفا، عوامل بسیاری دیگر نیز باید در نظر گرفته شوند.
مقایسه ساختارهای DNA در حالت‌های آزاد و متصل‌شده نشان می‌دهد که خم‌شدگی DNA (DNA bending) یک ویژگی رایج در کمپلکس‌هایی است که با فاکتورهای رونویسی تشکیل می‌شوند .
این مورد و سایر عوامل مانند تعاملات الکترواستاتیکی و وابسته به کاتیون‌ها به شناسایی غیرمستقیم توالی نوکلئوتیدی کمک می‌کنند، هرچند هنوز به‌خوبی شناخته نشده‌اند.

در نتیجه، اکنون روشن است که قواعد دقیق برای اتصال اختصاصی به DNA به هر خانواده پروتئینی بستگی دارد، اما الگوهای کلی مانند تعامل آرژنین–گوانین در بسیاری موارد حفظ می‌شوند.

 

مطالعات ژنومی

با توجه به حجم بالای داده‌های بیوشیمیایی در دسترس، مطالعات ژنومی در بیوانفورماتیک بیشتر بر موجودات مدل متمرکز بوده‌اند، و تحلیل سیستم‌های تنظیمی نیز از این قاعده مستثنا نبوده است.شناسایی فاکتورهای رونویسی در ژنوم‌ها معمولاً به استراتژی‌های جستجوی شباهت متکی است که وجود رابطه عملکردی و تکاملی بین پروتئین‌های همولوگ را فرض می‌کند.

در E. coli، مطالعات تاکنون تخمین زده‌اند که این باکتری دارای حدود ۳۰۰ تا ۵۰۰ تنظیم‌کننده رونویسی است .
پایگاه داده PEDANT ، که به‌طور خودکار عملکرد ژن‌ها را اختصاص می‌دهد، نشان می‌دهد که معمولاً ۲–۳٪ از ژنوم‌های پروکاریوتی و ۶–۷٪ از ژنوم‌های یوکاریوتی شامل پروتئین‌های متصل‌شونده به DNA هستند.

از آنجا که تا اوت ۲۰۰۰ تنها ۴۰ تا ۶۰٪ از ژنوم‌ها به‌طور کامل حاشیه‌نویسی شده بودند، این آمار به احتمال زیاد، میزان واقعی را دست‌کم می‌گیرند.
با این حال، همین ارقام نیز نشان‌دهنده حجم زیادی از پروتئین‌ها هستند، و مشخص است که تعداد فاکتورهای رونویسی در یوکاریوت‌ها بیشتر از سایر گونه‌هاست. این امر تعجب‌آور نیست، چرا که یوکاریوت‌ها سامانه رونویسی پیچیده‌تری را توسعه داده‌اند.

نتیجه‌گیری از مطالعات ساختاری نشان می‌دهد که بهترین راهبرد برای شناسایی اتصال DNA توسط فاکتورهای رونویسی فرضی در هر ژنوم، دسته‌بندی آن‌ها بر اساس همولوژی و تحلیل خانواده‌های منفرد است.
چنین طبقه‌بندی‌هایی در پایگاه‌های داده توالی ثانویه که قبلاً معرفی شدند، ارائه می‌شوند، همچنین در پایگاه‌هایی که به‌طور تخصصی بر پروتئین‌های تنظیمی تمرکز دارند، مانند RegulonDB  و TRANSFAC.

حتی سودمندتر از این طبقه‌بندی‌ها، اختصاص اطلاعات ساختاری به پروتئین‌ها است؛
یعنی اگر یک فاکتور رونویسی مشخص باشد، آگاهی از موتیف ساختاری مورد استفاده آن برای اتصال به ما کمک می‌کند درک بهتری از چگونگی شناسایی توالی هدف آن داشته باشیم.

ژنومیک ساختاری از طریق بیوانفورماتیک، ساختار پروتئین‌های رمزگذاری‌شده توسط ژنوم‌ها را با مقایسه با پروتئین‌هایی که ساختار آن‌ها شناخته شده است، اختصاص می‌دهد .
این مطالعات نشان داده‌اند که فاکتورهای رونویسی در پروکاریوت‌ها اغلب دارای موتیف helix-turn-helix هستند و در یوکاریوت‌ها اغلب موتیف‌های homeodomain نوع helix-turn-helix، زینک فینگر یا زیپ لوسینی دیده می‌شوند.

طبقه‌بندی پروتئین‌ها در هر ژنوم نشان می‌دهد که انواع مختلفی از پروتئین‌های تنظیمی از نظر فراوانی با هم تفاوت دارند و خانواده‌ها از نظر اندازه نیز به‌شکل معناداری متفاوت‌اند.
مطالعه‌ای از Huynen و van Nimwegen  نشان داده است که اعضای یک خانواده معمولاً عملکردهای مشابهی دارند، اما با تغییر نیازهای آن عملکرد در طول زمان، حضور هر خانواده ژنی در ژنوم نیز تغییر می‌کند.

 

در مطالعات اخیر، با ترکیب داده‌های توالی و ساختار، حفظ‌شدگی توالی‌های آمینواسیدی در میان پروتئین‌های مرتبط با اتصال DNA و تأثیر جهش‌ها بر شناسایی توالی DNA مورد بررسی قرار گرفت.
خانواده‌های ساختاری ذکرشده گسترش یافتند تا پروتئین‌هایی با شباهت توالی که ساختار آن‌ها هنوز حل نشده نیز دربرگیرند. در اینجا نیز اعضای هر خانواده، همولوگ هستند و احتمالاً از یک نیای مشترک منشأ گرفته‌اند.

برای هر خانواده، حفظ‌شدگی اسیدهای آمینه با استفاده از هم‌ترازی‌های چندتایی توالی محاسبه شد .
به‌طور کلی، موقعیت‌هایی که با DNA تماس دارند، بهتر از بقیه سطح پروتئین محافظت می‌شوند، هرچند الگوهای حفظ‌شدگی دقیق پیچیده‌اند.

  • اسیدهای آمینه‌ای که با ستون فقرات DNA تماس دارند، در تمام خانواده‌های پروتئینی بسیار محافظت‌شده‌اند و مجموعه‌ای از تعاملات پایدارکننده مشترک در تمام پروتئین‌های همولوگ را فراهم می‌کنند.

  • اما موقعیت‌های تماسی با بازهای DNA، که توالی DNA را تشخیص می‌دهند، الگوهای پیچیده‌تری دارند.

برای تفسیر این پیچیدگی، یک مدل سه‌گانه برای اتصال به DNA تعریف شد:

  1. دسته اول: خانواده‌هایی که اتصال غیر اختصاصی دارند – معمولاً حاوی چند اسیدآمینه محافظت‌شده در موقعیت‌های تماسی با باز هستند؛
    بدون استثنا، این تعاملات در شیار کوچک DNA صورت می‌گیرند، جایی که تمایز بین نوع بازها کمتر است.
    این تماس‌ها معمولاً برای پایدارسازی تغییر شکل در ساختار DNA به‌کار می‌روند، به‌ویژه در گشاد کردن شیار کوچک.

  2. دسته دوم: خانواده‌هایی که همه اعضایشان یک توالی نوکلئوتیدی خاص را هدف قرار می‌دهند –
    در اینجا موقعیت‌های تماسی با باز کاملاً یا به‌شدت محافظت‌شده‌اند و به پروتئین‌های مرتبط اجازه می‌دهند که همان توالی DNA را شناسایی کنند.

  3. دسته سوم (و جالب‌ترین): خانواده‌هایی که اتصال اختصاصی دارند اما اعضای مختلف آن توالی‌های مختلفی را هدف قرار می‌دهند –
    در اینجا جهش‌های مکرر در اسیدهای آمینه موقعیت‌های تماسی با باز رخ می‌دهد،
    و اعضای خانواده را می‌توان به زیرخانواده‌هایی بر اساس توالی اسیدهای آمینه در این موقعیت‌ها تقسیم کرد؛
    اعضای یک زیرخانواده، احتمالاً به همان توالی DNA متصل می‌شوند، در حالی‌که زیرخانواده‌های دیگر توالی‌های متفاوتی را هدف قرار می‌دهند.

در کل، این زیرخانواده‌ها با عملکرد پروتئین‌ها هم‌راستا بودند، و مشاهده شد که اعضای هر زیرخانواده مسیرهای رونویسی مشابهی را تنظیم می‌کنند.

این تحلیل ترکیبی توالی و ساختار، بینشی در این مورد ارائه داد که پروتئین‌های اسکلت همولوگ چگونه با تغییر توالی اسیدهای آمینه خود، ویژگی‌مندی متفاوتی به‌دست می‌آورند.
در نتیجه، پروتئین‌ها عملکردهای متفاوتی را تکامل داده‌اند و بدین‌وسیله فاکتورهای رونویسی ساختاراً مرتبط توانسته‌اند ژن‌های متفاوتی را تنظیم کنند.

بنابراین، فراوانی نسبی خانواده‌های تنظیم‌کننده رونویسی در یک ژنوم نه تنها به اهمیت عملکرد پروتئین خاص بستگی دارد، بلکه به توانایی تطبیق موتیف‌های اتصال به DNA برای شناسایی توالی‌های مختلف نیز بستگی دارد. و این موضوع، ظاهراً بیشتر در موتیف‌های ساده‌ای مانند زینک فینگرها میسر است.

 

با در اختیار داشتن دانش درباره فاکتورهای رونویسی موجود در هر جاندار و درک چگونگی شناسایی توالی‌های DNA توسط آن‌ها، گام بعدی جست‌وجوی جایگاه‌های اتصال بالقوه آن‌ها در توالی‌های ژنومی است .

برای پروکاریوت‌ها، بیشتر تحلیل‌ها شامل گردآوری داده‌هایی از جایگاه‌های اتصال تجربی‌شده برای پروتئین‌های خاص و ساخت یک توالی اجماعی (consensus sequence) است که تنوع در نوکلئوتیدها را در بر گیرد. جایگاه‌های اضافی از طریق جست‌وجوی الگوی کلمات در کل ژنوم و نمره‌دهی بر اساس شباهت به توالی اجماعی شناسایی می‌شوند .

طبق انتظار، بیشتر جایگاه‌های پیش‌بینی‌شده در نواحی غیرکدکننده DNA قرار دارند ، و نتایج این مطالعات اغلب در پایگاه‌هایی مانند RegulonDB ارائه می‌شوند.

روش جست‌وجوی اجماعی اغلب با مطالعات تطبیقی ژنومی (comparative genomics) در نواحی بالادستی ژن‌های ارتولوگ در موجودات نزدیک تقویت می‌شود.
از طریق این رویکرد، مشخص شد که حداقل ۲۷٪ از موتیف‌های تنظیمی شناخته‌شده در E. coli، در یک یا چند باکتری دورتر نیز محافظت شده‌اند .

شناسایی جایگاه‌های تنظیمی در یوکاریوت‌ها چالش بزرگ‌تری نسبت به پروکاریوت‌ها ایجاد می‌کند، زیرا توالی‌های اجماعی (consensus sequences) معمولاً کوتاه‌تر، متغیرتر و در فواصل زیادی پراکنده‌اند.

با این حال، مطالعات اولیه در S. cerevisiae مشاهده جالبی را درباره‌ی پروتئین GATA در تنظیم متابولیسم نیتروژن نشان دادند. در حالی که توالی اجماعی ۵ نوکلئوتیدی GATA تقریباً در سراسر ژنوم یافت می‌شود، یک جایگاه اتصال منفرد برای ایجاد عملکرد تنظیمی کافی نیست . بنابراین، ویژگی‌مندی عملکرد GATA از طریق تکرار این توالی اجماعی در نواحی بالادستی (upstream) ژن‌های هدف حاصل می‌شود.

مطالعه‌ای اولیه از این مشاهده استفاده کرد تا جایگاه‌های تنظیمی جدید را پیش‌بینی کند، با جست‌وجوی الیگونوکلئوتیدهای بیش‌نمایی‌شده (over-represented) در نواحی غیرکدکننده ژنوم مخمر و کرم .

 

پس از شناسایی جایگاه‌های اتصال تنظیمی، چالش بعدی تعیین ژن‌هایی است که واقعاً تنظیم می‌شوند، که معمولاً تحت عنوان رگولون‌ها (regulons) شناخته می‌شوند.
به‌طور کلی فرض بر این است که جایگاه‌های اتصال مستقیماً در بالادست رگولون قرار دارند، اما این فرض در ارگانیسم‌های مختلف با مشکلات متفاوتی همراه است.

  • در پروکاریوت‌ها، وجود اپرون‌ها وضعیت را پیچیده می‌کند؛ زیرا ژن تنظیم‌شونده ممکن است چندین ژن پایین‌تر از جایگاه تنظیمی قرار داشته باشد. پیش‌بینی ساختار اپرون‌ها دشوار است ،به‌ویژه در تعیین اینکه کدام ژن در ابتدای اپرون قرار دارد، و اغلب بین موجودات مرتبط، حفظ نظم ژنی در فاصله‌های طولانی مشاهده نمی‌شود .

  • در یوکاریوت‌ها، این مشکل حتی شدیدتر است؛
    جایگاه‌های تنظیمی معمولاً در هر دو جهت عمل می‌کنند، فاصله زیادی از ژن هدف دارند (به‌خاطر نواحی بین‌ژنی بزرگ)،و تنظیم رونویسی اغلب حاصل عملکرد ترکیبی چندین فاکتور رونویسی است که به‌صورت ترکیبی (combinatorial) عمل می‌کنند.

 با وجود این مشکلات، این مطالعات توانسته‌اند مسیرهای تنظیم رونویسی سامانه‌های شناخته‌شده مانند پاسخ به شوک حرارتی را تأیید کنند . علاوه بر این، امکان تأیید تجربی پیش‌بینی‌ها نیز وجود دارد، به‌ویژه از طریق داده‌های بیان ژن.

 

مطالعات بیان ژن

بسیاری از مطالعات بیان ژن تا کنون بر توسعه روش‌هایی برای خوشه‌بندی ژن‌ها بر اساس شباهت در الگوهای بیانی‌شان تمرکز داشته‌اند، تا بتوان ژن‌هایی را که تحت شرایط مختلف سلولی به‌صورت مشترک بیان می‌شوند شناسایی کرد.

به‌طور خلاصه، رایج‌ترین روش‌ها عبارت‌اند از:

  • خوشه‌بندی سلسله‌مراتبی (hierarchical clustering)

  • نقشه‌های خودسازمان‌ده (self-organising maps)

  • خوشه‌بندی K-means

روش‌های سلسله‌مراتبی که از الگوریتم‌های ساخت درخت‌های فیلوژنتیکی گرفته شده‌اند، ژن‌ها را به‌صورت از پایین به بالا (bottom-up) گروه‌بندی می‌کنند؛ ژن‌هایی با بیشترین شباهت بیانی ابتدا خوشه‌بندی می‌شوند و سپس به‌صورت تکراری ژن‌های متنوع‌تر اضافه می‌شوند .

در مقابل، روش‌های SOM  و K-means رویکردی از بالا به پایین (top-down) دارند، که در آن کاربر ابتدا تعداد خوشه‌ها را مشخص می‌کند. خوشه‌ها در ابتدا به‌صورت تصادفی تعیین می‌شوند و سپس ژن‌ها به‌صورت تکراری بازگروه‌بندی می‌شوند تا خوشه‌بندی بهینه حاصل شود.

با در اختیار داشتن این روش‌ها، مسئله‌ی جذاب بعدی، ارتباط دادن داده‌های بیان ژن با ویژگی‌هایی مانند ساختار، عملکرد و مکان سلولی محصول ژنی است.
نقشه‌برداری این ویژگی‌ها می‌تواند به درک ویژگی‌های پروتئین‌هایی که با هم بیان می‌شوند کمک کند و همچنین نتایجی جالب درباره بیوشیمی کلی سلول ارائه دهد.

  • در مخمر، پروتئین‌های کوتاه‌تر تمایل بیشتری به بیان بالا دارند، احتمالاً به این دلیل که تولید آن‌ها ساده‌تر است.

  • از نظر ترکیب آمینواسیدی، ژن‌هایی با بیان بالا معمولاً غنی از آلانین و گلیسین و فقیر از آسپاراژین هستند؛ این موارد نشان‌دهنده الزامات بیوشیمیایی سلول هستند، زیرا سنتز آلانین و گلیسین از نظر انرژی کم‌هزینه‌تر از آسپاراژین است.

از دیدگاه ساختاری:

  • ساختارهای TIM barrel و NTP هیدرولاز بیشترین میزان بیان را دارند.

  • در مقابل، ساختارهای زیپ لوسینی، زینک فینگر و پروتئین‌های دارای مارپیچ تراغشایی کمترین بیان را دارند.

این تفاوت به عملکردهای مرتبط با این ساختارها بازمی‌گردد:

  • گروه اول در مسیرهای متابولیکی رایج‌اند.

  • گروه دوم بیشتر در فرآیندهای پیام‌رسانی یا انتقال شرکت دارند.

همچنین این الگو در مکان‌یابی درون‌سلولی نیز دیده می‌شود:

  • پروتئین‌های سیتوپلاسمی بیان بالایی دارند،

  • در حالی‌که پروتئین‌های هسته‌ای و غشایی بیان کمتری دارند.

 

روابط پیچیده‌تری نیز بررسی شده‌اند.

محصولات ژنی که با یکدیگر تعامل دارند، به احتمال بیشتری الگوهای بیان مشابهی دارند نسبت به ژن‌هایی که تعاملی ندارند .

با این حال، مطالعه‌ای جدید نشان داد که این رابطه به این سادگی نیست :

  • محصولات ژنی که به‌طور دائمی با هم در ارتباط‌اند (مانند زیرواحد بزرگ ریبوزوم)، الگوهای بیانی مشابهی دارند.

  • اما محصولاتی که تعامل گذرا دارند (حتی اگر در یک مسیر متابولیکی باشند)، الگوهای بیانی بسیار متفاوتی دارند.

  • همان‌طور که در ادامه بیان می‌شود، یکی از محرک‌های اصلی در تحلیل بیان ژن، مطالعه سلول‌های سرطانی بوده است . به‌طور کلی، مشخص شده که سلول‌های مختلف (مانند سلول‌های اپی‌تلیال و تخمدانی) را می‌توان بر اساس پروفایل‌های بیان ژنی از یکدیگر متمایز کرد، و اینکه این پروفایل‌ها هنگامی که سلول‌ها از محیط درون‌زنده (in vivo) به محیط کشت (in vitro) منتقل می‌شوند نیز حفظ می‌شوند.

    تفاوت‌های فیزیولوژیکی میان سلول‌ها نیز در بیان ژن‌های خاص مشهود است؛ برای مثال، سطوح بیان ژن‌های مرتبط با چرخه سلولی، به‌ویژه ژن‌های ریبوزومی، با نرخ تکثیر سلول ارتباط مستقیم داشتند.

    این تحلیل تطبیقی را می‌توان به سلول‌های توموری گسترش داد؛
    در اینجا، با مقایسه با سلول‌های طبیعی می‌توان علل زیستی بروز سرطان را شناسایی کرد. برای نمونه، در سرطان پستان، ژن‌های مرتبط با تکثیر سلولی و مسیرهای انتقال پیام تنظیم‌شونده توسط اینترفرون (IFN) دارای بیان افزایشی بودند.

    یکی از مشکلات درمان سرطان، هدف‌گیری دقیق درمان‌ها برای انواع تومورهای آسیب‌زای متمایز (پاتوژنتیکی) است، تا کارایی درمان حداکثر و عوارض جانبی حداقل شود. از این رو، بهبود در رده‌بندی سرطان‌ها، محور پیشرفت‌های درمانی در این حوزه بوده است.

    اگرچه تمایز میان انواع مختلف سرطان — برای مثال زیرگروه‌های لوکمیا حاد (leukaemia) — به‌خوبی تثبیت شده، اما هنوز نمی‌توان تشخیص بالینی را تنها بر اساس یک آزمایش انجام داد.

    در مطالعه‌ای اخیر، لوکمی حاد میلوئیدی (AML) و لوکمی حاد لنفوبلاستی (ALL) براساس پروفایل‌های بیان ژنی به‌خوبی از هم تفکیک شدند .
    از آن‌جایی که این روش نیاز به دانش زیستی پیشین از بیماری‌ها ندارد، می‌تواند استراتژی عمومی برای رده‌بندی انواع مختلف سرطان باشد.

    به‌وضوح، درک داده‌های بیان ژن بدون شناخت تنظیم رونویسی ممکن نیست. با این حال، تحلیل‌ها در این حوزه همچنان محدود به تحلیل‌های مقدماتی از بیان ژن در جهش‌یافته‌های مخمر فاقد اجزای کلیدی کمپلکس آغاز رونویسی است.

     

  • «...کاربردهای عملی فراوان...»

    در ادامه به برخی از کاربردهای مهم بیوانفورماتیک می‌پردازیم:

     

  • یافتن همولوگ‌ها

    همان‌طور که پیش‌تر بیان شد، یکی از محرک‌های کلیدی در بیوانفورماتیک، یافتن شباهت‌ها بین بیومولکول‌های مختلف است. علاوه بر سازمان‌دهی نظام‌مند داده‌ها، شناسایی پروتئین‌های همولوگ چندین کاربرد عملی مستقیم دارد.

    واضح‌ترین کاربرد آن، انتقال اطلاعات میان پروتئین‌های مرتبط است. برای مثال، اگر پروتئینی ضعیف‌شناخته‌شده در اختیار داشته باشیم، می‌توان با جست‌وجوی همولوگ‌های آن که به‌خوبی شناسایی شده‌اند، برخی اطلاعات عملکردی یا ساختاری را با احتیاط از آن‌ها به پروتئین ناشناخته نسبت داد.

    در زمینه داده‌های ساختاری:

  • مدل‌سازی نظری ساختار پروتئین‌ها معمولاً بر پایه ساختارهای تجربی‌شده همولوگ‌های نزدیک انجام می‌شود .

  • در تکنیک‌هایی مانند شناسایی چین‌خوردگی (fold recognition)، پیش‌بینی ساختار سوم به شرط پایداری انرژی پیش‌بینی‌شده، بر اساس شباهت با همولوگ‌های دور صورت می‌گیرد .

  • رویکرد طراحی دارو به این صورت است:

  • با داشتن توالی نوکلئوتیدی ژن، می‌توان توالی آمینواسیدی احتمالی پروتئین کدشده را با نرم‌افزارهای ترجمه تعیین کرد.

  • سپس با استفاده از تکنیک‌های جست‌وجوی توالی، می‌توان همولوگ‌های این پروتئین را در ارگانیسم‌های مدل یافت.

  • بر اساس شباهت توالی، ساختار پروتئین انسانی را بر پایه ساختارهای تجربی‌شده مدل‌سازی کرد.

  • در پایان، با استفاده از الگوریتم‌های docking، می‌توان مولکول‌هایی را طراحی کرد که به ساختار مدل متصل شوند؛ و این مسیر را برای آزمایش‌های بیوشیمیایی جهت بررسی فعالیت زیستی آن‌ها روی پروتئین واقعی هموار کرد.

  • سرشماری‌های بزرگ‌مقیاس (Large-scale Censuses)

    هرچند پایگاه‌های داده می‌توانند به‌طور مؤثر تمام اطلاعات مربوط به ژنوم‌ها، ساختارها و داده‌های بیان ژن را ذخیره کنند، اما فشرده‌سازی این اطلاعات به شکل روندها و حقایق قابل فهم برای کاربران، بسیار مفید است.
    این تعمیم‌های کلی کمک می‌کنند تا موضوعات جالب برای تحلیل‌های عمیق‌تر شناسایی شوند و مشاهدات جدید نیز در یک بافتار مناسب قرار گیرند، تا بتوان بررسی کرد که آیا آن‌ها رفتاری غیرعادی دارند یا خیر.

     

  • از طریق این سرشماری‌های بزرگ‌مقیاس می‌توان به پرسش‌های تکاملی، بیوشیمیایی و بیوفیزیکی متعددی پاسخ داد، از جمله:

  • آیا چین‌خوردگی‌های خاصی از پروتئین‌ها به گروه‌های فیلوژنتیکی خاصی تعلق دارند؟

  • چه الگوهای چین‌خوردگی در ارگانیسم‌های خاص رایج‌تر هستند؟

  • تا چه حد الگوهای چین‌خوردگی بین ارگانیسم‌های مرتبط مشترک‌اند؟

  • آیا این میزان اشتراک با روابط تکاملی سنتی (درخت‌های فیلوژنتیکی) هم‌راستا است؟

  • مطالعات اولیه نشان داده‌اند که:

  • تعداد نسبی چین‌خوردگی‌ها بین ارگانیسم‌ها بسیار متفاوت است،

  • و میزان اشتراک چین‌خوردگی‌ها با طبقه‌بندی‌های فیلوژنتیکی سنتی هم‌راستا است.

  • ادغام داده‌ها برای تحلیل‌های جامع‌تر با ادغام اطلاعات عملکردی پروتئین‌ها، می‌توان بررسی کرد که:

  • آیا چین‌خوردگی‌های خاص پروتئینی با عملکردهای بیوشیمیایی مشخص مرتبط هستند؟ مطالعات پیشین این ارتباط را تأیید کرده‌اند ، و این یافته‌ها بر تنوع مسیرهای متابولیک بین ارگانیسم‌ها تأکید دارند.

  • آیا فراوانی بالای یک چین‌خوردگی خاص در ژنوم، با سطوح بالای بیان آن پروتئین مرتبط است؟ 

  • همچنین در این سرشماری‌ها می‌توان اطلاعات دیگری را نیز در نظر گرفت، از جمله:

  • موقعیت‌های زیرسلولی پروتئین‌ها

  • و برهم‌کنش‌های میان آن‌ها 

  • با ترکیب این اطلاعات با داده‌های ساختاری، می‌توان شروع به ترسیم نقشه‌ای جامع از تمام برهم‌کنش‌های پروتئین-پروتئین در یک ارگانیسم کرد. این نقشه‌ها درک عمیق‌تری از شبکه‌های زیستی در مقیاس سلولی به‌دست می‌دهند و می‌توانند پایه‌ای برای تحلیل‌های عملکردی سیستم‌های زیستی پیچیده باشند.

  • کاربردهای بیشتر در علوم پزشکی

    جدیدترین کاربردهای بیوانفورماتیک در علوم پزشکی عمدتاً بر تحلیل داده‌های بیان ژن متمرکز بوده‌اند . این تحلیل‌ها معمولاً شامل جمع‌آوری داده‌های بیان ژن از سلول‌هایی است که تحت تأثیر بیماری‌های مختلف قرار گرفته‌اند ،
    مانند سرطان و آترواسکلروز، و مقایسه این داده‌ها با سطوح طبیعی بیان ژن در سلول‌های سالم. شناسایی ژن‌هایی که در سلول‌های بیمار به شکل متفاوتی بیان می‌شوند، می‌تواند مبنایی برای توضیح علل بیماری‌ها فراهم کند و همچنین اهداف دارویی بالقوه را مشخص سازد.

    با استفاده از فرآیندی ، می‌توان ترکیباتی طراحی کرد که به پروتئین بیان‌شده متصل شوند، یا حتی مهم‌تر از آن، تنظیم‌کننده‌های رونویسی را که موجب تغییر سطح بیان شده‌اند، هدف قرار داد.

    وقتی یک ترکیب اولیه (lead compound) شناسایی شد، آزمایش‌های میکروآرای (microarray) می‌توانند برای بررسی پاسخ سلولی به مداخله دارویی به کار روند ، و همچنین به عنوان آزمایش‌های اولیه برای شناسایی یا پیش‌بینی سمیت داروهای آزمایشی عمل کنند.

     

  • آینده بیوانفورماتیک و پزشکی فردمحور

    پیشرفت‌های آتی در بیوانفورماتیک همراه با ژنومیکس تجربی برای هر فرد، پیش‌بینی می‌شود که تحولی عظیم در آینده مراقبت‌های بهداشتی ایجاد کنند.

    یک سناریوی رایج در آینده برای بیمار ممکن است با ژنوتیپ‌برداری پس از تولد آغاز شود، برای بررسی میزان حساسیت یا ایمنی نسبت به بیماری‌ها و عوامل بیماری‌زا. با داشتن این اطلاعات، می‌توان ترکیب خاصی از واکسن‌ها را برای هر فرد تجویز کرد، که باعث کاهش هزینه‌های درمان‌های غیرضروری شده و برای بیماری‌های آینده در زندگی فرد آمادگی ایجاد کند.

    غربالگری‌های منظم در طول عمر می‌توانند برای راهنمایی در تغذیه و تشخیص زودهنگام بیماری‌ها استفاده شوند. علاوه بر آن، درمان‌های دارویی می‌توانند به‌طور خاص برای هر فرد و بیماری‌اش تنظیم شوند، که این امر مؤثرترین روش درمانی را با کمترین عوارض جانبی فراهم می‌آورد.

    با توجه به نرخ فعلی پیشرفت‌ها، چنین سناریویی در آینده‌ای نه چندان دور کاملاً امکان‌پذیر به نظر می‌رسد.

     

  • نتیجه‌گیری

    با حجم عظیم داده‌های زیستی که امروزه تولید می‌شود، روش‌های محاسباتی به ابزارهایی ضروری برای تحقیقات زیستی تبدیل شده‌اند.

    بیوانفورماتیک که ابتدا برای تحلیل توالی‌های زیستی توسعه یافته بود، اکنون شامل حوزه‌های متنوعی مانند زیست‌شناسی ساختاری، ژنومیکس و مطالعات بیان ژن شده است.

    دو رویکرد اصلی که زیربنای مطالعات بیوانفورماتیکی‌اند:

  • مقایسه و گروه‌بندی داده‌ها بر اساس شباهت‌های زیستی معنادار

  • تحلیل یک نوع داده برای استنتاج و درک اطلاعات مربوط به نوعی دیگر از داده‌ها

  • این رویکردها بازتاب‌دهنده اهداف اصلی بیوانفورماتیک هستند، یعنی:

  • درک و سازماندهی اطلاعات مرتبط با مولکول‌های زیستی در مقیاس وسیع

  • در نتیجه، بیوانفورماتیک نه‌تنها عمق بیشتری به مطالعات زیستی بخشیده، بلکه بعد گستردگی و مقایسه‌ای را نیز افزوده است. به این ترتیب، ما می‌توانیم سیستم‌های منفرد را با جزئیات بررسی کنیم و همچنین آن‌ها را با سیستم‌های مرتبط مقایسه کنیم تا اصول مشترک را شناسایی کرده و ویژگی‌های خاص و منحصر‌به‌فرد را نیز برجسته سازیم.

  • همان‌طور که پیش‌تر گفتیم، یکی از منابع جدید و هیجان‌انگیز داده‌های ژنومی، داده‌های بیان ژن هستند. با ترکیب اطلاعات بیان ژن با طبقه‌بندی‌های ساختاری و عملکردی پروتئین‌ها، می‌توان این سؤال را مطرح کرد: 

    • هنگامی که داده‌های بیوشیمیایی یا ساختاری در دست نیست، مطالعات می‌توانند روی ارگانیسم‌های ساده‌تر مانند مخمر انجام شوند، و نتایج به همولوگ‌های آن در ارگانیسم‌های سطح بالاتر مانند انسان تعمیم داده شود که در آن‌ها آزمایش‌ها دشوارتر است.

  • رویکردی مشابه در ژنومیک نیز به‌کار می‌رود.
    شناسایی همولوگ‌ها به‌طور گسترده‌ای برای تأیید نواحی کدکننده در ژنوم‌های تازه تعیین توالی‌شده استفاده می‌شود، و داده‌های عملکردی برای حاشیه‌نویسی ژن‌های منفرد منتقل می‌گردد.

    در مقیاس وسیع‌تر، این روش فرآیند درک ژنوم‌های پیچیده را ساده می‌کند؛ زیرا ابتدا ارگانیسم‌های ساده تحلیل می‌شوند، سپس همان اصول بر ارگانیسم‌های پیچیده‌تر اعمال می‌گردد — یکی از دلایلی که پروژه‌های اولیه ژنومیک ساختاری روی Mycoplasma genitalium متمرکز بودند .

    جالب آنکه، همین ایده را می‌توان برعکس نیز به‌کار برد: اهداف دارویی بالقوه را می‌توان با بررسی اینکه آیا همولوگ‌های پروتئین‌های میکروبی ضروری در انسان وجود ندارند، سریعاً شناسایی کرد. در مقیاسی کوچک‌تر، تفاوت‌های ساختاری بین پروتئین‌های مشابه می‌توانند برای طراحی مولکول‌های دارویی که به‌طور اختصاصی به یک ساختار متصل شوند و نه به دیگری، مورد استفاده قرار گیرند.

     

  • طراحی منطقی دارو (Rational Drug Design)

    یکی از اولین کاربردهای پزشکی بیوانفورماتیک، کمک به طراحی منطقی داروها بوده است.
    ژن MLH1 یک ژن انسانی است که پروتئین ترمیم ناهمسانی (mismatch repair) را کد می‌کند و روی بازوی کوتاه کروموزوم ۳ قرار دارد . با استفاده از تحلیل‌های پیوستگی (linkage analysis) و شباهت آن به ژن‌های mmr در موش، این ژن در سرطان کولورکتال غیرپولیپوزیس (HNPCC) دخیل دانسته شده است .

 

منبع:

Luscombe, Nicholas M., Dov Greenbaum, and Mark Gerstein. "What is bioinformatics? An introduction and overview." Yearbook of medical informatics 10, no. 01 (2001): 83-100.

پست های مرتبط 0 نظرات
نظر خود را ارسال کنید

آدرس ایمیل شما منتشر نخواهد شد. فیلدهای الزامی علامت گذاری شده اند *

ارتباط با ما
شماره های تماس لینک اتصال به واتساپ مصرفی پزشکی لینک اتصال به واتساپ زیبایی لینک اتصال به اینستاگرام آریاطب
ارتباط با ما
لینک اتصال به واتساپ مصرفی پزشکی لینک اتصال به واتساپ زیبایی