এসেনশিয়াল বায়োইনফরমেটিক্স (Essential Bioinformatics) ফ্ল্যাশকার্ড

বায়োইনফরমেটিক্স এর পরিচিতি এবং লক্ষ্য (Introduction and Goals of Bioinformatics)

সংজ্ঞা: বায়োইনফরমেটিক্স হলো কম্পিউটার বিজ্ঞানের সাহায্যে বায়োলজিক্যাল ম্যাক্রোমোলিকিউল (যেমন DNA, RNA, এবং প্রোটিন) সংক্রান্ত তথ্যের স্টোরেজ, রিট্রিভাল, ম্যানিপুলেশন এবং ডিস্ট্রিবিউশন করার প্রযুক্তি। এটি কম্পিউটার বিজ্ঞান এবং জীববিজ্ঞানের একটি আন্তঃবিভাগীয় মিলনস্থল।
লক্ষ্য: লিভিং সেল বা জীবন্ত কোষের কার্যপ্রণালীকে আণবিক স্তরে আরও ভালোভাবে বোঝা। এটি কাঁচা আণবিক সিকোয়েন্স এবং স্ট্রাকচারাল ডাটা বিশ্লেষণ করে কোষ সম্পর্কে একটি সামগ্রিক দৃষ্টিভঙ্গি প্রদান করে।
পরিধি (Scope):
- কম্পিউটেশনাল টুল এবং ডাটাবেস তৈরি করা।
- এই টুলগুলো ব্যবহার করে জীববিজ্ঞানের মূলে থাকা লিভিং সিস্টেমগুলো বোঝা।
- অ্যানালাইসিসের তিনটি প্রধান ক্ষেত্র: মোলেকুলার সিকোয়েন্স অ্যানালাইসিস, স্ট্রাকচারাল অ্যানালাইসিস এবং ফাংশনাল অ্যানালাইসিস।
সীমাবদ্ধতা: বায়োইনফরমেটিক্স প্রেডিকশনগুলো কোনো আনুষ্ঠানিক প্রমাণ নয়। এটি এক্সপেরিমেন্টাল বায়োলজির পরিপূরক, বিকল্প নয়। অনেক অ্যালগরিদম বাস্তবতাকে পুরোপুরি প্রতিফলিত করতে পারে না এবং গণনার আউটপুট ডাটার গুণমানের ওপর নির্ভর করে।

বায়োলজিক্যাল ডাটাবেস (Biological Databases)

ডাটাবেস প্রকারভেদ:
- Flat file format: একটি দীর্ঘ টেক্সট ফাইল যেখানে এন্ট্রিগুলো স্পেশাল ক্যারেক্টার (যেমন |) দ্বারা আলাদা করা থাকে।
- Relational databases: ডাটা টেবিল আকারে সাজানো থাকে। এটি Structured Query Language (SQL) ব্যবহার করে তৈরি করা হয়।
- Object-oriented databases: ডাটাকে 'অবজেক্ট' হিসেবে সংরক্ষণ করা হয় এবং এটি হাইয়ারার্কিকাল সম্পর্কের ক্ষেত্রে বেশি কার্যকর।
বায়োলজিক্যাল ডাটাবেসের শ্রেণিবিভাগ:
- প্রাথমিক ডাটাবেস (Primary Databases): যেখানে অরিজিনাল সিকোয়েন্স বা স্ট্রাকচারাল ডাটা থাকে। উদাহরণ: GenBank (NCBI), EMBL (Europe), DDBJ (Japan), এবং PDB (Protein Data Bank)।
- গৌণ ডাটাবেস (Secondary Databases): প্রাথমিক ডাটাবেসের তথ্যের ওপর ভিত্তি করে কিউরেটেড বা বিশ্লেষিত তথ্য। উদাহরণ: SWISS-PROT, PIR, UniProt।
- বিশেষায়িত ডাটাবেস (Specialized Databases): নির্দিষ্ট অর্গানিজম বা রিসার্চ বিষয়ের ওপর ভিত্তি করে তৈরি। উদাহরণ: FlyBase, HIV database।
ডাটা রিট্রিভাল সিস্টেম: সবচেয়ে জনপ্রিয় সিস্টেম হলো NCBI-এর 'Entrez' এবং EBI-এর 'Sequence Retrieval Systems (SRS)'।
ডাটাবেসের ত্রুটি: রিডানডেন্সি (Redundancy) এবং ভুল অ্যানোটেশন বা সিকোয়েন্সিং ত্রুটি ডাটাবেসের প্রধান সমস্যা। NCBI-এর 'RefSeq' ডাটাবেস রিডানডেন্সি কমাতে সাহায্য করে।

পেয়ারওয়াইজ সিকোয়েন্স অ্যালাইনমেন্ট (Pairwise Sequence Alignment)

বিবর্তনীয় ভিত্তি (Evolutionary Basis): DNA এবং প্রোটিন হলো বিবর্তনের ফসল। সিকোয়েন্সের মধ্যে মিল বা বৈচিত্র্য দেখে তাদের বিবর্তনীয় সম্পর্ক বোঝা যায়।
হোমোলজি বনাম সিমিলারিটি (Homology vs. Similarity):
- Homology: এটি একটি গুণগত বিবৃতি যে দুটি সিকোয়েন্সের সাধারণ পূর্বপুরুষ (Common ancestor) আছে।
- Similarity: এটি অ্যালাইনমেন্টের পর প্রাপ্ত গাণিতিক শতাংশ।
- Identity: এটি সিকোয়েন্সের শতাংশ যা হুবহু মিলে যায়।
জোন অফ অ্যালাইনমেন্ট (Zones of Alignment): প্রোটিন সিকোয়েন্সের ক্ষেত্রে $30\%$ এর বেশি মিল থাকলে তাকে 'সেফ জোন' (Safe zone) বলা হয়। $20\%$ থেকে $30\%$ হলো 'টুইলাইট জোন' (Twilight zone)।
অ্যালগরিদম:
- Dot Matrix Method: গ্রাফিক্যাল পদ্ধতি যেখানে দুটি সিকোয়েন্সের মিল ডট আকারে দেখানো হয়। এটি ইন্টারনাল রিপিট খুঁজে পেতে সহায়ক।
- Dynamic Programming: পরিমাণগত এবং নিখুঁত পদ্ধতি।
  - Needleman-Wunsch: গ্লোবাল অ্যালাইনমেন্টের জন্য ব্যবহৃত হয়।
  - Smith-Waterman: লোকাল অ্যালাইনমেন্টের জন্য ব্যবহৃত হয়।
স্কোরিং ম্যাট্রিক্স (Scoring Matrices):
- PAM (Point Accepted Mutation): মার্গারেট ডেহফ দ্বারা উদ্ভাবিত। এটি বিবর্তনীয় মডেলের ওপর ভিত্তি করে তৈরি। PAM1 ম্যাট্রিক্স হলো $1\%$ অ্যামিনো অ্যাসিড পরিবর্তনের হার।
- BLOSUM (Blocks Substitution Matrix): স্থানীয় অ্যালাইনমেন্টের ওপর ভিত্তি করে তৈরি। BLOSUM62 সবচেয়ে বেশি জনপ্রিয়।

ডাটাবেস সিমিলারিটি সার্চিং: BLAST এবং FASTA (Database Similarity Searching)

BLAST (Basic Local Alignment Search Tool): এটি একটি হিউরিস্টিক (Heuristic) পদ্ধতি যা দ্রুত কাজ করে। এটি লোকাল অ্যালাইনমেন্ট এবং High-scoring segment pair (HSP) খুঁজে বের করে।
- E-value (Expectation value): এটি নির্দেশ করে যে এই মিলটি দৈবক্রমে (Random chance) পাওয়ার সম্ভাবনা কতটুকু। সূত্র: $E = m \times n \times P$
- Bit score: এটি একটি স্কেল-ইন্ডিপেন্ডেন্ট পরিমাপ যা রা-স্কোর (Raw score) থেকে বের করা হয়।
FASTA: এটি হাশলিং (Hashing) স্ট্র্যাটেজি ব্যবহার করে ktuples বা ছোট স্ট্রেচ খুঁজে বের করে। এটি BLAST-এর তুলনায় কিছুটা বেশি সেনসিটিভ হতে পারে তবে ধীরগতির।
Low Complexity Regions (LCR): অনেক সিকোয়েন্সে ছোট রিপিট থাকে যা অ্যালাইনমেন্টে ভুল স্কোর দিতে পারে। এটি দূর করার জন্য মাস্কিং (Masking) করা হয়।

মাল্টিপল সিকোয়েন্স অ্যালাইনমেন্ট (Multiple Sequence Alignment - MSA)

উদ্দেশ্য: তিন বা ততোধিক সিকোয়েন্সের মধ্যে বিবর্তনীয়ভাবে সমতুল্য পজিশনগুলো খুঁজে বের করা।
স্কোরিং ফাংশন: এটি Sum of Pairs (SP) এর ওপর ভিত্তি করে কাজ করে।
অ্যালগরিদম:
- Progressive Alignment: একটি গাইড ট্রি (Guide tree) ব্যবহার করে ধাপে ধাপে সিকোয়েন্স যোগ করা হয়। উদাহরণ: ClustalW, ClustalX।
- Iterative Alignment: বারবার অ্যালাইনমেন্ট সংশোধন করে নির্ভুলতা বাড়ায়। উদাহরণ: PRRN।
- Block-based: লোকাল কনজারভড ব্লক খুঁজে বের করে। উদাহরণ: DIALIGN2।
প্রাকটিক্যাল ইস্যু: প্রোটিন কোডিং DNA সিকোয়েন্সগুলোকে সরাসরি DNA স্তরে অ্যালাইন না করে প্রোটিন স্তরে অনুবাদ করে অ্যালাইন করা উচিত।

হিডেন মার্কভ মডেল (Hidden Markov Models - HMM)

ধারণা: এটি একটি স্ট্যাটিস্টিকাল মডেল যা সিকোয়েন্স ফ্যামিলির কনসেনসাস রিপ্রেজেন্ট করে।
প্রয়োগ: প্রোফাইল তৈরি (Profiles) এবং রিমোট হোমোলগ (Remote homologs) শনাক্ত করতে ব্যবহৃত হয়।
অ্যালগরিদম: Viterbi অ্যালগরিদম এবং Forward অ্যালগরিদম ব্যবহার করে সর্বোচ্চ সম্ভাব্য প্যাথ খুঁজে বের করা হয়।
টুল: HMMER একটি জনপ্রিয় সফটওয়্যার প্যাকেজ।

জিন এবং প্রোমোটার প্রেডিকশন (Gene and Promoter Prediction)

প্রোকারিওটিক (Prokaryotes): জিনের ঘনত্ব বেশি, ইনট্রন নেই। সাধারণত ORF (Open Reading Frame) এবং Shine-Delgarno সিকোয়েন্স শনাক্তকরণের মাধ্যমে প্রেডিকশন করা হয়।
ইউক্যারিওটিক (Eukaryotes): এক্সন-ইনট্রন স্প্লিট স্ট্রাকচার এবং অল্টারনেটিভ স্প্লাইসিং প্রেডিকশনকে কঠিন করে তোলে।
পদ্ধতি:
- Ab initio: পলি-এ সাইট, স্প্লাইস সাইট এবং কোডিং স্ট্যাটিস্টিকসের ওপর ভিত্তি করে প্রেডিক্ট করে। উদাহরণ: GENSCAN, HMMgene।
- Homology-based: জানা cDNA বা প্রোটিনের সাথে তুলনা করে। উদাহরণ: GenomeScan।
প্রোমোটার প্রেডিকশন: এটি টিএসই (Transcription Start Site) শনাক্ত করার চেষ্টা করে। CpG আইল্যান্ড খুঁজে বের করা ইউক্যারিওটিক প্রোমোটার খোঁজার একটি বড় মাধ্যম।

মোলেকুলার ফাইলোজেনেটিক্স (Molecular Phylogenetics)

পরিভাষা: ট্রি-র অংশগুলো হলো - ব্রাঞ্চ (Branch), নোড (Node), রুট (Root), এবং ক্ল্যাড (Clade)।
ট্রি প্রকারভেদ:
- Rooted vs Unrooted: রুট সম্বলিত ট্রি পূর্বপুরুষ এবং বিবর্তনের দিক নির্দেশ করে।
- Cladogram vs Phylogram: ফিলোগ্রামে ব্রাঞ্চের দৈর্ঘ্য বিবর্তনীয় পরিবর্তনের সমানুপাতিক।
ট্রি তৈরির পদ্ধতি:
- Distance-based: UPGMA, Neighbor-joining (NJ)।
- Character-based: Maximum Parsimony (MP), Maximum Likelihood (ML), Bayesian Inference।
মূল্যায়ন: বুটস্ট্র্যাপিং (Bootstrapping) পদ্ধতির মাধ্যমে ট্রি-এর প্রতিটি ব্রাঞ্চের নির্ভরযোগ্যতা পরীক্ষা করা হয়।

প্রোটিন স্ট্রাকচার প্রেডিকশন (Protein Structure Basics and Prediction)

স্তরায়ন: Primary, Secondary ( $\alpha$ -helix, $\beta$ -sheet), Tertiary (3D folding), এবং Quaternary।
Ramachandran Plot: এটি $\phi$ এবং $\psi$ অ্যাঙ্গেল ব্যবহার করে প্রোটিনের গঠনগত গুণমান বিচার করে।
প্রেডিকশন পদ্ধতি:
- Homology Modeling: জানা প্রোটিন স্ট্রাকচারের টেমপ্লেট ব্যবহার করে অল-অ্যাটম মডেল তৈরি।
- Threading (Fold Recognition): টার্গেট সিকোয়েন্সকে একটি ফোল্ড লাইব্রেরির সাথে তুলনা করে সবচেয়ে মানানসই গঠন খুঁজে বের করা।
- Ab initio: শুধুমাত্র ফিজিকো-কেমিক্যাল নিয়মের ওপর ভিত্তি করে গঠন তৈরি করার চেষ্টা। এটি সবচেয়ে কঠিন কাজ।

জিনোমিক্স এবং প্রোটিওমিক্স (Genomics and Proteomics)

জিনোম অ্যাসেম্বলি: ছোট ছোট সিকোয়েন্স রিড থেকে কনটিগ (Contigs) এবং স্ক্যাফোল্ড (Scaffolds) তৈরি করা।
ফাংশনাল জিনোমিক্স: জিনের অভিব্যক্তি (Gene expression) বোঝার জন্য DNA Microarray এবং SAGE ব্যবহৃত হয়।
প্রোটিওমিক্স: একটি কোষের সমস্ত প্রোটিনের অধ্যয়ন।
- প্রযুক্তি: 2D-PAGE (separation) এবং Mass Spectrometry (identification)।
- প্রোটিন ইন্টারেকশন: Yeast Two-Hybrid সিস্টেমের মাধ্যমে বা কম্পিউটেশনাল মেথড (যেমন- Rosetta stone, Phylogenetic profiles) এর মাধ্যমে প্রোটিন-প্রোটিন ইন্টারেকশন প্রেডিক্ট করা হয়।

গাণিতিক সূত্রাবলী (Mathematical Formulas in LaTeX)

গ্যাপ পেনাল্টি (Gap Penalty): $W = \gamma + \delta \times (k - 1)$
রেসিডু আইডেন্টিটি (Identity %): $I = [\frac{L_i \times 2}{L_a + L_b}] \times 100$
এক্সট্রিম ভ্যালু ডিস্ট্রিবিউশন (Gumble distribution): $P = 1 - e^{-Kmne^{-\lambda x}}$
বিট স্কোর (Bit Score): $S' = \frac{\lambda \times S - \ln K}{\ln 2}$
রুট মিন স্কয়ার ডেভিয়েশন (RMSD): $RMSD = \sqrt{\frac{\sum_{i=1}^N D_i^2}{N}}$