Protein hay còn gọi là chất đam, một trong những loại các phân tử sinh học (biomolecule) quan trọng và cần thiết nhất trong tự nhiên, đóng vai trò tương tự như cơ sở xây dựng cho các hệ sinh học phức tạp.
Khi phân loai, Protein thuộc nhóm “Monomers, oligomers and polymers” của phân tử sinh học (biomolecule). Trong hệ sinh học, protein được xem là một dạng macromolecule quan trọng, được tạo thành từ các đơn vị cơ bản gọi là axít amin (amino acid).
Sự kết hợp và sắp xếp của các axít amin (amino acid) này quyết định cấu trúc và chức năng của protein. Cấu trúc đa dạng và tính chất duy nhất của từng loại protein là điều quan trọng và đóng góp vào sự đa dạng và tính chất phong phú của các hệ sinh học.
1. Lịch sử phát hiện và nghiên cứu Protein
1.1. Phát hiện và đặt tên
Các nhà khoa học đã chính thức công nhận Protein là một lớp phân tử sinh học riêng biệt trong thế kỷ 18, nhờ vào công trình tiên phong của Antoine Fourcroy và các nhà nghiên cứu đồng nghiệp.
Sự công nhận này bắt nguồn từ đặc tính riêng của protein – khả năng đông hoặc kết tủa khi tiếp xúc với nhiệt độ hoặc axit.
Các ví dụ đáng chú ý trong thời kỳ này bao gồm albumin từ lòng đỏ trứng, albumin huyết thanh, fibrin và gluten trong lúa mì.
Sự hiểu biết chi tiết về protein bắt đầu hình thành vào đầu thế kỷ 19. Nhà hóa học người Hà Lan Gerardus Johannes Mulder đã tiến hành phân tích nguyên tố các loại protein khác nhau, dẫn đến một phát hiện đột phá.
Ông phát hiện rằng gần như tất cả protein đều chia sẻ cùng một công thức kinh nghiệm chung, C400H620N100O120P1S1.
Ban đầu, Mulder đã giả định rằng protein có thể được tạo thành từ một loại phân tử (rất lớn). Thuật ngữ “protein” để mô tả các phân tử này được đề xuất bởi đồng nghiệp của Mulder, nhà hóa học Thụy Điển Jöns Jacob Berzelius.
Từ “protein” bắt nguồn từ từ tiếng Hy Lạp πρώτειος (proteios), có nghĩa là “chính”, “đứng đầu”, hoặc “đứng phía trước”, kết hợp với hậu tố -in.
1.2. Bước đầu nghiên cứu
Các nhà khoa học dinh dưỡng sớm, bao gồm Carl von Voit đến từ Đức, đã nhận ra sự quan trọng quan trọng của protein trong việc duy trì cấu trúc của cơ thể, bởi vì lúc đó tin rằng “thịt tạo nên thịt” (flesh makes flesh) nhấn mạnh sự quan trọng của protein trong chế độ ăn.
Karl Heinrich Ritthausen mở rộng các dạng protein đã biết bằng cách xác định acid glutamic. Đồng thời, những đánh giá chi tiết về các protein từ thực vật đã được biên soạn, đặc biệt là của Thomas Burr Osborne tại Trạm Thử nghiệm Nông nghiệp Connecticut.
Các tiến bộ tiếp theo trong việc hiểu về protein đến từ nghiên cứu và thực nghiệm tỉ mỉ. Các nhà khoa học như Lafayette Mendel, làm việc cùng với Osborne, áp dụng định luật tối thiểu của Liebig trong việc nuôi chuột laboratoire, từ đó đã xác định các axít amin thiết yếu về mặt dinh dưỡng.
Công việc này được tiếp tục và truyền đạt bởi William Cumming Rose, góp phần vào kiến thức về protein là polipeptit.
Một bước quan trọng trong việc hiểu về protein đã xảy ra vào năm 1902 thông qua những nỗ lực cộng tác của Franz Hofmeister và Hermann Emil Fischer. Công trình của họ đã giúp làm sáng tỏ rằng protein thực sự là các polipeptit.
Tuy nhiên, không cho đến năm 1926, James B. Sumner mới thực sự chứng minh vai trò trung tâm của protein như là enzym trong các cơ thể sống, củng cố thêm hiểu biết của chúng ta về những phân tử sinh học quan trọng này.
1.3. Phát hiện được cấu trúc protein
Do đó, các nghiên cứu sớm tập trung vào việc nghiên cứu các protein có thể được tinh chế trong số lượng lớn, chẳng hạn như máu, lòng trắng trứng, các độc tố khác nhau và enzym tiêu hóa/sinh học được thu thập từ các nhà máy giết mổ.
Vào thập kỷ 1950, công ty Armour Hot Dog đã tinh chế 1 kg ribonuclease A tinh khiết từ tụy bò và cung cấp nó miễn phí cho các nhà khoa học. Điều này đã giúp ribonuclease A trở thành mục tiêu chính trong nghiên cứu sinh hóa trong các thập kỷ tiếp theo.
Linus Pauling được ghi nhận với dự đoán thành công về cấu trúc phụ protein đều dựa trên tạo liên kết hydro, ý tưởng được đưa ra lần đầu bởi William Astbury vào năm 1933.
Công trình sau đó của Walter Kauzmann về sự khử bởi nhiệt, dựa một phần trên những nghiên cứu trước của Kaj Linderstrøm-Lang, đã đóng góp vào việc hiểu về sự gập cấu trúc và cấu trúc của protein được điều chỉnh bởi tương tác hydrophobic.
Protein đầu tiên được xác định chuỗi axít amin (amino acid) của nó là insulin, được Frederick Sanger thực hiện vào năm 1949.
Sanger đã xác định đúng chuỗi axít amin (amino acid) của insulin, xác nhận một cách rõ ràng rằng protein bao gồm chuỗi polyme của các amino acid thay vì chuỗi nhánh, colloids, hoặc cyclols.
Ông đã đoạt giải Nobel cho thành tựu này vào năm 1958. Những công trình này đã mở ra những lĩnh vực mới và đánh dấu sự phát triển quan trọng trong nghiên cứu về protein.
1.4. Nghiên cứu protein với công nghệ tinh thể học tia X
Kỹ thuật tinh thể học tia X (X-ray crystallography) là một phương pháp quan trọng trong việc xác định cấu trúc tinh thể của các hợp chất, bao gồm cả các phân tử protein.
Kỹ thuật này sử dụng tia X để chiếu qua một mẫu tinh thể và phân tán, sau đó, dựa vào mô hình phân tán này, chúng ta có thể xác định cấu trúc tinh thể của mẫu.
Ứng dụng của tinh thể học tia X trong nghiên cứu protein là quan trọng vì nó cho phép nhà khoa học nhìn thấy cấu trúc không gian chi tiết của protein.
Cấu trúc này rất quan trọng để hiểu cách mà protein hoạt động và tương tác với các phân tử khác trong hệ thống sinh học. Khi chúng ta hiểu được cấu trúc protein, chúng ta có thể tìm hiểu về chức năng và vai trò của protein đó trong quá trình sinh học.
Việc sử dụng X-ray crystallography đã cho phép giải quyết cấu trúc protein của hemoglobin (do Max Perutz) và myoglobin (do John Kendrew) vào năm 1958.
Điều này đã đánh dấu một bước tiến lớn trong việc hiểu cấu trúc và chức năng của các protein này. Sự phát triển của máy tính và sức mạnh tính toán đã cung cấp hỗ trợ quan trọng, giúp xác định cấu trúc của các protein phức tạp và khó khăn hơn, như cấu trúc phức tạp của RNA polymerase được Roger Kornberg giải quyết thành công vào năm 1999.
1.5. Nghiên cứu protein với công nghệ kính hiển vi điện tử lạnh
Kính hiển vi điện tử lạnh (Cryo-electron microscopy viết tắt là cryo-EM) là một phương pháp quan trọng được sử dụng để xem xét cấu trúc của các hợp chất lớn, đặc biệt là các protein và các cấu trúc tương tự protein.
Phương pháp này đã phát triển mạnh mẽ và trở thành một công cụ quan trọng trong lĩnh vực nghiên cứu sinh học và sinh học phân tử.
Cryo-EM sử dụng việc quét bằng tia electron để xem xét các mẫu protein. Khác với X-ray crystallography, cryo-EM không yêu cầu việc tạo ra tinh thể của mẫu.
Thay vào đó, các mẫu protein được đông lạnh ở nhiệt độ rất thấp, gọi là điều kiện đông lạnh (cryogenic conditions) , để giữ cấu trúc tự nhiên của chúng.
Các chùm điện tử (Electron beams) được sử dụng để chiếu qua mẫu, và thông tin về cấu trúc được xác định dựa trên sự phân tán của electron.
Ứng dụng chính của cryo-EM là xem xét cấu trúc 3D của các phân tử sinh học phức tạp, bao gồm cả protein và các cấu trúc tự nhiên khác.
Điều này cho phép nhà khoa học tìm hiểu về cấu trúc và chức năng của protein một cách chi tiết hơn. Cryo-EM đặc biệt hữu ích khi nghiên cứu các phân tử có kích thước lớn và không thể tạo tinh thể để ánh sáng X-ray.
Điều quan trọng của cryo-EM là nó gây ít thiệt hại cho mẫu so với một số phương pháp khác, cho phép thu thập nhiều thông tin hơn và phân tích cấu trúc lớn hơn.
Nó đã giúp nghiên cứu và hiểu rõ hơn về cấu trúc protein ở mức độ nguyên tử và các cấu trúc phức tạp hơn, mang lại đóng góp lớn cho lĩnh vực nghiên cứu sinh học và dược phẩm.
1.6. Ngân hàng cơ sở dữ liệu lưu trữ protein
Protein Data Bank (PDB) là một cơ sở dữ liệu lưu trữ và chia sẻ thông tin về cấu trúc ba chiều của các phân tử protein và các cấu trúc liên quan khác như axít nucleic (Acid nucleic).
Đây là nguồn tài nguyên quan trọng và quốc tế dành cho các nhà nghiên cứu trong lĩnh vực sinh học phân tử, sinh học cấu trúc, dược phẩm và các lĩnh vực liên quan.
Cơ sở dữ liệu PDB chứa thông tin chi tiết về cấu trúc nguyên tử của các phân tử sinh học, bao gồm thông tin về vị trí của từng nguyên tử và liên kết giữa chúng.
PDB được xem là nguồn tài liệu chính thức và quan trọng để nghiên cứu cấu trúc protein và các cấu trúc sinh học khác.
Các cấu trúc được gửi đến PDB thông qua quy trình chuẩn để đảm bảo tính chính xác và đáng tin cậy. PDB cũng cung cấp công cụ và phần mềm để phân tích cấu trúc, làm việc với dữ liệu, và xây dựng mô hình.
Cộng đồng nghiên cứu toàn cầu sử dụng PDB để truy cập, tìm hiểu và chia sẻ thông tin về cấu trúc phân tử sinh học protein và các phân tử sinh học quan trọng khác. Điều này đóng vai trò quan trọng trong việc tiến bộ nhanh chóng của nghiên cứu về sinh học phân tử và ứng dụng trong dược phẩm và y tế.
2. Phân loại
Phân loại protein trong khoa học là quá trình xác định và nhóm các protein dựa trên các đặc tính và tính chất cụ thể của chúng. Có nhiều cách tiếp cận để phân loại protein, tùy thuộc vào mục tiêu và môi trường nghiên cứu cụ thể. Dưới đây là một số phương pháp phổ biến để phân loại protein:
2.1. Phân loại dựa trên chuỗi peptit (Sequence-based classification)
Phân loại dựa trên chuỗi peptit (Sequence-based classification) là phương pháp phân loại protein dựa trên cấu trúc và sự sắp xếp của chuỗi amino acid (peptit) trong một protein cụ thể.
Các axít amin (amino acid) kết hợp với nhau theo một thứ tự nhất định để tạo thành chuỗi peptit, và mỗi protein sẽ có một chuỗi peptit độc đáo. Các protein có chuỗi peptit giống nhau hoặc tương tự có khả năng thực hiện các chức năng hoặc nhiệm vụ tương tự trong hệ thống sinh học.
Các protein được phân thành các loại chính dựa trên sự tương tự và mô hình cấu trúc của chuỗi peptit. Số lượng và cụ thể của các loại protein phụ thuộc vào cách tiếp cận và phương pháp phân loại sử dụng, và không có một phân loại cụ thể và tuyệt đối cho các loại protein.
Một số loại protein chính có thể được phân loại dựa trên chuỗi peptit bao gồm:
Globular Proteins: Protein có cấu trúc 3D gồm các miếng chính được gọi là domain.
Fibrous Proteins: Cấu trúc dài và thường có tính chất cơ học như collagen trong da và sợi cơ.
Membrane Proteins: Nằm trong hoặc gắn với màng tế bào.
Intrinsically Disordered Proteins (IDPs): Thiếu mô hình cấu trúc ổn định và thường không có cấu trúc 3D xác định.
Enzymes: Protein có chức năng sinh hóa chủ yếu, thường có tên theo cấu trúc chức năng hoặc substrat.
Các nhóm và loại protein có thể được mở rộng và tùy chỉnh theo nghiên cứu cụ thể hoặc mục tiêu phân loại. Phân loại protein dựa trên chuỗi peptit cung cấp cơ sở quan trọng cho việc hiểu chức năng và tính chất của các protein trong hệ thống sinh học.
2.2. Phân loại dựa trên cấu trúc (Structure-based classification)
Phân loại dựa trên cấu trúc (Structure-based classification) là một phương pháp phổ biến trong việc phân loại các protein dựa trên cấu trúc 3D của chúng.
Thay vì tập trung vào chuỗi amino acid (peptit) như trong phân loại dựa trên chuỗi peptit, phân loại dựa trên cấu trúc tập trung vào cấu trúc 3D của protein, bao gồm cách các phần khác nhau của protein tương tác và sắp xếp với nhau.
Phương pháp này sử dụng các kỹ thuật như tia X (X-ray crystallography), NMR (Nuclear Magnetic Resonance), hoặc cryo-EM (Cryo-Electron Microscopy) để xác định cấu trúc 3D của protein.
Sau đó, các protein được phân loại dựa trên mô hình cấu trúc này và cách các thành phần của protein tương tác với nhau.
Sự đa dạng về cấu trúc 3D của protein đã dẫn đến nhiều hệ thống phân loại khác nhau dựa trên cấu trúc. Dưới đây là một số ví dụ về cách phân loại dựa trên cấu trúc:
CATH (Class, Architecture, Topology, Homologous superfamily): Phân loại dựa trên kiến thức về các mô hình cấu trúc 3D của protein.
SCOP (Structural Classification of Proteins): Tập trung vào việc phân loại các protein thành các họ, gia đình, siêu gia đình và các tùy chọn phụ khác dựa trên cấu trúc.
ECOD (Evolutionary Classification of Protein Domains): Tập trung vào việc phân loại các miếng cấu trúc (domain) dựa trên một cách tiếp cận tiến hóa.
PDBSum: Tổ chức các protein theo các loại cấu trúc và mô tả cấu trúc 3D.
Số lượng loại protein trong phân loại dựa trên cấu trúc không cố định và phụ thuộc vào các hệ thống phân loại cụ thể được sử dụng. Mỗi hệ thống có cách tiếp cận và tiêu chí phân loại riêng, dẫn đến sự đa dạng và linh hoạt trong việc xác định các loại protein dựa trên cấu trúc.
2.3. Phân loại dựa trên chức năng (Function-based classification)
Phân loại dựa trên chức năng (Function-based classification) là một phương pháp phổ biến trong việc phân loại các protein dựa trên chức năng hoặc vai trò chính mà chúng thực hiện trong cơ thể hoặc hệ sinh thái.
Phương pháp này tập trung vào các tính năng hoặc chức năng của protein, bao gồm các phản ứng hoá học mà protein tham gia và cách nó tương tác với các phân tử khác.
Khi áp dụng phân loại dựa trên chức năng, protein được xem xét theo các tính chất hóa học và sinh học của chúng, bao gồm môi trường mà chúng hoạt động, tác động lên các phân tử khác, và vai trò trong các con đường sinh học cụ thể.
Các protein có thể được phân loại thành các nhóm dựa trên các chức năng hoặc quy trình sinh học mà chúng tham gia, như enzymatic activity (hoạt động enzym), transport proteins (protein vận chuyển), signal transduction proteins (protein truyền tín hiệu), và nhiều loại chức năng khác.
Một số ví dụ về phân loại dựa trên chức năng bao gồm:
GO (Gene Ontology): Phân loại dựa trên chức năng và vai trò sinh học của protein, bao gồm các khía cạnh tế bào, phân tử và quy trình sinh học.
EC (Enzyme Commission) number: Phân loại dựa trên chức năng enzymatic, tập trung vào việc phân loại enzym theo các loại phản ứng mà chúng catalyze.
Transporter Classification Database (TCDB): Phân loại dựa trên chức năng vận chuyển và chuyển đổi chất trong và ra khỏi tế bào.
2.4. Phân loại dựa trên miền protein (Domain-based classification)
Phân loại dựa trên domain (Domain-based classification) là một phương pháp phổ biến trong việc phân loại protein dựa trên các domain, đơn vị cấu trúc và chức năng cơ bản của protein.
Domain trong ngữ cảnh này đề cập đến một phần nhỏ của một chuỗi polypeptide, thường được định nghĩa bởi cấu trúc cụ thể hoặc chức năng cụ thể.
Mỗi domain thường chứa một phần cấu trúc tương đối độc lập và có thể tham gia vào một chức năng hoặc quy trình sinh học cụ thể. Phân loại dựa trên domain chia protein thành các nhóm dựa trên các domain chung hoặc tương tự về mặt cấu trúc và chức năng.
Các protein có thể chứa một hoặc nhiều domain. Phương pháp này tập trung vào việc phân loại protein dựa trên tổng hợp các domain mà chúng chứa và cách các domain này tương tác với nhau trong protein tổng thể.
Số lượng loại protein trong phân loại dựa trên domain không cố định và phụ thuộc vào cách tiếp cận và tiêu chí phân loại cụ thể mà hệ thống sử dụng.
Các protein có thể được phân loại thành các nhóm dựa trên các domain chung hoặc các quy tắc phân loại cụ thể khác.
2.5. Phân loại dựa trên gene ontology (GO)
Phân loại dựa trên Gene Ontology (GO) là một phương pháp phổ biến trong việc phân loại protein dựa trên các chức năng sinh học, quá trình sinh học và thành phần tế bào mà protein tham gia.
Gene Ontology (GO) là một nguồn tài nguyên chung mà phân biệt và định nghĩa các khía cạnh sinh học khác nhau của gen và protein.
GO phân chia các thông tin về chức năng sinh học thành ba phần chính:
Biological Process (Quá trình sinh học): Đây là các quy trình và hoạt động mà protein tham gia, ví dụ như quá trình trao đổi chất, phản ứng miễn dịch, và phân tâm.
Molecular Function (Chức năng phân tử): Đây là chức năng hoặc hoạt động của protein đơn lẻ, chẳng hạn như khả năng kết hợp với một phân tử khác, hoặc khả năng hoạt động như một enzym.
Cellular Component (Thành phần tế bào): Đây là vị trí hoặc môi trường nơi mà protein có thể được tìm thấy trong tế bào hoặc cấu trúc tế bào, như nơi chúng tương tác hoặc thực hiện chức năng.
Phân loại dựa trên Gene Ontology giúp hiểu rõ hơn về các chức năng và quan hệ giữa các protein.
Số lượng loại protein trong phân loại này không cố định và tùy thuộc vào số lượng và đa dạng của các chức năng sinh học, quá trình sinh học và thành phần tế bào mà GO định nghĩa.
GO cập nhật và mở rộng liên tục để phản ánh sự tiến bộ trong nghiên cứu sinh học.