- Dr.Kaet
Polygenic Risk Score(DNA) ทำนายความเสี่ยงโรคได้อย่างไร?
คุณเคยสงสัยบ้างหรือไม่ว่า ทำไมบางคนมีความเสี่ยงในการเป็นโรคบางอย่างมากกว่าคนทั่วไป ความเสี่ยงในการเกิดโรคต่างๆโดยเฉพาะโรคที่พบได้ทั่วๆไป เช่น โรคเบาหวาน โรคความดัน โรคไขมัน
มีปัจจัยที่ส่งเสริมทำให้เกิดโรคจากหลายสิ่ง เช่น สิ่งแวดล้อม อาหาร พันธุกรรม วิถีชีวิต ความเครียด การพักผ่อน และการออกกำลังกาย นอกจากเรื่องของโรคภัยไข้เจ็บแล้ว ยังมีลักษณะอื่นๆอีกที่พันธุกรรมมีผลร่วมด้วย เช่น ความสูง และ ความอ้วน เป็นต้น ในบทความนี้ผมจะอธิบายถึงเรื่อง polygenic risk score ซึ่งคือค่าจากพันธุกรรมที่มีความสัมพันธ์ที่จะเพิ่มความเสี่ยงทำให้เกิดโรคต่างๆขึ้นมา ในแบบที่เข้าใจง่ายครับ

จาก concept ของปัจจัยทางพันธุกรรมที่ส่งผลต่อโรคต่างๆ ผมขอแยกออกเป็น 2 กลุ่มหลักๆ ได้แก่ 1: pathogenic mutation(ยีนก่อโรค), 2: Polygenic Risk Score(คะแนนความเสี่ยงโรค) ซึ่งปัจจัยทางพันธุกรรม 2 กลุ่มนี้แตกต่างกันหลักๆที่เรื่องของ
น้ำหนัก ความรุนแรง หรือ โอกาสที่การแปรผันทางพันธุกรรมจะก่อให้เกิดโรค
จำนวน หรือปริมาณ DNA ที่ส่งผลต่อความเสี่ยงในการก่อโรคนั้นๆ
ความสามารถในการอธิบายโรคที่เจอได้บ่อย และโรคหายาก
ซึ่งในบทความนี้ผมจะกล่าวถึงเฉพาะส่วนที่เป็น polygenic risk score ครับ

Polygenic risk score สร้างขึ้นมาได้อย่างไร
DNA ของเรานั้นครึ่งหนึ่งได้รับมาจากพ่อ และอีกครึ่งหนึ่งได้รับมาจากแม่ ประกอบขึ้นเป็น DNA ของตัวเราทั้งหมด การแสดงออกทางพันธุกรรมต่างๆ รวมถึงความเสี่ยงที่จะเกิดโรคบางอย่างนั้นมีอิทธิพลมาจากหลายยีนหลายตำแหน่งทั่วทั้งจีโนม ร่วมกับปัจจัยทางสิ่งแวดล้อม การศึกษาแนวใหม่นี้(ความสัมพันธ์ระหว่างการแปรผันทางพันธุกรรมที่ส่งผลต่อการแสดงออกของร่างกายหรือความเสี่ยงโรค) หรือที่เรียกว่าการศึกษาแบบ genome-wide association studies(GWAS) จึงเกิดขึ้น และได้มีการนำค่า DNA ที่ได้มา เอาไปสร้างเป็น polygenic risk score เพื่อใช้ทำนายความเสี่ยงโรค
โดยที่การศึกษาหาว่า DNA ตำแหน่งใดสัมพันธ์กับการเกิดโรค เราจะเริ่มต้นที่การแบ่งกลุ่มคนที่เป็นโรค และไม่เป็นโรคออกเป็น 2 กลุ่ม หลังจากนั้นทำการตรวจ DNA ทั่วทั้งจีโนม และนำ DNA ของทั้ง 2 กลุ่มนี้มาเปรียบเทียบกันด้วยสถิติว่าตำแหน่งใดของ DNA ความความเป็นไปได้สูงที่จะสัมพันธ์กับการเป็นโรค หรือไม่เป็นโรค

และเมื่อนำเอา DNA ทั่วทั้งจีโนมของกลุ่มคนทั้งสองกลุ่มมาเปรียบกันด้วยสถิติแล้วทำเป็นกราฟขึ้นมา เราจะพบว่า มีบางตำแหน่งของ DNA ซึ่งอาจจะมีมากตั้งแต่หลักร้อยถึงหลักแสนตำแหน่ง ที่สถิติชี้ว่ามีโอกาสสูงที่ DNA ตำแหน่งนั้นๆสัมพันธ์กับการเป็น หรือไม่เป็นโรค ดังภาพด้านล่างนี้ครับ

- แกน X(แนวนอน) คือตำแหน่งของ DNA ทั่วทั้งจีโนมไล่ตั้งแต่ฝั่งซ้ายมือสุดคือโครโมโซมคู่ที่ 1 และฝั่งขวามือสุดคือโครโมโซมคู่ที่ 22
- แกน Y(แนวตั้ง) คือค่า -log(P) ซึ่งแสดงความน่าจะเป็นที่ DNA ตำแหน่งนั้นๆมีความสัมพันธ์ หรือมีโอกาสสูงมากน้อยเพียงไร ต่อการเป็นหรือไม่เป็นโรค ยิ่งแกน Y ขึ้นสูงเท่าไรโอกาสที่ตำแหน่งนั้นมีความสัมพันธ์ต่อการเป็นโรคยิ่งสูงขึ้น จากรูปจะเห็นว่าได้มีการวงกลมจุดต่างๆที่มีค่า Y สูง หมายความว่าเราจะเอาค่าที่บริเวณดังกล่าวมาสร้าง polygenic risk score
หลังจากที่ได้ตำแหน่งต่างๆของ DNA ที่มีความสัมพันธ์กับการเกิดโรคออกมาแล้ว ก็มีการทำ quality control ต่างๆ และทำการนำตำแหน่ง DNA ที่ได้ไปทำวิเคราะห์การถดถอย (regression analysis เป็นวิธีทางสถิติที่ใช้หาความสัมพันธ์ระหว่างตัวแปรต้นคือ DNA และตัวแปรตามคือ เป็นหรือไม่เป็นโรค) เพื่อหาค่า beta หรือน้ำหนักของ DNA แต่ละตัวว่ามีความแรงมากน้อยเพียงใดที่จะก่อให้เกิดโรค หลังจากทำการวิเคราะห์ถดถอยแล้วจะสามารถสร้างเป็น polygenic risk socre ขึ้นมาได้ตามรูปด้านล่างนี้ครับ
Polygenic risk score หน้าตาเป็นอย่างไร

- คอลลัมสีฟ้าคือตำแหน่งของ DNA
- คอลลัมสีแดงแสดงถึงค่า DNA ที่ส่งผลต่อการเป็นหรือไม่เป็นโรค
- คอลลัมสีเหลืองคือน้ำหนัก หรือโอกาสของ DNA ณ ตำแหน่งนี้ที่จะทำให้เกิดโรคมีมากน้อยเพียงไร
ตารางดังกล่าวนี้ ส่วนมากจะมีจำนวน DNA ตั้งแต่หลักสิบจนถึงหลักแสนขึ้นอยู่กับการออกแบบงานวิจัย โดยหลักการนำเอาไปใช้งานคือใช้คำนวน genetic score ของแต่ละบุคคล คล้ายๆกับการคิดเกรดเฉลี่ยวิชาเรียน ก็คือหากเราได้ DNA ที่ตำแหน่งสีฟ้า มีตัวอักษรเดียวกับคอลลัมสีส้ม 1 ตัวเราจะได้ score เท่ากับคอลลัมสีเหลือง หากได้ตัวหนังสือจากคอลลัมสีส้มมา 2 ตัวเราก็จะได้ score เท่ากับคอลลัมสีเหลืองคูณสองครับ ยกตัวอย่างเช่น
- หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น AG ผมก็จะได้ genetic score = 0.03977
- หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น AA ผมก็จะได้ genetic score = 0.07954
- หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น GG ผมก็จะได้ genetic score = 0
เราจะทำการคำนวณแบบนี้ไปจนครบทุกตำแหน่งของ DNA ตาม polygenic score สุดท้ายคือการรวมผล genetic score ออกมาได้เป็นเลขรวมเลขเดียว ดังนั้น 1 คนจะได้เลข genetic score รวม 1 ค่า ซึ่งเราจะสามารถเอาค่า genetic score นี้ไปสร้างเป็นกราฟเทียบกับประชากรได้ ดังภาพด้านล่างนี้ครับ
เพื่อให้เห็นภาพได้ง่ายขึ้น ผมขอเปรียบเทียบกับการคิดเกรดเฉลี่ยวิชาเรียน โดยที่จะผลสอบจะออกมาเป็นสอบตก(ค่า DNA ที่ตำแหน่งนั้นเป็น other_allele) และสอบผ่าน(ค่า DNA ที่ตำแหน่งนั้นเป็น effect_allele) ในแต่ละปี(แต่ละโรค) เราจะต้องสอบหลายวิชา(หลายตำแหน่ง DNA) และแต่ละวิชาจะมีน้ำหนักที่ไม่เท่ากัน(effect_weight) เมื่อได้ผลสอบทุกวิชาแล้วเราจะทำการถ่วงน้ำหนักแต่ละวิชาว่าเกรดเฉลี่ยรวม(genetic score)ของเราเป็นเท่าไร แต่ละคนจะได้คะแนนรวมนี้ 1 ค่า การที่เราจะสรุปได้ว่าเรามีคะแนนมากหรือน้อยนั้นจำเป็นต้องเอาคะแนนที่เราได้นี้ไปเปรียบเทียบกับเพื่อนในชั้นเรียนว่าเราอยู่ percentile ที่เท่าไรเราก็จะทราบได้ทันทีว่าคะแนนที่เราได้มานี้มีค่ามากหรือน้อย

จากกราฟนี้จะเห็นได้ว่าการกระจายตัวของ genetic score ในประชากรเป็นการกระจายตัวแบบปกติ ประชากรส่วนมากจะมีค่า genetic score อยู่ที่ช่วงกลางๆ และมีประชากรส่วนน้อยได้ค่า genetic score มากและน้อย
- ผู้ที่ได้ค่า genetic score อยู่กลางๆมีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ปกติ
- ผู้ที่ได้ค่า geneitc socre น้อย(ฝั่งซ้าย) มีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ที่น้อยกว่าคนทั่วๆไป
- ผู้ที่ได้ค่า geneitc socre มาก(ฝั่งขวา) มีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ที่
มากว่าคนทั่วๆไป
Polygenic risk score นำไปหาความเสี่ยงโรคได้อย่างไร
ซึ่งเราจะสามารถทราบได้ว่าค่า genetic score ที่เราได้มานี้มีความเสี่ยงในการเกิดโรคเท่าไร โดยการนำ genetic score ในแต่ละช่วง(ช่วงของ percentile) มาหา prevalence(โอกาสที่จะเป็นโรค)
ประมาณว่าคนที่ได้รับ genetic score อยู่ในช่วงเดียวกับเรามีโอกาสที่จะเป็นโรคดังกล่าวอยู่กี่ % นั่นเองครับ ผมได้สร้างกราฟขึ้นมาโดยที่ - แกน X(แนวนอน) คือ percentile ของคนที่มี genetic score น้อยที่สุด(ฝั่งซ้าย) ไปจนถึงคนที่มี genetic score มากที่สุด(ฝั่งขวา) โดยที่จุด 1 จุดแสดงถึงจำนวนประชากร 2 percentile(2% ของประชากร)
- แกน Y(แนวตั้ง) คือเปอร์เซ็นต์ของคนที่เป็นโรค(โอกาสเกิดโรค) ในช่วง 2 percentile นี้
จะเห็นได้ว่าจุดทั้งหมดมี 50 จุด ซึ่ง 1 จุดจะแทนประชากร 2% ดังนั้นจะมีประชากรทั้งหมด 100%
จากกราฟจะสังเกตได้ว่าผู้ที่มี genetic score อยู่ที่ percentile น้อยจะโอกาสเกิดโรคต่ำกว่า(แกน Y) ผู้ที่มี genetic score อยู่ที่ percentile สูง

จากภาพซ้ายมือนี้ เป็นการหาความเสี่ยงโรคจาก genetic score ที่เรา
ได้รับเทียบกับประชากรทั้งหมด พบว่าหากเราได้ค่า percentile ที่ 50 จะมีความเสี่ยงโรคประมาณ 1.9%(เส้นสีแดง) ส่วนถ้าเราได้ค่า genetic score อยุ่ในช่วง percentile 86-88 เราจะมีความเสี่ยงเกิดโรคอยู่ที่ 2.5%
ดังนั้นแปลว่าเรามีความเสี่ยงเป็นโรคมากกว่าคนทั่วไปประมาณ 1.31 เท่า หรือ 31% นั่นเองครับ
ข้อจำกัดของ polygenic risk score
- ความแม่นยำอาจจะไม่สูงมากนักขึ้นอยู่กับหลายปัจจัยในทางสถิติ เป็นเพียงค่าประมาณการความเสี่ยงโรคแต่ละบุคคลโดยเฉลี่ย
- ไม่ได้นับรวมปัจจัยที่ก่อให้เกิดโรคจากสิ่งแวดล้อม
- มีความจำเพาะกับเชื้อชาตินั้นๆ หมายความว่า ความแม่นยำในการทำนายโรคจะสูงเมื่อเชื้อชาติของผู้ตรวจตรงกับเชื้อชาติที่นำมาสร้าง polygenic risk score และหากนำเชื้อชาติที่ไม่ตรงกับ polygenic risk score ผลที่ได้จะไม่มีความแม่นยำ หรือความแม่นยำลดลง
- polygenic risk score ไม่ได้บอกว่าเป็นสาเหตุของการเกิดโรคนั้นๆได้อย่างไร เป็นเพียงการหาความสัมพันธ์ของ DNA กับโอกาสเกิดโรค
เป็นอย่างไรกันบ้างครับ ในบทความนี้ผมได้อธิบายที่มาที่ไปของ polygenic risk score อย่างย่อให้ท่านผู้อ่านได้เห็นภาพว่า polygenic risk score นี้มีหลักการทำงานอย่างไร ทำนายความเสี่ยงในการเกิดโรคได้อย่างไร เพื่อเป็นประโยชน์ในการเข้าใจ และเห็นภาพได้ดียิ่งขึ้นเมื่ออ่านผล DNA ครับ
reference :
- https://pubmed.ncbi.nlm.nih.gov/29727703/
- https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1010105