《轉》訪中國科學院牛北方研究員 | 設計與實現高性能的數據解讀學習模型、算法與軟件,是逾越生命信息學“數據鴻溝”的主要手段

轉化醫學網2019-07-12 14:33:19


點擊上方“轉化醫學網”訂閲我們!

乾貨 | 靠譜 | 實用  



當前,大數據與人工智能已滲透到各個科研與產業領域。大數據在生物醫學領域被重新定義為“生物醫學大數據”、“健康醫療大數據”以及分子生物學層面的“多組學大數據”等。然而,生物醫學大數據的核心是解析、預測更多的數據, 從而可以處理與個體疾病表型相關的所有數據,並最終明確各因素的相關性和混雜性。因此,在當前大數據、人工智能和高性能計算逐漸融合的趨勢下,設計與實現高性能的數據解讀學習模型、算法與軟件,是逾越生命信息學“數據鴻溝”的主要手段。


針對癌症基因組學、宏基因組學,特別是基於下一代高通量測序的“精準醫學”數據解讀算法與軟件技術,牛北方博士已在高性能計算數據解讀方面取得了有一定影響力的學術及應用研究成果。近日,轉化醫學網有幸邀請到牛北方博士接受專訪,以下為專訪內容:

 

高性能計算與生物信息學結合 

鑄就科研之路


牛北方博士,您是如何踏入高性能計算與生物信息學的交叉研究領域中的?


基於對代碼編程的濃厚興趣,我考取了中國科學院計算機網絡信息中心的研究生並得以提前攻讀計算機軟件與理論博士學位。在攻讀博士學位期間,我非常幸運的師從我國高性能計算領域的知名專家——遲學斌研究員。隨着研究課題的開展,有幸參與的中國國家網格-生物信息學網格項目經歷,給了我短暫師從中國生物信息學第一人——陳潤生院士的機會,使我接觸到了生物信息學這門令人着迷的學科,從此踏入了高性能計算與生物信息學的交叉研究領域。非常感謝兩位恩師的教誨與指導,讓我受益終身。

 

2012年,結束美國加州大學聖迭戈博士後研究後,牛北方博士受邀應聘於美國聖路易斯華盛頓大學醫學院麥道基因組研究所,參與美國癌症基因組圖譜計劃(TCGA),請您簡單介紹一下您在TCGA項目中取得的一些成果。

 

在美國TCGA項目中,我獲得了與基因組醫學領域國際著名科學家合作的機會,參與了美國TCGA及國際癌症基因組聯盟(ICGC)多個癌種的大規模癌症基因組數據分析項目。這期間,帶領生物信息團隊,率先分析了基於高通量測序數據的癌變基因組多子克隆結構問題,設計並研發了癌症顯著突變基因識別算法及其軟件系統MuSiC2。該方法被成功應用於12種3000多例癌症患者的高通量測序數據,成功識別出127個顯著突變癌症基因並大多被濕實驗驗證(Nature, 2013)。MuSiC2軟件也被成功應用於美國TCGA胃癌分子特徵分析(Nature, 2014)和美國 TCGA 泛癌基因組分子分型的工作(Cell, 2014),並獲得 2015 年美國十大臨牀研究成就獎。隨後,我們和美國布朗大學的Ben J. Raphael教授合作,將癌症罕見體細胞突變映射到二維網絡模型,研發了HotNet2軟件系統(Nature Genetics, 2015);後又基於蛋白質三維空間結構數據,成功研發了癌突變位點和藥物位點空間整合分析的軟件系統HotSpot3D(Nature Genetics, 2016)。美國國家癌症研究院(NCI)癌症電鏡中心主任Jacqueline Milne教授對這項工作進行了特別評述,他評價道:“HotSpot3D可以快速篩選癌症驅動突變,並指導FDA已經批准藥物的重定位”。上述系列研究成果也得到知名公共媒體的廣泛關注,美國主流媒體華爾街日報、布隆伯格新聞評論和科學日報等都以不同篇幅進行過報道。

 

作為高性能計算技術與生物信息學交叉研究領域的專家,您認為高性能計算技術對於精準腫瘤學(Precision Oncology)研究的價值主要體現在哪裏?在籌建面向數據和計算整合的癌症組學數據挖掘體系過程中,有哪些技術難題有待突破?


在精準腫瘤學領域,人們從腫瘤基因組測序數據獲得的有價值信息仍然十分有限,試圖發現的腫瘤驅動基因突變不到基因組變異的2%,因此需要獲得更多有價值的信息。而高性能計算技術可以解決超大規模數據的快速、準確解讀帶來的新挑戰,為未來的腫瘤發病機制研究和臨牀應用奠定基礎,將產生巨大的產業價值和新的產業鏈。作為生物信息學分支的腫瘤基因組信息學,在精準腫瘤學研究中具有核心的價值和地位。一個合理的預測是,生物信息學在精準醫療中的應用或將引爆生命科學研究的新變革。


在籌建面向數據和計算整合的癌症組學數據挖掘體系過程中,仍然存在許多技術壁壘。首先,生物數據尤其是多組學數據,其規模大、種類多、樣本量小,如何在原有統計學基礎上研究數據、高效的存儲大規模數據、提高數據的處理速度等都是目前研究的熱點和問題的關鍵,開發及優化針對新測序技術數據挖掘的大規模數據處理軟件非常有必要。其次,目前尚缺乏針對中國特有的癌症樣本二級數據庫。我國亟需構建面向中國癌症樣本的基因組、轉錄組、蛋白質組、臨牀醫療數據等在內的二級數據庫。最後,目前多組學數據處理流程繁雜且不統一,如何簡化分析流程、提高分析速度、建立通用的數據解析流程也是亟待解決的問題。因此,急需研發高性能數據分析的工作流軟件系統,以簡化計算流程,助力國家精準醫學計劃產生的大規模數據分析任務。

 

從科研者到創業者 

助力中國腫瘤精準醫療領域


牛北方博士,您開發了MSIsensor軟件系統,並被成功應用於FDA首個批准的腫瘤多基因檢測大Panel——MSK-IMPACT中,您如何看待中國腫瘤大Panel?

 

我和同事首次提出併成功解決了基於 NGS 的基因組微衞星不穩定性的檢測問題,帶領團隊研發了MSI狀態探測軟件系統MSIsensor(Bioinformatics, 2014),其性能優於當前臨牀病理檢測方法,為微衞星位點識別提供了先進的計算手段。2017年11月,美國FDA批准了美國紀念斯隆凱特琳癌症中心(MSKCC)的基於二代測序技術的多基因檢測分析產品MSK-IMPACT™,這是FDA首次並非針對特定基因的特定位點,而是基於整個Panel及相應的技術平台進行審批,是精準醫學發展道路上的一次重要跨越。這也是美國FDA批准的首款不依據腫瘤來源,而是依據生物標誌物進行區分的檢測產品。另外,FDA對MSK-IMPACT™授權的另外一個重要應用便是MSI檢測,其MSI檢測就是使用我研發的軟件系統MSIsensor。經過多年的精心維護與功能改進,MSIsensor檢測系統已成為當前該領域的核心方法,在國際上被多家科研單位、醫療機構和公司廣泛使用。


目前而言,美國FDA於2017、2018年連續批准了MSK和Foundation Medicine兩款大Panel檢測產品。令人欣慰的是,國內部分企業已經走在開發腫瘤大Panel產品的前沿。個人認為,國內腫瘤大Panel的產品應該踏實,穩步推進,徹底理解並借鑑FDA批准的兩款大Panel產品的設計思路。當然,作為一名科技工作者,我將與其它科研人員一起,踐行“健康中國”理念,為實現大Panel在我國行業規範標準的建立貢獻自己的力量。

 

您在美國進修了博士後,後又在美國聖路易斯華盛頓大學做研究員,是何種情懷促使您選擇回國發展?

 

2015年初,美國啟動精準醫療計劃,隨後的3月中國科技部舉辦首屆“國家精準醫療戰略專家會議”,啟動中國版“精準醫療計劃”。精準醫療計劃離不開大數據、基因檢測技術、高性能計算技術……中國亟需各種複合型高科技人才。與此同時,數據安全日益重要,能否守住中國人基因數據,能否培養、引回國際一流的生物信息分析人才,或許將成為我國精準醫療計劃成功的關鍵。另外,由於地域差異,美國腫瘤基因圖譜並不能完全適用於中國人羣,中國亟需構建中國腫瘤基因圖譜計劃。


祖國日益強大,國家是科研人員最強大的後盾。眾所周知,多年前,我國的高性能計算並行機,連核心CPU都是國外生產的。現如今,我們已經擁有了完全自主生產的超級計算機,能夠最大程度的保障科技成果落地及轉化。相信我國的高性能計算、大數據技術能讓科學研究走得更遠,不僅侷限在醫療行業,而且能夠在國民經濟的各個行業中都將發揮更大的作用。


另外,中國是人口大國,也是癌症大國,對於一名科研工作者而言,利用自己的微薄力量為中國腫瘤事業做貢獻,某種層面上也是為全球科研在做貢獻。如果不能將自身科研成果應用於人類健康,似乎自身的科研價值就沒有完全體現。因此,我選擇回國,投身到國家生物信息學與高性能計算技術交叉領域的研究中,也是情理之中。

 

2018年,您受邀加盟求臻醫學(北京)有限公司(以下簡稱“求臻醫學”)擔任首席信息官一職,請您分享下您的心路歷程。

 

選擇加入求臻醫學,不僅僅是由於某些理念“不謀而合”,研究方向完全匹配,更多是因為我在求臻醫學看到了“中國腫瘤大Panel的希望”。隨着自己對腫瘤認識的逐步加深,我開始重新理解精準醫療領域。目前,腫瘤精準醫療領域的一大痛點在於數據分析缺乏標準化。為早日實現腫瘤基因組大數據的標準化整合、共享和高效利用,推動科學研究和生物醫藥產業的協同發展。2018年,我受邀加入求臻醫學,參與中國腫瘤圖譜計劃項目,推動泛腫瘤大Panel基因檢測的標準化。

 

探索科技創新  致力醫學求臻


作為求臻醫學首席信息官,您認為求臻醫學在精準腫瘤學領域有哪些獨特優勢?


我認為可以從以下幾個角度來闡述這個問題:


團隊優勢


求臻醫學聯合創始人、首席科學家李蔚教授來自美國三大基因組測序中心之一的貝勒醫學院,李蔚教授和我都參與過TCGA 泛癌種的分子分型工作,有着多年的腫瘤基因組數據分析工作和項目經驗,為求臻醫學精準腫瘤學檢測產品的研發提供了一定的人才優勢。求臻醫學創立伊始,便匯聚高科技行業團隊,以強有力的高素質人才支撐加速鍛造科技創新凝聚力,其企業運營管理經驗、技術、人才儲備,在國內的基因檢測產業界頗具特色。


技術優勢


求臻醫學與國內外科研團隊合作成功研發了一系列擁有自主知識產權的分析軟件,例如用於RNA-seq數據分析的RseQC,用於甲基化分析的BSMAP、MOABS、Canyons,用於MSI檢測的MSIsensor、ChosenDeepMSI等,尤其在腫瘤多基因檢測大Panel方面獨具優勢。


求臻醫學的腫瘤大Panel產品——ChosenOne599™充分學習了FDA批准的兩款產品的研發思路,是基於NGS平台、IHC及ddPCR平台的最新一代檢測產品,涉及腫瘤用藥、預後及發生發展相關的599個基因。近日,此產品獲得了中關村及北京市新技術新產品(服務)的認證,這是政府層面對求臻醫學產品和技術的認可。求臻醫學的ChosenOne599™大Panel在信息學分析具有如下新特點:


  • 變異檢測方面:ChosenOne599™大Panel變異檢測結合TCGA標準流程和中國人變異基線特點定製,對每一個變異位點採用多個公共檢測軟件,並結合自主知識產權的變異檢測軟件ChosenBassovac進行打分,後續採用機器學習模型結合TCGA大規模癌突變數據對變異位點的顯著性進行智能化評估,不同於常用的VAF及人羣頻率等閾值過濾策略,使變異位點檢測更準確的同時,得到位點的顯著性評估;


  • TMB指標方面:除報告常規TMB值之外,基於自主知識產權的ChosenHotSpot算法,提出了一個三維立體的TMB顯著性指標:3dTMB,該指標可以綜合評估已知功能位點和未知功能位點、靶向藥物等之間的相互關係及顯著性,以及發現更多的靶向治療藥物嘗試點,提高癌症患者的生存率;


  • MSI檢測方面:MSI檢測採用機器學習模型新算法,測試性能顯示新算法優於原來的MSIsensor,檢測速度從原來分析一個全外顯子組樣本耗時30分鐘,降低至100秒,大大提高了MSI的檢測效率,可以推廣到更多的定製化基因檢測Panel、ctDNA及全外顯子組、全基因組數據,具有更加廣闊的臨牀應用前景。


另外,在大數據處理和流程封裝方面,求臻醫學採用了目前具有優勢的Docker技術搭建Spark服務器集羣,為醫院等下游客户提供一站式的生物信息學解決方案,從而推動生物信息標準化流程的建立。


項目優勢


求臻醫學基於全新的生物信息學分析和遺傳諮詢解讀的標準化流程建立規範化腫瘤圖譜,同時基於ChosenOne599™大Panel產品建設中國人羣腫瘤數據庫,探索開發出一套國人腫瘤數據共享及高效利用的管理機制,為我國科技創新和經濟社會發展提供物質保障和服務支撐。


開放共贏的大格局


求臻醫學的創始人團隊具有開放共贏、致力於共同譜寫中國精準醫學新篇章的思想和開放大格局。求臻醫學不僅在核心檢測產品ChosenOne599™大Panel的信息學分析上具有獨特、新穎的思路,同時還在研發過程中產出一批可以為整個國內基因檢測行業開放使用的信息分析系統,求臻醫學在不斷突破技術的“天花板”。

 

近來,求臻醫學推出了新的基於機器學習模型的MSI智能檢測算法ChosenDeepMSI。基於此新的智能算法,求臻醫學可以為任何檢測公司、任意大小的基因檢測Panel提供其獨有的MSI檢測訓練模型服務。換而言之,我們可以為任何基因個數的檢測Panel定製MSI檢測模型。另外,ChosenDeepMSI近期也授權美國國家癌症研究院的GDC項目組進行系統全面的測試。這些獨特的技術優勢,求臻醫學都將無償的提供給國家各種類型的生物醫學項目,為國家精準腫瘤學數據分析貢獻自己的力量。

 

最後,牛北方博士表示,他作為主要作者研發的幾個軟件系統在癌症基因檢測領域應用廣泛,將繼續研發能夠解決精準腫瘤學臨牀實際問題的檢測信息系統及計算支撐體系,他將憑藉自己在高性能計算領域內多年的腫瘤基因組數據分析工作和項目經驗,追求求臻出品,必然是精品的思路,幫助求臻醫學建立世界一流的研發團隊,實現關鍵核心技術自主可控。

 

牛北方博士個人簡介

牛北方,博士,中科院計算機網絡信息中心研究員,博士生導師,中國科學院大學崗位教授,求臻醫學首席信息官。主要從事高性能計算與生物信息學研究,特別是基於下一代高通量測序(NGS)的腫瘤“精準醫學”數據處理算法與軟件技術。迄今發表同行評審論文30餘篇,包括Nature、Nature Genetics等期刊,總被引用近10000次,ESI高被引(1%)論文10篇,其中多項研究成果被媒體報道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因檢測軟件的主要作者。其中的MSIsensor檢測系統已作為該領域的核心方法,在國際上被多家科研單位、醫療機構和公司廣泛使用,並被成功應用於FDA批准的首個基於NGS的癌症多基因檢測試劑盒(MSK-IMPACT)。主持多項國家自然科學基金面上項目、國家重點研發計劃課題、中科院信息化專項課題等。目前擔任中國運籌學會計算生物學分會理事,中國計算機學會高性能計算專委與生物信息學專委委員等職,曾為美國癌症基因組圖譜計劃(TCGA)多個癌種基因組數據分析工作組成員,國際癌症基因組聯盟(ICGC)泛癌種基因組數據分析工作組(PCAWG)成員。


https://hk.wxwenku.com/d/201140035