国产成人在线二区_日韩激情视频一区二区三区_99国产乱码在线观看_久久精品熟女亚洲AV麻豆_欧美无人区码卡二三卡_222亚洲伊人成无码综合网_在线观看免费日韩毛片_午夜福利中文字幕国产精选_婷婷中文网综合在线播放_亚洲加勒比高清无码视频,国产农村妇女精品一二区,国产精品综合色区在线观看,91精品免费久久久久久久久,无码A∨高潮抽搐流白浆在线,欧美日韩精品一区二区三区不卡 ,99久久久国产免费观看精品_国产成人精品久久亚洲高清不卡p_国产日韩欧美另类制服丝袜_日韩人妻无码专区一本二本 ,亚洲精品成人片在线观看精品字幕,av喷水高潮喷水在线观看com,亚洲欧美日韩久久精品第一区,精品免费一区二区在线

利用百邁客云挖掘海量公共測序數(shù)據(jù)的價值

近年來,隨著測序技術(shù)的不斷升級,測序通量越來越高,同時測序成本直線下降,高通量測序技術(shù)逐漸應(yīng)用在科研、醫(yī)療、健康等各個研究領(lǐng)域。伴隨著大數(shù)據(jù)處理關(guān)鍵技術(shù)的突破和數(shù)據(jù)共享等契機(jī)的發(fā)展,大數(shù)據(jù)將在促進(jìn)生物學(xué)發(fā)展中發(fā)揮重要的作用。

測序技術(shù)在生物學(xué)研究中的發(fā)展分成三個階段:

第一個階段:Genome Center唱獨(dú)角戲。在這個方向剛興起的初期,人才儲備較少,產(chǎn)出數(shù)據(jù)的成本也很大,只有少量的國家支持的Genome Center可以從事這方面的系統(tǒng)研究,做生物信息開發(fā)的目的也比較明確,就是為了完成基因組中心所承擔(dān)的一些重大國家科研課題。

第二個階段:高通量測序技術(shù)的進(jìn)步和基因科技服務(wù)公司的崛起。當(dāng)很多科學(xué)家看到了有那么多空白的山頭待開發(fā),同時數(shù)據(jù)產(chǎn)出的成本也大幅降低情況下,科學(xué)家們對組學(xué)研究都躍躍欲試,科技服務(wù)的市場需求就出現(xiàn)了,同時經(jīng)過多年的人才儲備,也有了一定數(shù)量的技術(shù)人員,為科技服務(wù)公司的出現(xiàn)打下了人力基礎(chǔ)。這個階段生物信息開發(fā)注重的是“pipeline”,這樣能提高服務(wù)的效率,讓公司能更好的發(fā)展。

第三個階段:大數(shù)據(jù)的積累和豐富多樣的個性化分析需求。隨著NGS技術(shù)的不斷發(fā)展,測序成本不斷降低,數(shù)據(jù)積累也越來越快,同時隨著科學(xué)家對數(shù)據(jù)理解的深入,科學(xué)家的思路大大開拓,各種個性化的數(shù)據(jù)分析想法大量涌入腦海,“personalized”成為了這個階段的生物信息開發(fā)要滿足的關(guān)鍵需求。目前,測序技術(shù)在生物學(xué)研究中的應(yīng)用已經(jīng)逐漸進(jìn)入了第三個階段,基因大數(shù)據(jù)的價值已經(jīng)在很多方面超越了自己新測序項(xiàng)目的產(chǎn)出,同時傳統(tǒng)基因科技服務(wù)公司提供的“pipeline”的分析結(jié)果已越來越難滿足科研工作者的需求,一方面是分析工具和個性化的分析需求得不到滿足;另一方面,孤立的單個項(xiàng)目的數(shù)據(jù)分析形式越來越不能滿足科研的需要。能不能利用可視化的分析工具進(jìn)行基因大數(shù)據(jù)的深入挖掘成為了能否在基因研究2.0時代成為佼佼者的關(guān)鍵因素。

測序數(shù)據(jù)量呈指數(shù)級增長

Nature Reviews Genetics報道稱,目前已發(fā)表的高通量測序數(shù)據(jù)利用率不足20%,很多有價值的信息被研究者所忽略,基于公共數(shù)據(jù)挖掘和分析將成為科學(xué)研究發(fā)展的趨勢。例如,2015年?Nature Genetics發(fā)表的文章通過分析正常組織和各種常見類型癌癥組織7256個轉(zhuǎn)錄組測序樣本,43T轉(zhuǎn)錄組數(shù)據(jù)中鑒定得到58000個lncRNA;發(fā)現(xiàn)上千種lncRNAs 在癌癥組織中特異表達(dá),可以作為新的腫瘤標(biāo)記物。2014年?Genome Biology 發(fā)表的文章通過研究13種組織和30個玉米轉(zhuǎn)錄組數(shù)據(jù)中LncRNAs的表達(dá),鑒定出了20163個推測的LncRNAs,?并對LncRNAs的組織特異性的表達(dá)調(diào)控網(wǎng)絡(luò)進(jìn)行了解析。最有代表性的是最大的癌癥基因信息的數(shù)據(jù)庫,Cancer Genome Atlas/TCGA蘊(yùn)藏著難以想象的寶貴信息,圍繞TCGA已經(jīng)有很多重量級文章出現(xiàn),PubMed收錄的利用其進(jìn)行數(shù)據(jù)挖掘發(fā)表的文章已經(jīng)超過1500篇,而且對它的使用必然愈發(fā)重要。可以說,已經(jīng)公開的高通量測序數(shù)據(jù)如同“金礦”一般,具有極高的學(xué)術(shù)價值。然而,科研工作者一方面不方便獲取符合自己需求的數(shù)據(jù),數(shù)據(jù)的整合、分類、下載也會耗費(fèi)較多的精力;另一個方面,缺少一個高效、易用的數(shù)據(jù)分析平臺,自主搭建一個大數(shù)據(jù)分析平臺,無論是硬件、軟件,還是人力、財力都是巨大的挑戰(zhàn)。這兩個因素導(dǎo)致大量的基因數(shù)據(jù)沉睡在哪里,不能很好的挖掘出其中的價值。

圖1. 整合6503個來源18個器官的人類RNA-seq公共數(shù)據(jù)集,分開組裝->混合組裝(Meta-assembly)->merge后得到384,066個高可信度人類轉(zhuǎn)錄本,用于后續(xù)功能分析。

Iyer MK et al. The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015

圖2. 整合171個棉屬RNA-seq公共數(shù)據(jù)集,基于海島棉基因組進(jìn)行棉屬轉(zhuǎn)錄本重構(gòu),基于重構(gòu)的轉(zhuǎn)錄本序列信息,從中鑒定得到35,268個lncRNA,用于后續(xù)棉纖維發(fā)育相關(guān)lncRNA鑒定。

Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015

2016年3月,作為BMKCloud公共數(shù)據(jù)庫項(xiàng)目的一部分,涵蓋動物、植物、微生物的高通量測序數(shù)據(jù)庫正式上線。百邁客云的合作伙伴現(xiàn)在可以在BMKCloud上免費(fèi)訪問該數(shù)據(jù)庫了。BMKCloud上將數(shù)10PB規(guī)模的高通量測序數(shù)據(jù)作為共享資源,用戶無需下載數(shù)據(jù),直接在BMKCloud上利用分析平臺進(jìn)行分析,加速了利用公共數(shù)據(jù)進(jìn)行研究和探索的步伐。BMKCloud公共數(shù)據(jù)庫項(xiàng)目的目標(biāo)是建立植物、動物、細(xì)胞系、微生物、宏基因組、疾病高通量測序數(shù)據(jù)庫以及腫瘤高通量測序數(shù)據(jù)庫。目前,動物、植物、微生物高通量測序數(shù)據(jù)庫正式上線。每個數(shù)據(jù)庫中都收集和整理了全世界公開發(fā)表的各個物種高通量測序的原始數(shù)據(jù)及相關(guān)論文,為開展各個領(lǐng)域的研究提供準(zhǔn)確、全面、最新的測序原始數(shù)據(jù)和相應(yīng)文獻(xiàn)的整合檢索平臺,并與各項(xiàng)可視化分析流程無縫對接。BMKCloud公共數(shù)據(jù)庫項(xiàng)目的數(shù)據(jù)來源是NCBI的SRA、GEO等高通量測序的公共數(shù)據(jù),數(shù)據(jù)來源可靠,涵蓋重測序、轉(zhuǎn)錄組等各個研究領(lǐng)域(以水稻為例,目前已收錄的基因組數(shù)據(jù)集29910個,轉(zhuǎn)錄組數(shù)據(jù)集2100個)。

圖3. BMKCloud公共數(shù)據(jù)庫中常見研究物種數(shù)據(jù)收錄

BMKCloud公共數(shù)據(jù)庫項(xiàng)目建立的目的也是讓科研工作者更高效、更快速的利用公共數(shù)據(jù),提高公共數(shù)據(jù)的利用效率。使大數(shù)據(jù)的挖掘不僅僅局限于癌癥的研究,而能夠在動物、植物、微生物等研究中都得到很好的利用。科研工作者可以根據(jù)物種、類型、研究性狀、研究結(jié)果、測序方法等設(shè)置快速檢索感興趣的數(shù)據(jù),所有數(shù)據(jù)均可一鍵導(dǎo)入平臺中“我的數(shù)據(jù)”中保存。然后利用百邁客云提供的20大數(shù)據(jù)分析平臺和100多款工具進(jìn)行數(shù)據(jù)的可視化深度挖掘,高效、快速的挖掘基因大數(shù)據(jù)。

圖4. 公共數(shù)據(jù)分析傳統(tǒng)方案 vs BMKCloud解決方案

百邁客云(BMKCloud)是一個基于基因大數(shù)據(jù)的挖掘,管理和科研協(xié)作的整合平臺。可以使不具備生物信息分析基礎(chǔ)的用戶,快速掌握獨(dú)立的生物信息分析能力,實(shí)現(xiàn)高通量數(shù)據(jù)的深度解讀。百邁客云提供:20大生物信息分析平臺(重測序、外顯子、轉(zhuǎn)錄組、非編碼RNA等),基本分析+個性化分析,輕松實(shí)現(xiàn)原始數(shù)據(jù)到生物學(xué)問題準(zhǔn)確解讀的轉(zhuǎn)化;100多款數(shù)據(jù)分析工具,涵蓋數(shù)據(jù)處理、文件操作、序列比對、基因注釋、進(jìn)化分析和圖表制作等,滿足個性化數(shù)據(jù)分析需求。百邁客生物云平臺,用戶定位是非生物信息背景的生物學(xué)家,20145月開始開放試用到201510月份正式商用。對于廣大的科研用戶而言,百邁客生物云是一個完整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺賬號,就擁有了屬于自己的生物信息分析平臺,百邁客云已經(jīng)成為“基因科技服務(wù)2.0時代”(基因大數(shù)據(jù)可視化即時自主分析時代)科研工作者受歡迎的生物云平臺。

 

附1公共數(shù)據(jù)整合分析經(jīng)典思路總結(jié)部分文獻(xiàn)

?

發(fā)育調(diào)控研究中,利用公共數(shù)據(jù)完善取樣時間點(diǎn)或取樣部位

  1. YU C ?et al. Transcriptome dynamics of developing maize leaves and genomewide prediction of cis elements and their cognate transcription factors. Proc Natl Acad Sci. 2015
  2. Patil G. ?et al. Soybean (Glycine max) SWEET gene family: insights through comparative genomics, transcriptome profiling and whole genome re-sequence analysis. BMC Genomics.2015

?

比較轉(zhuǎn)錄組分析中,補(bǔ)充其他物種、組織部位、發(fā)育時間點(diǎn)等相關(guān)數(shù)據(jù)

  1. Fu Y et al. ?Dissection of early transcriptional responses to water stress in Arundo donax L. by unigene-based RNA-seq. ?Biotechnol Biofuels. 2016
  2. Lynch VJ ?et al. Ancient transposable elements transformed the uterine regulatory landscape and transcriptome during the evolution of mammalian pregnancy. Cell Rep. 2015
  3. Analysis of Bos taurus and Sus scrofa X and Y chromosome transcriptome highlights reproductive driver genes. ??Oncotarget. 2017

?

ncRNR-mRNA聯(lián)合分析中,補(bǔ)充mRNA或者ncRNA數(shù)據(jù)

  1. Xu W ?et al. ?Genomic DNA Methylation Analyses Reveal the Distinct Profiles in Castor Bean Seeds with Persistent Endosperms. Plant Physiol. 2016
  2. Liu X et al. ??MicroRNA-mRNA regulatory networking fine-tunes the porcine muscle fiber type, muscular mitochondrial respiratory and metabolic enzyme activities. ?BMC Genomics. 2016

?

轉(zhuǎn)錄本構(gòu)建項(xiàng)目中,整合大量公共數(shù)據(jù),構(gòu)建較為全面的物種轉(zhuǎn)錄本序列文庫

  1. Wang M et al. ?Long noncoding RNAs and their proposed functions in fibre development of cotton (Gossypium spp.). ?New Phytol. 2015
  2. Iyer MK et al. ???The landscape of long noncoding RNAs in the human transcriptome. ??Nat Genet. ?2015

 

立即體驗(yàn)



崇左市| 兴城市| 建瓯市| 滨州市| 静宁县| 女性| 上栗县| 延庆县| 南涧| 瓦房店市| 佛教| 承德县| 漳州市| 白水县| 乐昌市| 建湖县| 威海市| 盈江县| 桑植县| 石阡县| 通化县| 邓州市| 天峨县| 中方县| 巨鹿县| 宁化县| 南岸区| 内江市| 黄浦区| 卓资县| 阳东县| 体育| 乡宁县| 恩施市| 屏东县| 来安县| 义乌市| 库尔勒市| 永安市| 镶黄旗| 乌恰县|