Складання транскрипту Де Ново та відкриття гена м’ясистого стебла Cistanche Deserticola-Ⅰ

Sep 18, 2024

Фони

Cistanche deserticola — повністю нефотосинтетична паразитична рослина з великою лікувальною цінністю, яка в основному поширена в пустелі Північно-Західного Китаю. Його висушене м'ясисте стебло є важливим тонізуючим засобомтрадиційна китайська медицинаголовним чином у покращенні чоловічої статевої функції та зміцненні імунітету, але було проведено мало механічних досліджень частково через брак геномних і транскриптомних ресурсів.

Natural cistanche tubulosa

НАТУРАЛЬНА КИСТАНКЕ ТУБУЛОЗА КИТАЙСЬКА ТРАДИЦІЙНА МЕДИЦИНА PHGS75% ECH 30% ACT 12%

Результати

У цьому дослідженні ми провели глибоке секвенування транскриптомів у м’ясистому стеблі C. deserticola, і близько 80 мільйонів зчитувань було згенеровано за допомогою парного секвенування Illumina на платформі HiSeq2000. Використовуючи асемблер trinity, ми отримали 95 787 послідовностей транскриптів із довжиною транскриптів від 200 bp до 15 698 bp, із середньою довжиною 950 основ і довжиною N50 1519 основ. 63 957 транскриптів було ідентифіковано як активно експресовані з FPKM більше або дорівнює 0,5, у яких 30 098 транскриптів були анотовані описами генів або термінами генної онтології за допомогою аналізу подібності послідовностей у кількох публічних базах даних (Uniprot, NR та Nt в NCBI та KEGG) . Крім того, ми ідентифікували ключові гени ферментів, які беруть участь у біосинтезі лігніну та фенілетаноїдних глікозидів (PhG), які, як відомо, є основними активними інгредієнтами. Чотири гени фенілаланін-аміако-ліази (PAL), першого ключового ферменту в біосинтезі лігніну та PhG, були ідентифіковані на основі порівняння послідовностей та філогенетичного аналізу. Також вперше запропоновано два шляхи біосинтезу ФГ.

Висновки

Загалом ми завершили глобальний аналіз транскриптома м’ясистого стебла C. deserticola за допомогою технології RNA-seq. Набір генів ферментів, пов’язаних з біосинтезом лігніну та фенілетаноїдних глікозидів, було ідентифіковано зі зібраних і анотованих транскриптів, а також було передбачено сімейство генів PAL. Дані про послідовність цього дослідження стануть цінним ресурсом для проведення майбутніх досліджень біосинтезу фенілетаноїдних глікозидів і функціональних геномних досліджень цієї важливої ​​лікарської рослини.

вступ

C. deserticola — це всесвітній рід багаторічних рослин пустелі з родини Orobanchaceae, повністю нефотосинтетичний вид і зазвичай вирощує підземні голопаразитичні рослини. Паразитує на коренях псамофіта Haloxylon ammodendron (Chenopodiaceae), який мешкає переважно в пустелях і напівпустелях через високу стійкість до посухи та засолення. C. deserticola демонструє сильну стійкість до суворих умов навколишнього середовища і в основному поширена в північно-західному Китаї, особливо у Внутрішній Монголії, Ганьсу та Сіньцзяні. Останніми роками він вважається диким видом, що перебуває під загрозою зникнення, через збільшення споживання людиною. C. deserticola, який часто називають пустельним женьшенем, широко відомий як пустельна заразиха, а висушене м’ясисте стебло широко використовувалося як традиційно важливий тонізуючий засіб у Китаї та Японії протягом багатьох років. Він був спочатку записаний у Shen Nong Ben Cao Jing (Словник китайської Materia Medica, 1977) приблизно 1800 років тому і вважався одним із основних джерелКитайська лікарська трава цистанхея.

Chinese cistanche tubulosa

НАТУРАЛЬНА ЦИСТАНКЕ ТУБУЛОЗА ДЛЯ ПОКРАЩЕННЯ СТАТЕВОЇ ФУНКЦІЇ PHGS75% ECH 30% ACT 12%

Екстракти C. deserticola мають широкий спектр лікувальних функцій, особливо для покращення статевої функції, тонізування нирок, захисту печінки, аперитивної активності, покращення пам’яті, імуномодулюючої, антиоксидантної, протизапальної, противірусної активності тощо. Основними біоактивними компонентами C. deserticola є фенілетаноїдні глікозиди (PheGs, PhGs). На сьогоднішній день із сукулентного стебла C.deserticola виділено понад 20 фенілетаноїдних глікозидів. Серед нихактеозид і ехінакозидє двома основними компонентами зі значною фармакологічною активністю та задокументовані як стандарти якості C. deserticola в Китайській фармакопеї (видання 2005 та 2010 років). Трьома хімічними компонентами PhGs є органічна кислота, сахарид і фенілетаноїд, однак деталі, що стосуються шляхів біосинтезу фенілетаноїдів, залишаються погано вивченими в C. deserticola.

Незважаючи на комерційне та медичне значення C. deserticola, геномні та транскриптомні дані цього виду дуже обмежені. У базі даних NCBI немає доступних EST, і повна інформація про геном цього виду залишається недоступною, за винятком послідовності геному хлоропласту. Обмежені транскриптомні дані перешкоджають вивченню механізмів біосинтезу PhG. Технологія RNA-seq може генерувати послідовності експресованих частин цільового геному та ідентифікувати гени [18] за допомогою технологічних платформ NGS (таких як Applied Biosystems SOLiD, Illumina HiSeq і Roche 454). Він стає все більш популярним у складанні транскриптомів de novo, оскільки це економічно ефективний і потужний підхід із високою роздільною здатністю та широким динамічним діапазоном, особливо тому, що він має перевагу для дослідження стенограм з низьким вмістом. Завдяки різноманітним перевагам RNA-seq є особливо привабливим для немодельних організмів з обмеженими генетичними ресурсами. Однак детальних досліджень транскриптому C. deserticola за допомогою РНК-секв.

У цьому дослідженні ми глобально секвенували транскриптом стебла C. deserticola за допомогою платформи Illumina Hiseq2000 і отримали необроблені дані 7,9G. Шляхом складання та анотації ми визначили гени, що беруть участь у біосинтезі PhG, і гени, відповідальні за весь біосинтез лігніну. Наш аналіз RNA-seq створив перший консенсусний транскриптом C. deserticola та дав нові знання про повне розуміння медичної цінності C. deserticola. Крім того, описаний тут метод можна широко застосовувати до профілювання транскриптомів, щоб полегшити відкриття генів, залучених у шляхи біосинтезу специфічних лікарських компонентів в іншій лікарській рослині з дуже обмеженими геномними ресурсами.

Матеріали та методи

Збір рослинного матеріалу

Свіже соковите стебло C. deserticola на стадії розкопок було зібрано з рослинної бази в місті БаянХот Ліги Альша у Внутрішній Монголії на північному заході Китаю. Дозвіл на збір було отримано від власника (HongKui CongRong Group) заводської бази. Зразок ваучера було збережено в Основному геномному центрі Пекінського інституту геноміки Китайської академії наук. Після очищення соковиті тканини стебла розрізали на дрібні шматочки та негайно заморожували в рідкому азоті, а потім зберігали при -80 градусах до подальшої обробки.

Екстракція РНК, побудова бібліотеки кДНК і секвенування Illumina

Загальну РНК екстрагували з сукулентного стебла за допомогою реагенту TRIzol (Invitrogen Inc., Каліфорнія, США) відповідно до інструкцій виробника. Отримані зразки обробили ДНКазою I для видалення будь-якої геномної ДНК. Екстраговані РНК кількісно визначали за допомогою біоаналізатора Agilent 2100 (Agilent Technologies) і перевіряли на цілісність за допомогою денатуруючого електрофорезу в агарозному гелі з фарбуванням бромістим етидієм. Зразки РНК із співвідношенням A260/A280 між 1,9 і 2,1, співвідношенням РНК 28S:18S вище 1,0 і числами цілісності РНК (RIN) -8.5 були використані в наступних аналізах.

Бібліотеки RNA-seq були створені за допомогою наборів Illumina Truseq RNA Sample Preparation Kits. Полі(А)+ РНК виділяли із загальної РНК за допомогою кульок Dynal ligo(dT)25 відповідно до інструкцій виробника. Після очищення додавали буфер для фрагментації, щоб розбити мРНК на короткі фрагменти. Першу ланцюг кДНК синтезували з використанням цих коротких фрагментів як матриць разом із зворотною транскриптазою SuperScript III і випадковим гексамерним праймером N6. Потім другий ланцюг кДНК синтезували з використанням буфера, dNTP, РНКази H і ДНК-полімерази I. Отриману дволанцюгову кДНК піддавали кінцевій репарації за допомогою ДНК-полімерази T4, фрагмента Кленова ДНК-полімерази I та полінуклеотидкінази T4 і лігували до адаптери з використанням ДНК-лігази Т4. Ліговані з адаптером фрагменти очищали за допомогою набору для екстракції ПЛР QiaQuick і елюювали EB-буфером. Після аналізу за допомогою електрофорезу в агарозному гелі відповідні фрагменти були обрані як матриці для ПЛР-ампліфікації. Секвенування отриманої бібліотеки кДНК проводили за допомогою системи Illumina HiSeq 2000.

Збірка транскриптів de novo та кількісна оцінка експресії генів

Необроблені зчитування, створені в результаті секвенування, очищали шляхом видалення послідовностей адаптерів (ATCTCGTATGCCGTC) за допомогою внутрішнього методу. Потім ми провели процес суворої низькоякісної фільтрації. По-перше, основи з показником якості phred, нижчим за 20, будуть обрізані з 3'-кінця послідовності, доки не натраплять на одну базу з вищою якістю (більше або дорівнює 20). Якщо довжина зчитування була меншою за 50 bp, вона буде відкинута. По-друге, зчитування буде додатково відфільтровано за критерієм, що 70% баз в одному зчитуванні мають оцінки високої якості (більше або дорівнює 20). По-третє, для подальшої збірки використовувалися тільки парні зчитування. Складання стенограми De Novo було проведено за допомогою випуску Trinity _20130216 [30], який складався з трьох послідовних програмних модулів: Inchworm, Chrysalis і Butterfly. Параметри складання було встановлено так:-seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

Для кількісної оцінки кількості транскриптів секвеновані зчитування кінців пари були повторно вирівняні до зібраних стенограм за допомогою сценарію в Trinity. Зіставлені зчитування використовували для кількісного визначення за допомогою програмного забезпечення RSEM (RNA-Seq by Expectation Maximization). Рясність генів або ізоформ була представлена ​​значенням фрагмента на кілобазу транскрипту на мільйон картованих фрагментів (FPKM), ті транскрипти зі значенням FPKM, що дорівнювало або перевищувало 0.05, визначалися як експресовані.

Функціональна анотація виражених транскриптів

Немає жодних наборів анотацій генів C. deserticola, за винятком геному хлоропласту [1]. Ми анотували виражені стенограми, порівнявши їх із Genbank Nt, Genbank Nr і TAIR10_ pep_20101214_оновленими наборами даних окремо за допомогою програми BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Генна онтологія та анотація шляху KEGG Шляхом вирівнювання подібності послідовності до бази даних Uniprot ( анотація генної онтології (GO) усіх зібраних стенограм була отримана за допомогою файлу асоціації, завантаженого з (ftp://ftp.ebi.ac.uk/pub/ бази даних/GO/UNIPROT/gene_асоціація_uniprot.gz). Категорії CC, BP ​​та MF окремо.

Інформація про шлях KEGG була призначена для всіх передбачених білкових послідовностей за допомогою онлайн-інструменту KAAS (KEGG Automatic Annotation Server) [34]. Послідовності у форматі fasta були подані на запит KAAS, і отримані файли інформації про всі шляхи, пов’язані з транскриптомом стебла C. deserticola, були завантажені. 13 наборів генних даних рослинних організмів у KEGG були використані для анотації за допомогою методу BBH (bi-directional best hit).

cistanche tubulosa extract

НАТУРАЛЬНИЙ ЕКСТРАКТ ЦИСТАНКЕ TUBULOSA PHGS75% ECH 30% ACT 12%

RT-qPCR аналіз

Після розщеплення ДНКазою I приблизно 5 мкг загальної РНК було перетворено в кДНК першого ланцюга за допомогою реакції зворотної транскрипції з праймерами oligo(dT)15 і системою зворотної транскрипції GoScript (Promega). Потім продукти кДНК розбавляли 10-кратно деіонізованою водою без нуклеаз перед використанням як матриці в ПЛР у реальному часі. Специфічні кДНК ампліфікували системою GoTaq 2-Step RT-qPCR (Promega) в об’ємі 20 мкл. ПЛР-ампліфікацію проводили при температурі відпалу 60 градусів за допомогою 7500 Real-Time PCR Detection System (Applied Biosystems) відповідно до інструкцій виробника. Відносну кількість транскриптів розраховували методом порогів порівняльного циклу з використанням гена "comp10579_c0" як внутрішнього стандарту за допомогою програмного забезпечення 7500 Manager.

Пари праймерів для RT-PCR були розроблені на основі онлайн-програмного забезпечення (http://primer3.ut.ee/) і перераховані в наборі даних S1.

Результати

Секвенування РНК і збірка транскриптома de novo м'ясистого стебла C. deserticola

Стебло C. deserticola широко використовувалося як традиційно важливий тонізуючий засіб у Китаї та Японії протягом багатьох років. Щоб отримати глобальний огляд експресії генів у м’ясистому стеблі C. deserticola, ми зібрали зразки стебла C. deserticola тієї самої рослинної основи у 2013 та 2014 роках відповідно. Загальні РНК екстрагували, а polyA+ РНК очищали для конструювання бібліотек РНК-seq з парними кінцями. 79 433 734 і 86 019 176 парних зчитувань, що відповідають майже 8 мільярдам і 8,6 мільярдам основ послідовності, були отримані за допомогою секвенування Illumina HiSeq 2000

image

платформа у зразках 2013-рік і 2014-рік (Таблиця 1). Після видалення послідовностей адаптерів і фільтрації низькоякісних зчитувань (див. подробиці в методах), 64 831 040 високоякісних зчитувань кінця пари в 2013-річній вибірці було використано для складання транскриптома de novo. Використовуючи ассемблер послідовностей Trinity [30], було згенеровано 51 719 генів і 95 787 послідовностей транскриптів із довжиною транскриптів від 200 до 15 698 п.н. Середня довжина зібраних транскриптів становить 950 основ, а довжина N50 – 1519 основ. Кількість транскриптів різної довжини виявила, що 57,32% зібраних транскриптів мали приблизно 500 bp або більше (рис. 1A). Високоякісні зчитування кінця пари в 2014-річній вибірці були зіставлені зі зібраним транскриптомом. Крім того, ми виявили, що кількість транскриптів для кожного зібраного гена змінювалася, і 69% генів з однією експресованою ізоформою, тоді як 31% генів експресували два або більше транскриптів (рис. 1B).

Кількісна оцінка експресії та функціональна анотація зібраних транскриптів

Велику кількість генів або транскриптів було визначено кількісно за допомогою пакета RSEM, у якому секвеновані зчитування були повторно вирівняні до зібраних генів або послідовностей транскриптів за допомогою Bowtie, і ці картовані зчитування використовувалися для кількісного визначення. Було розраховано значення FPKM для кожного гена або транскрипту, і, нарешті, ми ідентифікували 63 957 і 52 857 активно експресованих транскриптів (значення FPKM більше або дорівнює 0.5) у зразках м’ясистого стебла C. deserticola в 2{{17} }13 та 2014 відповідно. 44 776 транскриптів (70,01% у 2013--річній вибірці, 84,71% у 2014--річній вибірці) були зазвичай експресовані у двох повторах, і кореляція (коефіцієнт кореляції Пірсона: 0,91979) даних про їх експресію була показано на рисунку S1. Необроблені дані секвенування було завантажено в базу даних NCBI SRA (номер доступу: SRX857402 і SRX858938). Для подальшого аналізу ми використали експресовані гени, ідентифіковані у 2013-річній вибірці. Інформацію про функціональну анотацію для всіх експресованих транскриптів було отримано за допомогою двох методів. По-перше, усі експресовані транскрипти були вирівняні відповідно до відомих баз даних нуклеотидів (GenBank nt) і пептидних послідовностей (GenBank nr і пептид Arabidopsis) окремо за допомогою алгоритму BLAST. З 63 957 виражених транскриптів,

image

29 220 (45,7%) були анотовані та показали гомологію з послідовностями в будь-якій із трьох предметних баз даних із пороговим значенням E 1e-20. Тим часом, регіони кодування-кандидата для всіх експресованих послідовностей транскриптів були передбачені за допомогою програмного забезпечення TransDecoder, а найдовші ORF для кожного транскрипту використовувалися для пошуку домену Pfam. У результаті 21 358 (33,4%) транскриптів було анотовано на основі бази даних Pfam. Загалом 30 098 (47,1%) транскриптів було значно зіставлено з відомими генами в публічних базах даних шляхом поєднання двох методів, наведених вище. Повний список виражених стенограм з анотацією функції було показано в додаткових даних (набір даних S2).

Ми дослідили 20 найбільш високоекспресованих транскриптів (Таблиця 2), що відповідають 18,99% усіх зчитувань секвенування, і виявили, що більшість із них є генами, що відповідають на абіотичні

image

стресовий стимул. Дегідрин (DHNs), клас гідрофільних і термостабільних стресових білків з великою кількістю заряджених амінокислот, які належать до сімейства пізнього ембріогенезу групи II (LEA), є геном з найбільшою експресією. Три різні транскрипти дегірину (комп28713_c0_seq1/2/4) були виявлені як високоекспресовані в м’ясистих стеблах, які можуть брати участь у захисті клітин від пошкодження, спричиненого стресом від посухи. Інші пов’язані зі стресом гени, такі як білок теплового шоку, білок, пов’язаний з патогенами, і металотіонеїн, також виявили високу експресію, що може бути пов’язано з його важким середовищем виживання. Крім того, деякі конститутивні гени, включаючи ген 26S рибосомальної РНК (комп22329_c2_seq1), ауксин-репресований/асоційований зі спокою білок (комп20999_c0_seq1), Фактор АДФ-рибозилювання (комп20499_ c0_seq1) також високо транскрибувався.

Cistanche tubulosa extract

НАТУРАЛЬНА ЦИСТАНКЕ ТУБУЛОЗА ДЛЯ ПІДВИЩЕННЯ ІМУНІТЕТУ PHGS75% ECH 30% ACT 12%

drk-green-rounded-corner-button-buy-now-web


Вам також може сподобатися