Перевод названия: Parallel repeats filtration algorithm of NGS Illumina data
Тип публикации: статья из журнала
Год издания: 2016
Идентификатор DOI: 10.17212/1727-2769-2016-4-7-21
Ключевые слова: параллельный алгоритм, кластеризация, биоинформатика, повторы, фильтрация, ассемблирование генома, Illumina, SPAdes, abyss, parallel algorithm, clustering, bioinformatics, repeats, filtration, Sequence assembly
Аннотация: В статье рассматривается подход предобработки фрагментов (ридов), полученных по NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. Основная идея - фильтрация ридов от повторяющихся элементов, не используемых в белковом анализе данных. Разработан параллельный вероятностный Показать полностьюалгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. Реализация алгоритма направлена на достижение максимального быстродействия. Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн пар нуклеотидных оснований (п.н.о.). Сборка генома осуществлялась геномным ассемблером SPAdes. Верификация проводилась методом выравнивания ридов РНК на полученную сборку. В результате работы программы достигнуто значительное (более 20 %) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0,005 %, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза. The approach on a preprocessing of NGS reads is considered which allows to reduce significantly a volume of input data of genome assembly for large genomes. The idea of the approach is a filtering of reads which are parts of repeated elements in a genome. These parts of the genome are not used in the analysis of proteins encoded by the genome. The parallel probabilistic filtering algorithm is implemented, which allows to reduce significantly a time of de novo assembly with a minimal loss of coding information. The implementation of the algorithm is adjusted for a maximal performance. The approach was tested on the model plant Arabidopsis Thaliana with genome size 157 mln b.p. SPAdes genome assembler was used for assembly tests. The transcriptome mapping was used for the verification of the result. The size of an input NGS data for the assembly was reduced for more than 20 % after the preprocessing, the running time of the assembler was reduced more than twice and the loss of coding information was 0,005 %.
Журнал: Доклады Академии наук высшей школы Российской Федерации
Выпуск журнала: № 4
Номера страниц: 99-110
ISSN журнала: 17272769
Место издания: Новосибирск
Издатель: Федеральное государственное бюджетное образовательное учреждение высшего образования Новосибирский государственный технический университет