Перевод названия: Classification of nucleotide sequences over their frequency dictionaries reveals a relation between the structure of sequences and taxonomy of their bearers
Тип публикации: статья из журнала
Год издания: 2003
Ключевые слова: нейронные сети
Аннотация: Цель работы - изучение связи между структурой нуклеотидной последовательности и таксономическим положением ее носителя. Изучены классификации нуклеотидных последовательностей бактериальных 16S РНК. Показано существование корреляции между таксономическим положением носителей и информационной структурой нуклеотидных последовательностПоказать полностьюей бактериальных 16S РНК. Две последовательности считались близкими по структуре, если близки их частотные словари в евклидовой метрике. Предложена процедура преобразования частотного словаря, которая выявляет особенности информационной структуры символьной последовательности. Проведено сравнительное исследование классификаций по реальным и преобразованным частотным словарям. Выделены информационно значимые сайты - главные факторы отличия - для полученных классов. Классификация реальных частотных словарей толщины 3 наилучшим образом коррелирует с родом: род, как правило, целиком включен в один класс и исключения редки. В результате иерархической классификации по преобразованным частотным словарям на каждом этапе выделялись одна-две таксономические группы. Структурные различия полученных классов заключены в редком или, наоборот, частом (по сравнению с ожидаемым) появлении некоторых слов, количество которых невелико. Classification of 16S RNA sequences over their frequency dictionaries, both real ones, and transformed ones was studied. Two entities were considered to be close each other from the point of view of their structure, if their frequency dictionaries were close, in Eucledian metric. A transformation procedure of a frequency dictionary has been implemented that reveals the peculiarities of information structure of a nucleotide sequence. A comparative study of two classification developed over the real frequency dictionary vs. that one developed over the transformed frequency dictionary was carried out. The strong correlation is revealed between the classification and the taxonomy of 16S RNA bearer. For the classes isolated, the information valuable words were identified. These words are the main factors of a difference between the classes. The frequency dictionaries containing the words of the length 3 exhibit the best correlation between a class and a genus. A genus, as a rule, is included into the same class, and the exclusion are sporadic. A development of hierarchy classification over the transformed frequency dictionaries separated one or two taxonomy groups, as each stage of classification. The unexpectedly frequent, or contrary, unexpectedly rare occurred of words (of the length 3) in entities under consideration make the structure difference between the classes of the nucleotide sequences.
Журнал: Журнал общей биологии
Выпуск журнала: Т. 64, № 1
Номера страниц: 65-77
ISSN журнала: 00444596
Место издания: Москва
Издатель: Федеральное государственное унитарное предприятие Академический научно-издательский, производственно-полиграфический и книгораспространительский центр Наука