ABC Chemistry logo ABC Chemistry / ИТ в химии : Практикум. Ч. 2. : Оглавление / 3. Линейные нотации. CAS RN, SMILES, InChI

3. Линейные нотации. CAS RN, SMILES, InChI




Минилекция: Линейные нотации. CAS RN, SMILES

Минилекция: Линейные нотации. InChI, InChiKey





а) Регистрационные номера химических веществ. CAS RN

Одно и то же вещество можно назвать или письменно отобразить многочисленными способами (какими?).
Проблема однозначности имени вещества решалась и решается в химии разными путями. Один из них – присвоение веществу регистрационного номера.
Метод регистрации имеет и плюсы, и минусы.
С одной стороны, регистрационный номер действительно может служить уникальным идентификатором; с другой стороны, в нем совершенно не отражается состав вещества.
Главное же - понятие "вещество" настолько многогранно, что один-единственный регистрационный номер далеко не всегда пригоден при систематизации сведений о реальном химическом объекте.

В мире отсутствует единая система регистрации химических веществ; практически каждая большая база данных осуществляет регистрацию в пределах своего информационного массива.

Идентификационные коды полезны в информационном поиске – но как правило только внутри конкретного массива.
У каждого правила должно быть исключение; в данной области приятным исключением являются регистрационные номера Chemical Abstracts Service.

Информация о CAS Registry Numbers.

Самостоятельная работа.

Изучите информационный материал о CAS RN (ссылку см. выше).


Если речь идет о веществах, достаточно распространенных, для соотнесения CAS RN и названия вещества рекомендуется обращаться к сайтам, где содержится официальная информация:

Common Chemistry

Wikipedia
Википедия и "официальная информация"? Это шутка или опечатка?

Кроме того, верные коды CAS RN можно получить в тех солидных справочных научных базах данных, где материал проходит стадию тщательного рецензирования перед опубликованием.
Для решения нашей задачи удобны, в частности:

NIST Chemistry WebBook

Указатель к справочнику Landolt-Bornstein

Контрольное задание 1.

В каждом из четырех приведенных выше источников найдите CAS RN воды (water).
Есть ли расхождения в полученных ответах?


В ЕС существует своя система регистрации химических товаров; соответствующие коды записываются в формате EC # (в ходу и прежние коды EINECS #, ELINCS #).
Первоисточником кодов EC number мы будем считать базу данных, расположенную на сайте European Chemicals Agency (ECHA).
Бланк Search for Chemicals находится на странице:

Information on Chemicals - ECHA.

Контрольное задание 2.

Найдите EC number воды в базе данных ECHA.
Правильный ли код CAS RN попал в эту базу данных?


А теперь познакомимся с еще одним важным информационным источником:

ChemSpider
http://www.chemspider.com/

В 2009 г. этот прежде частный сайт перешел в собственность Royal Society of Chemistry. RSC создает здесь крупнейший онлайновый центр структурной и спектральной информации.
База данных ChemSpider постоянно растет, расширяется инструментарий сайта, что не может не радовать пользователей.
С другой стороны, подход ChemSpider к формированию базы данных должен того же пользователя настораживать.
ChemSpider – характерный представитель Web 2.0. Его база данных - это сумма многочисленных коммерческих и некоммерческих баз данных плюс репозиторий, наполняемый онлайновым сообществом; отсюда вытекают проблемы редактирования, рецензирования и расплывчатая достоверность.

Контрольное задание 3.

Используя простейший бланк, проведите поиск по термину "вода".
Изучите структуру страницы результатов поиска.
В результатах поиска откройте раздел Names and Identifiers – здесь приведено то многообразие имен и кодов, под которыми воду можно обнаружить в литературе.
В списке отражены результаты работы онлайновых рецензентов: видно, что ими проверено, что – нет (кстати, а откуда это видно?).
Правильные ли коды CAS RN и EC # приведены для воды?
Пояснение: на этом сайте [RN] означает CAS RN, а [EINECS] - это EC #.
Если бы вы были экспертом ChemSpider, какие исправления вы бы сделали в разделе Names and Synonyms?


Контрольное задание 4.

Сколько упаковок воды, обедненной дейтерием, можно купить у фирмы Sigma-Aldrich, имея в своем распоряжении 25 евро?
При поиске в каталоге Sigma-Aldrich используйте CAS RN воды в качестве запроса.





б) SMILES

Линейная нотация SMILES отображает химическую структуру в форме одномерной строки символов.

Основные правила формулирования SMILES рассматривались на лекции.

Упражнение.

Не прибегая к помощи компьютера, сформируйте коды SMILES для каждого из указанных ниже веществ и запишите эти коды на листе бумаги.

А теперь проведите самопроверку.

Вызовите на экран апплет PubChem Sketcher.
(С этим апплетом базы данных PubChem мы еще встретимся в будущем, а теперь освоим одну из его функций).

Апплет способен быстро генерировать структурную формулу по заданному коду SMILES.
Проверим, правильно ли вы составили SMILES при выполнении последнего упражнения.

Записывайте код SMILES и после нажатия клавиши "Ввод" получайте структурную формулу:

Сравнивайте задание и сгенерированный результат. Должно совпадать!




Использование кода SMILES в поисковом запросе

Контрольное задание 5.




в) InChI и InChIKey

Линейная нотация InChI разрабатывается под эгидой ИЮПАК.

Структура InChI рассматривалась на лекции.

Упражнения и контрольное задание 6.

Ссылка на апплет, который упоминается в PDF-документе:
PubChem Sketcher.




Вернитесь к PubChem Sketcher и проанализируйте, какие типы линейных нотаций этот апплет может генерировать по известной двумерной структуре (в качестве подопытного объекта используйте все ту же простейшую аминокислоту).
Примените полученные знания для выполнения следующего задания.

Контрольное задание 7.

Сколько химических объектов в базе данных ChemSpider имеет точно такой же структурный остов, какой имеется у простейшей аминокислоты?
Извлеките список объектов, используя InChIKey, и предъявите преподавателю.



А.А. Рагойша
Белорусский государственный университет
2010-2019