Разметка и TEI

Анализ текста

Сначала читаем документ в pdf-файле

Осмысляем структуру прочитанного текста.

Вначале мы видим археографический заголовок, т.е. информацию о том, что это за документ. Этот тип данных обычно называют метаданными. Это данные про сам документ, помогающие его идентифицировать, и про то, как документ представлен в том издании, по которому мы оцифровываем наш материал (Акты социально-экономической истории… или АСЭИ)

Итак,

Разметка структуры документа

Шпаргалка по разметке отдельным файлом вот тут.

Создаем TEI документ и выделяем в нем две части: TEI-Header (там мы сложим наши метаданные) и собственно TEXT. В xml документе все наши размышления оформляются в виде комментариев с помощью такой разметки

<!-- >

Такую разметку компьютерная программа, работающая с xml, читать не будет, и мы можем туда писать все, что нам нужно, чтобы было понятней, что мы делаем.

<?xml version="1.0" encoding="UTF-8"?><!-- здесь мы говорим, что мы делаем документ формата xml>

<TEI><!-- наш документ имеет теги стандарта TEI, поэтому наш главный корневой тег, откуда все потом ветвится - TEI, и мы сразу ставим такой же закрывающий тег в конце документа >

<teiHeader><!-- мы открыли раздел метаданных и сейчас с помощью нижнего тега отделим этот раздел от основного текста>

7

[1392-1427] –Данная Вас. Бор. Копнина Троицкого м-ря иг. Никону на дер. Казановскую, в Радонеже, близ м-ря.

Список сер. XVIв.

Кн. 518 л.543 об.

Список с даной.

</teiHeader><!-- мы уже сразу закрыли раздел метаданных>

<text><!-- а вот тут мы обозначили, что дальше пошел сам текст документа, и закрыли текст в самом конце>

Святой Троици в дом. Се яз, Василей Борисовичь, дал есми игумену Никону с братьею деревню Костянтинову Казанова.

А подписал яз, Василей, сию грамоту.

А у даные печать.

</text><!-- текст закончился, и мы закрыли его соответствующим тегом>

</TEI><!--этот тег мы поставили еще в начале, он закрыл наш TEI документ >

Расставляем теги в TEI HEADER. Там будет и информация из описания документа в издании, и служебная информация о том, кто работал с файлом, необходимая для нашего курса и вашей оценки по нему (кто делал оцифровку и откуда брал документ)

<teiHeader><!-- этот тег у нас уже есть, а закрывающий его тег проставлен на прошлом этапе>

<fileDesc><!-- сначала опишем файл документа, который у нас получается>

<titleStmt><!-- title statement - сюда запишем все, что имеет отношение собственно к документу, который содержится в нашем файлу>

<title>Данная Вас. Бор. КопнинаТроицкого м-ря иг. Никону на дер.Казановскую, в Радонеже, близ м-ря.</title><!-- это название документа в АСЭИ - издании, который мы оцифровываем>

<p>Список сер. XVIв. Кн. 518 л.543 об..</p><!-- эта информация нам пока не нужна, и мы просто ставим тег абзаца, чтобы ее сохранить на будущее>

<idno>7</idno><!-- это номер документа, как он есть в томе АСЭИ, который мы оцифровываем>

<date from=”1392" to=”1427”>1392-1427</date><!-- это дата создания документа, мы переводим ее в формат, который понимает машина. Тогда мы сможем создавать более сложные запросы с ограничением по времени. Даты будут выражены через атрибуты нашего тега (внимание, не забудьте кавычки для значения атрибутов). Но мы все равно сохраняем и то обозначение даты, которое есть в АСЭИ. Это нужно для того, чтобы мы могли полностью воспроизвести наш оцифрованный источник >

Примеры:

1. Если у нас временной период обозначен как “ок. 1460-х - 70-х гг.”, то оформляем так: <date from="1460" to="1470">. Далее указываем все как в тексте: “ок. 1460-х - 70-х гг."

Получается: <date from="1460" to="1470">ок. 1460-х - 70-х гг.</date>2/

2. Если указана конкретная дата, например, 1471 г. декабря 6, то пишем <date when=«1471-12-6»>. Если дня и/или месяца нет, то ставим дефисы на их месте. Пример: <date when=«1471--»>.

</titleStmt><!-- мы закончили сбор всех сведений о самом документе и закрываем тег title statement, обратите внимание на то, как он пишется>

<respStmt><!--здесь мы напишем имя ответственного за того, кто работал с документам, по мере разметки документов, перечисление сфер ответственности будет увеличиваться >

<persName>Иван Иванов</persName><!-- впишите сюда ваше имя>

<resp>Исправление ошибок распознавания, создание TEI документа</resp><!-- перечислите, что вы делали >

</respStmt><!-- мы все сказали о том, кто работал с документом и закрыли тег responsibility statement>

</fileDesc><!-- и мы все сказали, что хотели, об этом файле - что это за файл и кто его подготовил. Не забудьте закрыть этот тег. >

<sourceDesc><!-- Мы напишем, откуда мы взяли этот документ, но не будет давать полного библиографического описания>

<title>АСЭИ. Т. 1. С. 29</title><!--это упрощенное название нашего издания с томом и страницей, на которой расположена грамота >

<sourceDesc><!-- мы описали источник и закрыли тег >

</teiHeader><!-- мы еще на первом этапе закрыли тег teiheader и отделили метаданные от основного текста>

После разметки структуры документа и оформления хедера получиться должно вот так

Проверить правильность (валидность) синтаксиса XML можно с помощью какого-нибудь онлайн-инструмента -- например, вот этого.

Формулярный анализ

  • Инструкция по формулярному анализу отдельным файлом вот тут.
  • Шпаргалка по формулярному анализу с примерами вот тут.
  • Финальное распределение текстов вот тут.
  • Источник, I том Актов социально-экономической истории Древней Руси, в формате pdf вот тут.

Именованные сущности

Во всех документах необходимо отмечать упоминания лиц (<pers>), географических объектов (<place>) и институций (<inst>, в случае АСЭИ это будут в основном монастыри и церкви). Однако упоминания лиц без имен (отец, господин), а также упоминания лиц, почитаемых в христианстве (Богородица), выделять в качестве персоналий нецелесообразно.

Важно учитывать, что древнерусское личное имя отличалось по структуре от современного. У человека могло быть много имен (Иван Волк Меньшой), среди которых встречались как календарные (их давали в церкви по месяцеслову и они похожи на современные), так и некалендарные (мирские, по современным меркам они напоминают прозвища — Третьяк, Голова); строгих правил, какие имена и в каком количестве использовать в какой ситуации, не существовало — только общие соображения. Вместо отчества, как правило, использовалась описательная конструкция (Юрьев сын), причем могло быть указано имя как отца, так и других родственников (Петров брат, Третьяков братанич [племянник] и т.п.); в частности, у замужних женщин и вдов имя отца заменялось именем мужа, иногда в сопровождении отчества последнего (Иванова жена, Петрова вдова Юрьевича). Родовое прозвание (прототип современной фамилии) указывалось не всегда и могло состоять из нескольких частей (Василий Борисов сын Сабуров Хромого).Грамматически родовое прозвание могло согласовываться с именем отца или мужа (Иван Третьяков сын Захарьина, Марья Петрова жена Константиновича Ряполовского).

Если при названии объекта или институции присутствуют родовые определения (город, деревня, пустошь, озеро, река, болото, мох, камень, монастырь и т.п.), они включаются в тэги <place> и <inst>. Аналогичным образом, в тэг <pers> включаются титулы (князь).

Метафорические именования институций (дом Пресвятой Троицы) рассматриваются наравне с обычными. Если метафорическое и обычное именования помещены рядом, так, что между ними нет других слов (в дом Пречистой в Кириллов монастырь) тэг <inst> используется один раз.

Для старорусского языка было обычно повторение предлогов (в монастырь в Кириллов, у Ивана у Петрова сына у Долгополова). Для единообразия открывающие тэги надо ставить перед первым предлогом (т.е. в <inst>монастырь в Кириллов<inst> — неправильно, <inst>в монастырь в Кириллов<inst> — правильно). Но если предлог один, то его надо оставить вне тэга (<place>по реку Шексну</place> — неправильно, по <place>реку Шексну</place> — правильно).

Структурные элементы акта

  • Не должно быть элементов вне тегов!
  • Теги, обозначающие части акта, не могут быть вложены друг в друга!
  • Знаки препинания не отделяются тегом от слова!

Invocatio

<inv>

В классических западных документах это фраза вроде «Во имя Отца, и Сына, и Святого Духа». Русская практика (которой, впрочем, придерживались далеко не все писцы) — рисовать в начале документа крест.

Intitulatio

<intit>

В этом элементе указывается лицо (или лица), от которых исходит документ. В русской традиции, как правило, перед именем помещается формула Се яз… («Этим я, имярек, сделал то-то и то-то»), которая также включается в тэг. Документ может исходить от многих лиц — все их имена заключаются в один тэг <int>.

Inscriptio

<inscr>

В этом элементе указывается лицо (или) лица, которым документ адресован: От игумена Никифора старцу Исакию.

Salutatio

<sal>

Актовые источники выросли из «обычных» писем, где рядом с обращением естественным образом шло приветствие. Нечто в этом роде встречается в договорных грамотах Великого Новгорода, новгородские экземпляры которых, как правило, начинаются словами «Благословение от владыки [имярек], поклон от посадника [имярек], и от тысяцкого, и от всех старейших, и от всех меньших и от всего Новгорода» (на что князь в своем экземпляре отвечает «Поклон от князя от [имярек] к отцу ко владыке»). Однако для северо- восточных грамот XIV–XV вв. соблюдение формы писем не характерно, так что тэг, скорее всего, не пригодится.

Arenga

<ar>

Документ может содержать преамбулу (в дипломатике — аренгу). Она бывает двух видов. Первый — это указание на высшие силы, ради милости которых совершается описываемое далее действие (Пречистыя ради Богородцы, Всемилостивейшего ради Спаса и т.п.). Второй — описание факторов, которые повлияли на появление документа, в т.ч. распоряжений (по слову [имярек]) и согласований с властью (доложа князя/боярина [имярек]).

Promulgatio

<prom>

Promulgatio — это объявление о факте совершения того или иного юридически значимого действия, без конкретного описания его причин, характера и условий, которые излагаются в следующих трех элементах: пожаловал есми Нифонта игумена Кирилова монастыря с братьею. (Обратите внимание, что глагол пожаловал есми в этой конструкции имеет только одну группу дополнений, отвечающую на вопрос кого? Чем именно пожаловал — вынесено в следующую фразу, грамматически независимую от приведенной, и это есть определяющий признак promulgatio.) По мнению С.М. Каштанова [1988, с. 187], для актов Северо-Восточной Руси самостоятельное promulgatio не характерно, и тэг будет нужен редко.

Narratio

<narr>

Narratio — детальное описание событий, которые вызвали появление документа. Для русских документов XIV narratio не характерно, к концу XV в. — возникает и «обычно» представляет собой «пересказ челобитий тех юридических или физических лиц, которым или в интересах которых выдается документ» [Там же]. Если предыстория у документа долгая и запутанная (например, он завершает сложную, многоходовую тяжбу), narratio оказывается весьма пространным.

Dispositio

<disp>

Этот элемент включает в себя распоряжения по сути излагаемого в акте решения, в т.ч. перечисление объектов, над которыми совершается сделка, их характеристики (если речь идет о деревнях и землях — детальное описание границ) и условия использования. По мере развития правовой системы и мастерства канцеляристов, объемы dispositio растут и оно обогащается новыми формулировками, учитывающими новые нюансы излагаемых отношений. С другой стороны, чем лучше поставлено канцелярское дело, тем сильнее тяга писцов использовать в dispositio типовые формулировки — это дает ощутимую экономию сил при составлении каждого отдельного документа.

Sanctio

<sanc>

Санкции — это последствия, которые, по мысли составителя документа, должны постигнуть человека, нарушившего условия сделки. Как и narratio с dispositio, sanсtio может быть весьма пространным. Поскольку составители документов были людьми религиозными, то в качестве санкций могли упоминаться как наказания, налагаемые властями здесь и теперь (а быти ему от меня, князя, в казни), так и кары высших сил, которые преследовали виновника не только в этой жизни, но и в будущей (не буди на тебе милости божии и пречистые Богородици и чюдотворца Кирила и моего благословения в сем веце и в будущем).

Corroboratio

<corr>

Документ должен был нести на себе признаки, позволяющие удостовериться в его подлинности. Это могли быть данные о свидетелях, присутствовавших при заключении сделки (а на отводе были…), или знавших о ней (а на то послуси…), указание имени писца- составителя грамоты (А грамоту писал поп Ефим), печати и подписи (рукоприкладства); последние иногда помещались на обороте (затыльи) грамоты. Если с грамоты снималась копия, подписи и печати не перерисовывались, а описывались (а у грамоты печать…, а на затыльи пишет…). Все эти сведения составляют элемент, называемый в дипломатике corroboratio.

Datum

<dat>

В этот элемент входит указание на дату и место составления документа, помещаемое до или после сведений об удостоверяющих признаках документа.

Apprecatio

<appr>

Поскольку актовые источники выросли из писем, в них мог сохраняться и такой элемент письма, как заключительное благопожелание (далекий предок современных Искренне Ваш,Best и т.п.). Впрочем, для русской дипломатики использование apprecatio не характерно, так что и тэг, скорее всего не пригодится.

Примеры разметки

Сравнение двух вариантов одного текста

Посмотреть т.н. "диффы" можно, установив плагин EasyDiff для Sublime или Compare для Notepad++, но проще всего воспользоваться каким-нибудь онлайн-сервисом -- например, вот этим.

Тест № 2

results matching ""

    No results matching ""