тексты в XML: некоторые ссылки и заметки
Apr. 3rd, 2002 02:39 pmНесколько важных линков.
Задание себе: найти и сравнить основные схемы разметки исторических документов, литературных источников, вообще любых primary sources. Что-то было где-то по поводу medieval English texts, сейчас не помню. Ещё пример: церковнославянская библия (у них доморощенная текстовая схема разметки, но, должно быть, легко переводима в XML; правда, Ян? ;))
Какие есть удачные схемы разметки вне XML? Есть ли в них что-то, что затрудняет такую же схематизацию, но в XML? Ограничиваю ли я себя в чем-то привязкой к XML с точки зрения гибкости маркапа? Обдумать.
- Проект LatinML: маркап классических латинских текстов в XML. Пример стиха Катулла в маркапе с внутренним DTD (все названия элементов в латыни, ну молодцы). Преобразование в HTML при помощи XSL (давно пора разобраться с XSL - заметка себе).
- Проект lector longinquus: очень много латинских текстов в хорошо машинно-читаемой форме; Катулл и Гораций уже переведены в XML предыдущего проекта, остальные пока в HTML.
- http://www.heml.org - очень интересная задумка, DTD и XML-схемы для маркапа исторических событий. Посмотреть пристальнее.
- Cocoon - платформа для разработки/выдачи XML-документов; преобразует на лету в HTML/PDF и т.п., бежит как Java servlet.
Задание себе: найти и сравнить основные схемы разметки исторических документов, литературных источников, вообще любых primary sources. Что-то было где-то по поводу medieval English texts, сейчас не помню. Ещё пример: церковнославянская библия (у них доморощенная текстовая схема разметки, но, должно быть, легко переводима в XML; правда, Ян? ;))
Какие есть удачные схемы разметки вне XML? Есть ли в них что-то, что затрудняет такую же схематизацию, но в XML? Ограничиваю ли я себя в чем-то привязкой к XML с точки зрения гибкости маркапа? Обдумать.
no subject
Date: 2002-04-03 09:13 am (UTC)Äàííûå áåç êàêîé-ëèáî ñòðóêòóðû - â ïëîñêîì ôàéëå.
XML - ýòî èçîáðåòåíèå ïðåäíàçíà÷åíî äëÿ äàííûõ ïîñåðåäêå.
no subject
Date: 2002-04-03 09:36 am (UTC)à ñ èêñåìåëåì êàêàÿ-òî ñòðàííàÿ âåùü ïîëó÷àåòñÿ. ýòî òàêàÿ ïîïûòêà íå òîëüêî ñòðóêòóðèðîâàòü äàííûå, íî è íàâåñèòü íà íèõ êàêóþ-òî ñåìàíòèêó. íàâåøèâàíèå ñåìàíòèêè ïðÿìî íà äàííûå -- ýòî, ïî-ìîåìó, î÷åíü ãëóïàÿ èäåÿ. ñåìàíòèêà -- îíà ó ïðîãðàìì, à íå ó äàííûõ. à ñòðóêòóðèðîâàòü ìîæíî è áåç èìåíîâàííûõ òàãîâ ñ àòðèáóòàìè (àòðèáóòû -- ýòî îòäåëüíàÿ äèêàÿ ãëóïîñòü, êñòàòè) è ïðî÷èõ ñòðàííîñòåé, è ïàðñèòü áóäåò ëåã÷å, è ìåñòà ìåíüøå çàéì¸ò, è áîëè ãîëîâíîé ìåíüøå áóäåò (ìíå òàê êààöà).
ïîñìîòðèì, ÷òî òàì Àââà íàêîïàåò.
no subject
Date: 2002-04-03 09:50 am (UTC)ß íå âèæó, êàêèì îáðàçîì XML ïðèïèñûâàåò äàííûì ñåìàíòèêó. Âîò ïåðâàÿ ñòðîêà ñòèõîòâîðåíèÿ Êàòóëëà, âîò âòîðàÿ, âîò òðåòüÿ. Âîò çàãëàâèå. Âîò ïðåäïîëàãàåìûé ãîä íàïèñàíèÿ. Ïóñòü âñÿêèé ñ ýòèì äåëàåò âñå, ÷òî çàáëàãîðàññóäèòñÿ.
no subject
Date: 2002-04-03 09:54 am (UTC)Íàñ÷åò XSLT íå çíàþ, íå çíàêîì.
"ïåðâàÿ ñòðîêà", "çàãëàâèå" - ýòî ñåìàíòèêà è åñòü(ôóíêöèîíàëüíàÿ).
no subject
Date: 2002-04-03 10:13 am (UTC)no subject
À íàñ÷åò ñòðóêòóðèñòîñòè - ÿ áû ñêàçàë áîëåå ñòðóêòóðèðîâàííûé, ÷åì òàáëè÷íûå äàííûå. Ëþáèìûé àðãóìåíò ïðîèçâîäèòåëåé XML-áàç - ïîçâîëÿþò õðàíèòü äîêóìåíòû â èõ ðîäíîì ôîðìàòå (XML ðàçóìååòñÿ :-), ñ ñîõðàíåíèåì íàïð. öèôðîâîé ïîäïèñè. Îòëè÷èÿ îò îðàêëîâñêèõ BLOBs î÷åâèäíû.
no subject
Date: 2002-04-03 10:18 am (UTC)Åñëè ñåðâåð ïåðåäàåò êëèåíòó äàííûå â èçâåñòíîì êëèåíòó ôîðìàòå, òî ñåðâåð è êëèåíò ìîãóò çàðàíåå äîñòè÷ü ñîãëàñèÿ î ðåëÿöèîííîé ñõåìå ýòèõ äàííûõ. Åñëè êëèåíò íè÷åãîøåíüêè íå çíàåò ïðî ôîðìàò äàííûõ, òî ñåðâåð åìó ôàêòè÷åñêó âðó÷àåò êîä íà Òüþðèíã-ïîëíîì ÿçûêå, êîòîðûé ÷òî-òî âû÷èñëÿåò. À åñëè êëèåíò èìååò ïðèáëèçèòåëüíîå ïðåäñòàâëåíèå î âîçìîæíîì ôîðìàòå äàííûõ, íî æåëàåò ãèáêîñòè - âîò òîãäà XML â ñàìûé ðàç.