Основной контент книги Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода
Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода
ТекстtextPDF

Volume 18 pages

2021 year

0+

Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

$1.72

About the book

В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML-компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML-компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

Other versions

1 book from $11.07

Leave a review

Log in, to rate the book and leave a review
Book А. С. Гусаренко, В. В. Миронова et al. «Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода» — download in pdf or read online. Leave comments and reviews, vote for your favorites.
Age restriction:
0+
Release date on Litres:
01 February 2022
Writing date:
2021
Volume:
18 p.
Total size:
965 КБ
Total number of pages:
18
Copyright holder:
Синергия
Download format:

People read this with this book

Other books by the author