Per-Fide! — Детали проекта

Данный совместный проект Отделения информатики и Института гуманитарных наук Университета Минью предполагает создание исследовательской базы для специалистов, работающих в области сравнительного языкознания, перевода, двуязычной лексикографии, а также для преподавателей иностранных языков.

Проект является продолжением работы, проведенной в рамках проекта Linguateca. Цель проекта состоит в сборе и упорядочении ресурсов для создания базы текстовых фактов португальского языка (БТФ). На основе опыта разработчиков программы Linguateca (Институт гуманитарных наук Университета Минью) предполагается создание параллельных лингвистических корпусов, устанавливающих связи между португальским языком и языками, изучаемыми в Институте гуманитарных наук. Данные параллельные корпуса представляют собой различные языковые комбинации, в которых португальский язык выступает в качестве языка-отправителя и языка-получателя во всех его вариантах (европейский вариант португальского языка, бразильский, африканский). Другими рабочими языками являются испанский, русский, французский, итальянский, немецкий и английский (Pt, Es, Ru, Fr, It, De, En–Per-Fide). Особое внимание предполагается уделить языковым сочетаниям, которые на данный момент не располагают параллельным корпусом. Например, португальско-английский корпус представлен юридическими (EuroParl и JRC-Acquis) и литературными текстами (COMPARA), в отличие от комбинации португальский язык/русский язык.

В корпуса войдут тексты на семи вышеуказанных языках и их соответствующие переводы на максимально возможное количество языков, что позволит создать параллельные корпуса для более чем одной пары языков. Будут включены современные тексты двух видов: художественные и нехудожественные. Нехудожественные тексты, в свою очередь, подразделяются на религиозные (энклитики, письма и Angelus, представленные на официальном сайте Ватикана), журналистские (Le Monde Diplomatique), юридические (законодательство Европейского Союза и международные договоры) и технические (тексты и техническая документация в областях автомобильной промышленности, электроники, телекоммуникаций, информатики, стандартов, фармацевтической промышленности и медицины). Художественные тексты будут представлены современными произведениями. В этой категории мы намерены создать литературные корпусы, в которых португальский язык будет представлен в качестве языка-отправителя. При составлении корпуса будут соблюдены все нормы законодательства об авторском и смежных правах. В настоящее время мы располагаем лицензией на использование текстов Ватикана, а также текстов Le Monde Diplomatique на португальском и французском языках. Португальское издательство Caminho, в свою очередь, готово предоставить отдельные произведения, которые будут включены в корпус.

Следует отметить, что некоторые участники настоящего проекта располагают солидным опытом в построении параллельного корпуса. Так, французско-португальский корпус на основе статей Le Monde Diplomatique [Cor06] был создан в рамках докторской диссертации [Ara08]. Другой корпус был построен одним из участников проекта в рамках магистерской диссертации [Dia02] на основе произведения Ж. Сарамаго «Слепота» (Ensaio sobre a Cegueira, José Saramago) и его перевода на португальский язык, а в рамках еще одной магистерской диссертации [San07] был создан параллельный португальско-испанский корпус на основе диалогов из фильма Алмодовара «Все о моей матери» (Todo sobre mi madre, Almodóvar). Также заслуживает внимания проект UMPessoa Paralelo по созданию параллельного корпуса на основе произведения Ф. Пессоа «Книга переживаний» (O Livro do Desassossego, Fernando Pessoa) и его перевода на французский, английский и испанский языки. В проекте Linguateca представлен монолингвистический корпус с бесплатным доступом через Интернет, что не всегда предусмотрено другими проектами (некоторые из них также выполнялись на заказ и были профинансированы). По нашему мнению, доступ к корпусу должен предоставляться не только на определенных условиях, выложенных online, но в текстовом формате с возможностью скачивания и использования для целей каждого конкретного исследования. В этом смысле параллельные корпусы, разрабатываемые в рамках настоящего проекта, будут доступны для FCT (Фонд науки и технологий): PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO (Проекты научных исследований и технологического развития) с расширением TEI и XCES.

Помимо того, что было упомянуто выше, следует отметить дополнительные возможности корпуса. Кроме лексических показателей, мы планируем использовать бесплатные маркеры для дополнительной морфологической информации. Подобные маркеры существуют не для всех языков на безвозмездной основе. Поэтому мы предполагаем приобрести в Университете Южной Дании (Universidade de Syddansk) маркер СЛОВА, который считается одним из самых полных маркеров для европейских языков.

Также планируется на основе опыта участников проекта создание словарей для автоматического перевода и словарей терминов [SA06ba]. Данный материал будет представлен в Интернете для свободного пользования.