ОбразуванеКолежи и университети

Какво е корпусна лингвистика?

Само преди няколко десетилетия, за да автоматизират лингвистични изследвания, учените могат само да мечтаят. Работата се извършва на ръка, тя привлича голям брой студенти, има голяма вероятност "безгрижни" грешки, и най-важното - всичко това отне много дълго време.

С развитието на компютърните технологии е станало възможно да се провеждат изследвания на порядък по-бързо, а днес един от най-перспективните направления в изучаването на езици е корпусната лингвистика. Основната му функция е използването на големи количества текстова информация, информация в единна база данни, по специален начин и призова маркираната тялото.

Към днешна дата, има много сгради, създадени с различни цели, въз основа на различни лингвистични материали простиращи се от милиони до десетки милиарди лексикални единици. Тази посока е признат като перспективна и демонстрира значителен напредък по отношение на целите за кандидатстване и научните изследвания. Експерти, по един или друг начин справяне с природни език, се препоръчва да се запознаят с тялото на текстове поне на основно ниво.

История на корпусна лингвистика

Формирането на тази тенденция се дължи на създаването на Съединените американски щати в тялото Браун в началото на 60-те години на миналия век. Колекцията включва текстовете на всички 1 милион на словоформи, а днес тялото на този размер ще бъде напълно неконкурентоспособни. Това до голяма степен се дължи на темповете на развитие на компютърните технологии, както и нарастващите изисквания за нови изследователски ресурси.

През 90-те корпусната лингвистика образуваните в завършена самодисциплина, колекция от текстове са били изготвени и маркирани за десетки езици. През този период тя е била създадена, например, на британския национален корпус 100 милиона символи.

С развитието на тази област на лингвистиката, обеми текстови стават все повече и повече (и да достигат милиарди речникови единици), а оформлението е все по-разнообразна. Към днешна дата, в интернет пространството могат да бъдат намерени трупове писмено и говоримо езика, многоезичен и обучение, ориентирани към художествено или академична литература, както и много други видове.

Какви са корпуса

могат да бъдат предоставени типа тяло по лингвистика тялото по няколко причини. Интуитивно, за основа на класификацията може да бъде текстова език (руски, немски), режим на достъп (с отворен код, затвори, търговски), жанра на изходния материал (игрален, документален филм, академичен, журналистика).

Интересен начин генерира материали от говоримия език. Тъй като умишлено записване на такава реч да се създаде изкуствена среда за респондентите, и получения материал не може да се нарече "спонтанен", модерни корпусната лингвистика е отишло в другата посока. Доброволец е оборудван с микрофон, а през деня, произведени запис на всички разговори, в които тя участва. Хората наоколо, разбира се, може да не знаят, че в хода на всекидневния разговор допринася за развитието на науката.

По-късно получил запис се съхранява в базата данни и са придружени от печатен вид текст препис. Така става възможно за маркиране е необходимо да се създаде перорална дневна жилища реч.

приложение

Където е възможно използването на езика, а може би използването на сгради текстове. Методи за прилагане на корпуса в лингвистиката могат да бъдат:

  • Създаване на програма за определяне на ключа, се използва широко в политиката и бизнеса, за да следите на положителни и отрицателни отговори на избирателите и клиенти, съответно.
  • Връзка информационна система за речници и преводачи, които да подобрят ефективността си.
  • Разнообразие от изследователски задачи, които допринасят за разбирането на езика единица, историята на нейното развитие и прогнозиране на промени в близко бъдеще.
  • Разработване на системи за извличане на информация въз основа на морфологични, синтактични, семантични и други характеристики.
  • Оптимизация на различните езикови системи и други.

Използването на сгради

подобен ресурс интерфейс с типичен за търсещи машини, и изисква от потребителя да въведете дума или комбинация от думи за търсене на информационната база. Освен формират конкретната заявка може да използва подобрена версия, която позволява да се намери текстова информация за почти всички езикови критерии.

търсене база могат да бъдат:

  • принадлежност към определена група от части на речта;
  • граматични особености;
  • семантика;
  • стилистично и емоционално оцветяване.

Можете също да комбинирате критерии за търсене на поредица от думи, например, за да намерите всички срещания на глагола в сегашно време, първо лице единствено число, което идва след предлога "в" и съществителното в винителен падеж. Решението на такава проста задача отвежда потребителя за няколко секунди и изисква само няколко кликвания на мишката в посочените полета.

Процесът на създаване

Самото търсене може да се проведе на всички subcorpus и един е избран специално, в зависимост от нуждите за постигане на определена цел:

  1. Първата стъпка е да се определи кои текстове формира основата за случая. От практическа гледна точка, тя често се използва журналистически, новини, онлайн коментари. Изследователският проект е използването на голямо разнообразие от видове пакети, но текстът трябва да се избере според някои допирни точки.
  2. Получената събирането на текстове, подложени на предварителна обработка, има корекция на грешки, ако има такива, изготвен от библиографска и екстра-лингвистично описание на текста.
  3. Се елиминира всички не-текстова информация: Изчиства графики, изображения, таблици.
  4. Е разпределение на символите, които обикновено са реч, за по-нататъшна обработка.
  5. Накрая, тя извършва морфологични, синтактичен и други маркировки получава множество елементи.

В резултат на всички транзакции, направени от синтактична структура с разпределена в нея множество елементи, всеки от които е идентифицирани част на речта, граматически и, в някои случаи, семантичните атрибути.

Трудно се създава сгради

Важно е да се разбере, че не е достатъчно да се съберат набор от думи или изречения за тялото. От една страна, колекция от текстове трябва да бъде балансиран, тоест представляват различни видове текстове в определени пропорции. От друга - съдържанието на кутията трябва да се разпределят по специален начин.

Първият проблем е решен чрез споразумение: например, в колекцията включва 60% от литературни текстове, като 20% от документални филми, определен процент се дава писмено изявление на говоримия език, законодателство, научната работа и т.н. перфектна рецепта базирана тяло днес не съществува ...

Вторият въпрос, по отношение на структурата на съдържанието, решаване на предизвикателство. Има специални програми и алгоритми използват за автоматично маркиране на текстове, но те не дават перфектен резултат, може да доведе до смущения и изискват ръчен монтаж и демонтаж. Възможности и предизвикателства за справяне с този проблем са описани подробно в документ V. P. Zaharova на корпусната лингвистика.

Текст маркиране се осъществява на няколко нива, които, които посочваме по-долу.

морфологични маркиране

От училище, ние не забравяйте, че на руски език, има различни части на речта, и всеки от тях има свои собствени характеристики. Например, глаголът има категории наклон и времето, в което не съществително. англоговорящ без колебание откаже съществителни и глаголи спрегнати, но за отбелязване на тялото от 100 млн. символите, ръчен труд няма да работи. Всички необходими действия могат да изпълняват на компютъра, обаче, за това, че трябва да бъдат научени.

Морфологични маркиране, компютърът трябва да се "разбират" всяка дума като определена част от речта като някои граматични особености. Тъй като руски (и всеки друг език) работи редица редовни правила, е възможно да се изгради автоматична процедура за морфологичния анализ, инвестирането в колата за редица алгоритми. Все пак, има изключения от правилото, както и различни усложняващи фактори. В резултат на това нетната компютърен анализ на днес е далеч от идеалното, а дори и с 4% грешка се получава стойност от 4 млн. Думи на тялото на 100 млн. Единици, изискващи ръчен монтаж и демонтаж.

Подробна книга описва проблема Zaharova V. P. "корпусната лингвистика".

синтактична анотация

Разбор или разбор - процедура, която определя отношението на думите в изречението. С помощта на набор от алгоритми е възможно да се определи текста на субект, предикат, допълнения, няколко завъртания на словото. Разберете кои думи са основен цикъл, и която - зависими, можем ефективно да извличат информация от текст и да преподават на машината да издава в отговор на искането за търсене само информацията ни интересно.

Между другото, модерни търсачки използват това, за да даде конкретни цифри, вместо дълги текстове в отговор на подходящи заявки, като например: "Колко калории в една ябълка" или "Разстоянието между Москва до Санкт Петербург." Въпреки това, за да се разбере дори основите на процеса, описан от необходимостта да се консултира с "Въведение в корпусната лингвистика" или друг основен урок.

семантично маркиране

Семантиката на думата - е, с прости думи, смисъла. Широко приложим подход за семантичен анализ на дадена дума за авторство тагове, които отразяват неговата принадлежност към набор от семантични категории и подкатегории. Такава информация е ценна за оптимизиране на алгоритми анализират текст тон, автоматично обобщаване и други задачи, методи на корпусната лингвистика.

Има редица на "корен" на дървото, което представлява абстрактна дума с много широк семантика. Както се образуват клон на възли на дървото, съдържащ повече и по-специфични лексикални елементи. Например, думата "създание", могат да бъдат свързани с такива понятия като "човешки" и "животно". Първата дума ще продължи да разширявам се към различни професии, родствени термини, националност, а втората - на класа и вида на животните.

Използването на информационни системи за извличане

Области на използване на корпусната лингвистика обхващат различни области на дейност. Корпуси се използват за подготовка и корекции на речници, създаване на автоматизирани системи за превод, слагане на бележки, извличане на факти, определящи тона и друга обработка на текст.

В допълнение, тези средства се използват активно в изследването на световните езици и механизми на функциониране на езика като цяло. Достъп до големи обеми от предварително подготвена информация улеснява бързото и цялостно проучване на тенденциите на развитие на езика, както и промяна на стабилни образуване на неологизми скорост реч стойности лексикални единици и др.

Тъй като работата с такива големи обеми от данни изисква автоматизация, днес има тясно взаимодействие между компютърни и корпусната лингвистика на.

Руски национален корпус

Този случай (съкращение NKRYA) включва редица subcorpus, което позволява използването на ресурс за широк спектър от задачи.

Материалите в базата данни са разделени NKRYA:

  • към публикации в 90-те и 2000-на медиите, както вътрешни, така и чуждестранни;
  • запис на реч;
  • aktsentologicheski маркиран текстове (т.е., следите от стрес);
  • диалект реч;
  • поезия;
  • Материали с синтактични и други маркировки.

Информационната система включва също Subcorpus с паралелни преводи на творби от руски на английски, немски, френски и много други езици (и обратното).

Също така в базата данни има раздел на исторически текстове, представляващи писмено речта на руски език в различни периоди от развитието му. Има и обучаващ орган, който може да бъде полезен за чуждестранни граждани в овладяване на руски език.

Руски национален корпус се състои от 400 милиона лексикални единици, и в много отношения напред на значителна част от езиците на органи в Европа.

перспективи

Факт в полза на признаването на тази тенденция е наличието на обещавайки лабораторни корпусната лингвистика в руски университети, както и чужди. С използването на научните изследвания и в рамките на тази информация и при търсене ресурси води до развитието на определени зони в областта на високите технологии, с въпрос да отговори системи, но е по-горе.

По-нататъшното развитие на корпусна лингвистика се прогнозира на всички нива, като се започне от техническа и по отношение на прилагането на нови алгоритми, които оптимизират търсенето и обработката на информация, даващи на компютри, повече RAM, както и за потребителите, тъй като потребителите са все повече и повече начини за използване на този вид ресурс в тяхната ежедневна живот и работа.

В заключение

В средата на миналия век през 2017 г. изглеждаше далечно бъдеще, когато космически кораби пътуват през Вселената и роботи свърши цялата работа за хората. В действителност, науката е пълна с "бели петна" и прави отчаяни опити да отговорят на въпросите на човечеството от векове смущаващи. Въпроси функционирането на езика тук заемат почетно място, и на кабинета и компютърната лингвистика могат да ни помогнат да отговори на тях.

Обработка на големи обеми от данни може да открива модели, недостъпна преди да се предскаже развитието на специфичните особености на езика за проследяване формирането на думи в почти реално време.

На практическо ниво, глобалните приложенията могат да се видят, например, като потенциален инструмент за оценка на общественото настроение - Интернет е постоянно се обновява ежедневно различни текстове, създадени от реални потребители: тия коментари и мнения, както и статии, както и много други форми на речта.

В допълнение, работата с органи, допринася за развитието на един и същ хардуер, които са замесени в извличане на информация, ние сме запознати с услугата "Google" или "Яндекс", машинен превод, електронни речници.

Ние можем уверено твърди, че лингвистиката тяло прави само първите стъпки, а в близко бъдеще ще процъфтява.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 bg.birmiss.com. Theme powered by WordPress.