|
|
|
|
Автоматизация процессов морфологического анализа и статистической обработки текста
Автор : Алексеенко Дмитрий Александрович, ученик 11 класса, лицей № 11, Челябинск.
Научный руководитель: старший преподаватель (Южно-Уральский государственный университет) Вольская Елена Анатольевна.
|
|
|
|
Результат работы |
Предложенная программа решает одну из наиболее интересных и актуальных проблем в области прикладной лингвистики: морфологический анализ текста и подсчет статистики вхождений морфем. Так, программа может определять такие немаловажные характеристики слова, как часть речи, число, род, падеж, время и т. д.
Данная программа выгодно отличается от уже существующих частотных анализаторов, так как она по возможности учитывает морфологию русского языка и выдает пользователю подробную статистику, а не просто сравнивает наборы символов.
|
Обсуждение работы |
-
Автоматизация процессов морфологического анализа и статистической обработки текста (Алексеенко Дмитрий Александрович, 18.12.2003 14:26:01 )
В работе рассматривается весьма интересная проблема. Но я не совсем понял путь решения проблемы (видимо из-за слишком краткого изложения :-) ). И главное, речь идет о программе (я так понял компьютерной), но ни слова ни о среде, ни о методах программирования; очень всколзь упоминается об алгоритме. Хотелось бы увидеть более поподробное изложение работы, если можно.
-
Ответ (Дмитрий Алексеенко, 03.01.2004 23:14:10 )
Спасибо за замечание. Учту. В скором времени в работу будет более детально освещен алгоритм работы и все, что связано с программированием.
Среда разработки - Borland C++Builder 5.
-
Глобальные обновления (Дмитрий, 24.01.2004 20:42:01 )
По заявкам трудящихся очень скоро (25.01-26.01) выложу обновленный доклад с ПОДРОБНЕЙШИМ алгоритмом работы программы, блок-схемой и описанием мат. модели.
Плюс ко всему, произведены весьма существенные изменения в базах морфем, что положительно сказалось на результатах разбора.
Да, теперь при разборе отдельных слов перед вами предстает древовидная структура разбора, что очень удобно для понимания, почему так, а не иначе программа разобрала слово. Т.е. процесс разбора становится прозрачным для пользователя.
Все это выложу около 25.01-26.01, ждите.
-
ВНИМАНИЕ ЖЮРИ! (Дмитрий, 01.02.2004 17:12:02 )
ВНИМАНИЕ ЖЮРИ!
Учитывая ваши пожелания и вопросы, я сделал в тезисах некоторые изменения (в частности, полностью описал алогритм работы программы, с блок-схемой!). Кроме того, внесены корректировки в саму программу и научный доклад.
Тезисы можно скачать здесь (21 Kb):
http://alexeenko.prima.susu.ac.ru/work/Тезисы.zip
Прочие материалы можно скачать здесь (649 Kb):
http://alexeenko.prima.susu.ac.ru/work/Analysis v2.1.zip
Работу целиком можно скачать здесь (24 Kb):
http://alexeenko.prima.susu.ac.ru/work1/Работа.zip
-
Файлы (Loft, 08.02.2004 13:19:11 )
эти файлы:
http://alexeenko.prima.susu.ac.ru/work/Тезисы.zip
http://alexeenko.prima.susu.ac.ru/work1/Работа.zip
не получается скачать.
Может быть их надо было назвать латинскими буквами ?
-
Новые файлы (Дмитрий, 10.02.2004 13:35:23 )
Странно... Только что скачал. Тем не менее, вот новые файлы, названные латинскими буквами:
http://alexeenko.prima.susu.ac.ru/work/Thes.zip
http://alexeenko.prima.susu.ac.ru/work1/Work.zip
Если будут какие-либо вопросы по работе - пишите на [email protected]
-
Файлы (Loft, 14.02.2004 00:12:25 )
Спасибо, теперь все скачалось.
-
Морф. анализ в поисковых машинах (Рыков В.В., 06.03.2004 14:23:28 )
Дмитрий - меня попросили посмотреть Вашу работу
Можете посмотреть мой сайт rykov.narod.ru
Мой email [email protected]
Совершенно случайно 4 марта в ИПИ РАН состоялся ( и я там был) доклад Ильи Сегаловича из компании Яндекс «Морфологический разбор в поисковых машинах»
Текст доклада описывает программный продукт Яндекса с сайта
http://company.yandex.ru/programs/
http://company.yandex.ru/articles/
Точного соответствия доклада со статьями сайта я не нашел – хотя это и декларировалось.
Упоминался сайт корпуса русского языка.
http://www.ruscorpora.ru
Можете написать мне
Вл Рыков
-
отзыв (Рыков, 24.03.2004 11:51:55 )
Дмитрий - твой адрес, указанный в статье на сайте? не работает. На работу я дал положительный отзыв.
Если хочешь - свяжись со мной.
Вл Рыков [email protected]
-
морфоанализ (Рыков В.В., 29.03.2004 11:18:37 )
Помещаю рецензию Сергея Протасова - В.Р.
Sergey Protasov <[email protected]>
=============================
В введении доклада упоминается несколько утверждений, актуальность
который вызывает сомнения. В частности утверждается, что
"готовых морфоанализаторов пока нет", и "По авторитетному мнению
сотрудников компании ABBYY Software, программ, которые бы учитывали
особенности русского языка и его сложную морфологию, не существует. "
Однако сущесвует проект aot.ru, где доступен для скачивания полноценный
морфологический анализатор для русского и английского языков. В докладе
нового анализатора хотелось бы увидеть преимущества перед уже существующими.
В основу алгоритма программы построен частотный принцип - однако такие
программы давно существуют. Например ISPELL на большом корпусе текстов
самостоятельно составляюте базу корней и суффиксов исходя из минимизации
правил вывода. Также известно, что частотный принцип хоть и требует
минимум затрат для составлении морфологического анализатора но и имеет
большой процент ошибок. Многие слова, не имеющие семантической связи,
частотными анализаторами часто распознаются как вариации одного слова.
Более точное мнение о морфологическом анализаторе может быть получено
после изучения его работы - однако в докладе нет ссылок на саму программу.
PbIKOB__B.B. wrote:
>
> -----Original Message-----
> From: "PbIKOB__B.B." <[email protected]>
> To: [email protected]
> Date: Wed, 10 Mar 2004 12:34:50 +0300
> Subject: todo
>
>
>>Написать отзыв.
>>
>>
>>http://shamrock-n.narod.ru/d1.html
>>
>>http://shamrock-n.narod.ru/d2html
>>
>>
>> С уважением
>>
>> P bI K O B B. B. MOCKBA
>>
>>Vladimir Rykov, PhD in Computational Linguistics,
>> MOSCOW
>>http://rykov.narod.ru/
>>Engl. http://www.blkbox.com/~gigawatt/rykov.html
>>Tel +7-903-749-19-99
>>
>>
>
>
>
> С уважением
>
> P bI K O B B. B. MOCKBA
>
> Vladimir Rykov, PhD in Computational Linguistics,
> MOSCOW
> http://rykov.narod.ru/
> Engl. http://www.blkbox.com/~gigawatt/rykov.html
> Tel +7-903-749-19-99
>
>
-
Кул!!! (HomeCreate, 08.04.2004 18:16:24 )
Димон, молодец! Я и не думал, что про тебя в нете написали!!!
|
|
|
|
|
|
|
|
|
|
|
|
|
|