Сейчас на форуме: Magister Yoda, vasilevradislav, tyns777, zombi-vadim (+3 невидимых)

 eXeL@B —› Программирование —› Программная обработка текста
Посл.ответ Сообщение

Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 20:24
· Личное сообщение · #1

Привет всем.

Появилась идея написать программку, которая будет определять, какой частью речи являееться слово(существительное, прилагательное,...), его характеристики(падеж, род, число...
Вопрос реально ли это? Если да, поделитесь информационной подпиткой мозга на тему...(гугл я уже замучал)

Для чего это? Сначало просто хочу для интереса написать, если получиться, то хотел бы попробовать сделать нечто похожее на проверку орфографии ворда(пока это только МБ, и потом...).

-----
моя подпись!




Ранг: 2.5 (гость)
Активность: 0=0
Статус: Участник

Создано: 17 марта 2008 20:51
· Личное сообщение · #2

Такая программа уже есть для школьников. Завтра поищу и если надо дам ссылку... (на каком языке хочешь программировать?)




Ранг: 126.7 (ветеран)
Активность: 0.140
Статус: Участник
#CCh

Создано: 17 марта 2008 21:08
· Личное сообщение · #3

забей, заебешсо со словарями

-----
invoke OpenFire




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 21:10
· Личное сообщение · #4

Galka пишет:
Такая программа уже есть для школьников. Завтра поищу и если надо дам ссылку...

ок, спасибо за ссылку. ещё очень поможет именно инфа на тему.


Galka пишет:
(на каком языке хочешь программировать?)

Ещё точно не знаю. Вероятно Delphi

-----
моя подпись!




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 21:31
· Личное сообщение · #5

Ice-T пишет:
забей, заебешсо со словарями

не конструктивно это как-то...

-----
моя подпись!




Ранг: 2.5 (гость)
Активность: 0=0
Статус: Участник

Создано: 17 марта 2008 21:44
· Личное сообщение · #6

Мне кажется, при создании программы можно обойтись без больших словарей, а составить свой с основными примерами и формами слов. Достаточно использовать все правила русского языка (количество суффиксов, виды окончаний и т.д. - всё это может указать на необходимые признаки принадлежности слова к той или иной части речи) и учесть их при обработке слова. Также можно частично использовать приёмы проверки текста в старом добром Word (проверка стилей и т.д.)




Ранг: 126.7 (ветеран)
Активность: 0.140
Статус: Участник
#CCh

Создано: 17 марта 2008 21:48
· Личное сообщение · #7

Словарь должен быть не с примерами, она нах не нужны, а скорее с необычными\нестандартными словами.. Есле хочешь тру обработку замутить конечно, а то получицо софтина для аллочки-людоедки)

-----
invoke OpenFire




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 21:49
· Личное сообщение · #8

Galka пишет:
Мне кажется, при создании программы можно обойтись без больших словарей, а составить свой с основными примерами и формами слов. Достаточно использовать все правила русского языка (количество суффиксов, виды окончаний и т.д. - всё это может указать на необходимые признаки принадлежности слова к той или иной части речи) и учесть их при обработке слова. Также можно частично использовать приёмы проверки текста в старом добром Word (проверка стилей и т.д.)

Боюсь, что гигантский словарь необходим. ИМХО можно определять часть речи, поиском корня в словаре. Но вот где взять такой словарь?

-----
моя подпись!




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 21:51 · Поправил: locker_fx
· Личное сообщение · #9

Ice-T пишет:
Словарь должен быть не с примерами, она нах не нужны, а скорее с необычными\нестандартными словами.. Есле хочешь тру обработку замутить конечно, а то получицо софтина для аллочки-людоедки)

это разумееться. в русском дохрена слов исключений. Но этот вопрос нужно решать на стадии доводки до ума.

Сейчас нужно начать. Как тебе идея со сравнением корня?

-----
моя подпись!




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 22:01
· Личное сообщение · #10

Galka пишет:
Что значит "ИМХО"?

по моему мнению

Galka пишет:
Не поняла алгоритм проверки... (красота - сущ.; красивый - прилаг. корень-то один)

значит гипотеза неверна

-----
моя подпись!





Ранг: 126.7 (ветеран)
Активность: 0.140
Статус: Участник
#CCh

Создано: 17 марта 2008 22:04
· Личное сообщение · #11

Напиши тогда сначала сам алгос, потом в реальных условиях потестишь и поймешь, какой словарь необходим. Чекай окончания, выделяй корень.. как-то так.

-----
invoke OpenFire




Ранг: 2.5 (гость)
Активность: 0=0
Статус: Участник

Создано: 17 марта 2008 22:04
· Личное сообщение · #12

Кстати гипотеза частично верна, так можно вычленить из слова суффиксы и окончания...



Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 22:05 · Поправил: locker_fx
· Личное сообщение · #13

Ice-T пишет:
Напиши тогда сначала сам алгос, потом в реальных условиях потестишь и поймешь, какой словарь необходим. Чекай окончания, выделяй корень.. как-то так.

вот сам алго и не могу выцепить. Что как-то так и сам догадался, а как конкретно пока не дошёл...

-----
моя подпись!





Ранг: 126.7 (ветеран)
Активность: 0.140
Статус: Участник
#CCh

Создано: 17 марта 2008 22:16
· Личное сообщение · #14

Составь словарь окончаний чтоле для начала....

-----
invoke OpenFire




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 17 марта 2008 22:16 · Поправил: locker_fx
· Личное сообщение · #15

Ice-T пишет:
Придумай

Чем я по твоему занимаюсь?

Ice-T пишет:
Составь словарь окончаний чтоле для начала....

Идея хорошая.


P.S. Щас Арка или Арчи придёт и прикроет наш мини-чат

to moderators: плиз топик не убивайте.

-----
моя подпись!




Ранг: 495.3 (мудрец)
Активность: 0.30
Статус: Участник

Создано: 18 марта 2008 09:27
· Личное сообщение · #16

locker_fx пишет:
to moderators: плиз топик не убивайте.

Только если здесь больше не будет флуда.

-----
Всем привет, я вернулся




Ранг: 77.7 (постоянный), 1thx
Активность: 0.040
Статус: Участник

Создано: 18 марта 2008 10:04
· Личное сообщение · #17

словарь корней - неконструктивно.
словарь окончаний, суффиксов и приставок - имхо правильный путь.
была такая книга Успенского в 50-х годах - "Слово о словах".
там в виде примера рассматривалась фраза " глокая куздра будланула бокра и кудрячит бокренка".
все корни - выдуманные, но грамматический разбор вполне возможен.
на основе этого разбора даже был сделан (правильный) вывод о том, что бокр и бокренок есть некоторые животные, а не неодушевленные предметы.
так что - вперед!



Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 18 марта 2008 15:14
· Личное сообщение · #18

ufo_maniac пишет:
словарь окончаний, суффиксов и приставок - имхо правильный путь.

это само сабой разумееться, так сказать по умолчанию.

ufo_maniac пишет:
словарь корней - неконструктивно.

тоже пришёл к выводу что на данной стадии не конструктивно. а потом посмотрим...

ufo_maniac пишет:
был сделан (правильный) вывод о том, что бокр и бокренок есть некоторые животные, а не неодушевленные предметы.

хм...а ведь и вправду!

-----
моя подпись!




Ранг: 2.5 (гость)
Активность: 0=0
Статус: Участник

Создано: 18 марта 2008 17:25 · Поправил: Galka
· Личное сообщение · #19

Ссылка, которую хотела дать оказалась битая (очень жаль).
По-поводу программы:-сушествуют слова имеющие одинаковое написание, но разные по смыслу: дам-глагол; дам-сущ. Родительный падеж("за милых дам");
дома- мн.число("там стояли дома")
дома-сущ.("он был дома"),отличаются только ударением.
Значит при обработке слова программа должна его обрабатывать в контексте фразы или нужно указывать кроме самого слова ещё и 1 из его характеристик.



Ранг: 24.1 (новичок), 1thx
Активность: 0.010
Статус: Участник

Создано: 18 марта 2008 20:47
· Личное сообщение · #20

Ничего, если влезу со своим ИМХО?

1. Если надо чисто проверка правильности написания слов, то определение части речи/рода/падежа/т.д. некритично. Первое приближение к проверке - вычленить и убрать все приставки, окончание, все суффиксы, останется один корень - его и проверить по словарю, существует ли таковой. Здесь же пригодится словарь исключений.

2. Если определять часть речи - можно для начала просто выводить все варианты без учета контекста. Потом можно эмпирически вывести или на большом тексте посчитать контекстную статистику (типа если в тексте идет "глагол ед.ч." и затем "дома", значит "дома" - наречие).

Небольшая история на эту тему. Один из первых таких анализаторов (сделанный примерно в восьмидесятых) определил слово "кровать" как глагол и начал его склонять: "я крую, ты круешь, он крует...". После этого ему подсунули настоящий глагол "ховать"...



Ранг: 3.0 (гость)
Активность: 0=0
Статус: Участник

Создано: 18 марта 2008 20:55
· Личное сообщение · #21

Galka пишет:
Не поняла алгоритм проверки... (красота - сущ.; красивый - прилаг. корень-то один)


-от суффикс сущ.
-ивый суффикс прилаг.

Поэтому словарь суффиксов по категориям (частям речи) необходим, только вот как Вы без корней-то обойдетесь ?

Galka пишет:
Значит при обработке слова программа должна его обрабатывать в контексте фразы


конечно, иначе и не получиться

Нужно для начала составить словесный алгоритм для разбора морфологического, определиться со словарем (-ями), а это к лингвистам



Ранг: 47.5 (посетитель)
Активность: 0.030
Статус: Участник

Создано: 19 марта 2008 18:59
· Личное сообщение · #22

locker_fx

Есть же плагин для Миранды, проверяющий офрографию. Он не использует Ворд и т.п., и, скорее всего, OpenSource. Посмотри, может поможет)



Ранг: 2.5 (гость)
Активность: 0=0
Статус: Участник

Создано: 28 мая 2008 15:34
· Личное сообщение · #23

Получилась программа или забросил?



Ранг: 309.8 (мудрец), 21thx
Активность: 0.170
Статус: Участник

Создано: 28 мая 2008 15:42
· Личное сообщение · #24

для стандартных слов сойдут регулярные выражения, а не стандартные в базу

-----
Shalom ebanats!




Ранг: 113.4 (ветеран)
Активность: 0.130
Статус: Участник
Ветеран

Создано: 28 мая 2008 19:32
· Личное сообщение · #25

Galka пишет:
Получилась программа или забросил?

Честно, времени нет. Куча других дел. Надеюсь вернусь к этому проекту(желательно не в одиночку)

-----
моя подпись!



 eXeL@B —› Программирование —› Программная обработка текста
:: Ваш ответ
Жирный  Курсив  Подчеркнутый  Перечеркнутый  {mpf5}  Код  Вставить ссылку 
:s1: :s2: :s3: :s4: :s5: :s6: :s7: :s8: :s9: :s10: :s11: :s12: :s13: :s14: :s15: :s16:


Максимальный размер аттача: 500KB.
Ваш логин: german1505 » Выход » ЛС
   Для печати Для печати