Сейчас на форуме: Magister Yoda, vasilevradislav, tyns777, zombi-vadim (+3 невидимых) |
eXeL@B —› Программирование —› Программная обработка текста |
Посл.ответ | Сообщение |
|
Создано: 17 марта 2008 20:24 · Личное сообщение · #1 Привет всем. Появилась идея написать программку, которая будет определять, какой частью речи являееться слово(существительное, прилагательное,...), его характеристики(падеж, род, число... Вопрос реально ли это? Если да, поделитесь информационной подпиткой мозга на тему...(гугл я уже замучал) Для чего это? Сначало просто хочу для интереса написать, если получиться, то хотел бы попробовать сделать нечто похожее на проверку орфографии ворда(пока это только МБ, и потом...). ----- моя подпись! |
|
Создано: 17 марта 2008 20:51 · Личное сообщение · #2 |
|
Создано: 17 марта 2008 21:08 · Личное сообщение · #3 |
|
Создано: 17 марта 2008 21:10 · Личное сообщение · #4 |
|
Создано: 17 марта 2008 21:31 · Личное сообщение · #5 |
|
Создано: 17 марта 2008 21:44 · Личное сообщение · #6 Мне кажется, при создании программы можно обойтись без больших словарей, а составить свой с основными примерами и формами слов. Достаточно использовать все правила русского языка (количество суффиксов, виды окончаний и т.д. - всё это может указать на необходимые признаки принадлежности слова к той или иной части речи) и учесть их при обработке слова. Также можно частично использовать приёмы проверки текста в старом добром Word (проверка стилей и т.д.) |
|
Создано: 17 марта 2008 21:48 · Личное сообщение · #7 |
|
Создано: 17 марта 2008 21:49 · Личное сообщение · #8 Galka пишет: Мне кажется, при создании программы можно обойтись без больших словарей, а составить свой с основными примерами и формами слов. Достаточно использовать все правила русского языка (количество суффиксов, виды окончаний и т.д. - всё это может указать на необходимые признаки принадлежности слова к той или иной части речи) и учесть их при обработке слова. Также можно частично использовать приёмы проверки текста в старом добром Word (проверка стилей и т.д.) Боюсь, что гигантский словарь необходим. ИМХО можно определять часть речи, поиском корня в словаре. Но вот где взять такой словарь? ----- моя подпись! |
|
Создано: 17 марта 2008 21:51 · Поправил: locker_fx · Личное сообщение · #9 Ice-T пишет: Словарь должен быть не с примерами, она нах не нужны, а скорее с необычными\нестандартными словами.. Есле хочешь тру обработку замутить конечно, а то получицо софтина для аллочки-людоедки) это разумееться. в русском дохрена слов исключений. Но этот вопрос нужно решать на стадии доводки до ума. Сейчас нужно начать. Как тебе идея со сравнением корня? ----- моя подпись! |
|
Создано: 17 марта 2008 22:01 · Личное сообщение · #10 |
|
Создано: 17 марта 2008 22:04 · Личное сообщение · #11 |
|
Создано: 17 марта 2008 22:04 · Личное сообщение · #12 |
|
Создано: 17 марта 2008 22:05 · Поправил: locker_fx · Личное сообщение · #13 |
|
Создано: 17 марта 2008 22:16 · Личное сообщение · #14 |
|
Создано: 17 марта 2008 22:16 · Поправил: locker_fx · Личное сообщение · #15 |
|
Создано: 18 марта 2008 09:27 · Личное сообщение · #16 |
|
Создано: 18 марта 2008 10:04 · Личное сообщение · #17 словарь корней - неконструктивно. словарь окончаний, суффиксов и приставок - имхо правильный путь. была такая книга Успенского в 50-х годах - "Слово о словах". там в виде примера рассматривалась фраза " глокая куздра будланула бокра и кудрячит бокренка". все корни - выдуманные, но грамматический разбор вполне возможен. на основе этого разбора даже был сделан (правильный) вывод о том, что бокр и бокренок есть некоторые животные, а не неодушевленные предметы. так что - вперед! |
|
Создано: 18 марта 2008 15:14 · Личное сообщение · #18 ufo_maniac пишет: словарь окончаний, суффиксов и приставок - имхо правильный путь. это само сабой разумееться, так сказать по умолчанию. ufo_maniac пишет: словарь корней - неконструктивно. тоже пришёл к выводу что на данной стадии не конструктивно. а потом посмотрим... ufo_maniac пишет: был сделан (правильный) вывод о том, что бокр и бокренок есть некоторые животные, а не неодушевленные предметы. хм...а ведь и вправду! ----- моя подпись! |
|
Создано: 18 марта 2008 17:25 · Поправил: Galka · Личное сообщение · #19 Ссылка, которую хотела дать оказалась битая (очень жаль). По-поводу программы:-сушествуют слова имеющие одинаковое написание, но разные по смыслу: дам-глагол; дам-сущ. Родительный падеж("за милых дам"); дома- мн.число("там стояли дома") дома-сущ.("он был дома"),отличаются только ударением. Значит при обработке слова программа должна его обрабатывать в контексте фразы или нужно указывать кроме самого слова ещё и 1 из его характеристик. |
|
Создано: 18 марта 2008 20:47 · Личное сообщение · #20 Ничего, если влезу со своим ИМХО? 1. Если надо чисто проверка правильности написания слов, то определение части речи/рода/падежа/т.д. некритично. Первое приближение к проверке - вычленить и убрать все приставки, окончание, все суффиксы, останется один корень - его и проверить по словарю, существует ли таковой. Здесь же пригодится словарь исключений. 2. Если определять часть речи - можно для начала просто выводить все варианты без учета контекста. Потом можно эмпирически вывести или на большом тексте посчитать контекстную статистику (типа если в тексте идет "глагол ед.ч." и затем "дома", значит "дома" - наречие). Небольшая история на эту тему. Один из первых таких анализаторов (сделанный примерно в восьмидесятых) определил слово "кровать" как глагол и начал его склонять: "я крую, ты круешь, он крует...". После этого ему подсунули настоящий глагол "ховать"... |
|
Создано: 18 марта 2008 20:55 · Личное сообщение · #21 Galka пишет: Не поняла алгоритм проверки... (красота - сущ.; красивый - прилаг. корень-то один) -от суффикс сущ. -ивый суффикс прилаг. Поэтому словарь суффиксов по категориям (частям речи) необходим, только вот как Вы без корней-то обойдетесь ? Galka пишет: Значит при обработке слова программа должна его обрабатывать в контексте фразы конечно, иначе и не получиться Нужно для начала составить словесный алгоритм для разбора морфологического, определиться со словарем (-ями), а это к лингвистам |
|
Создано: 19 марта 2008 18:59 · Личное сообщение · #22 |
|
Создано: 28 мая 2008 15:34 · Личное сообщение · #23 |
|
Создано: 28 мая 2008 15:42 · Личное сообщение · #24 |
|
Создано: 28 мая 2008 19:32 · Личное сообщение · #25 |
eXeL@B —› Программирование —› Программная обработка текста |