Сейчас на форуме: jinoweb, bartolomeo (+5 невидимых)

 eXeL@B —› Программирование —› Парсер ссылок в файле
. 1 . 2 . >>
Посл.ответ Сообщение


Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 02 ноября 2008 12:39 · Поправил: Модератор
· Личное сообщение · #1

Ситуация такая:
В моём The Bat! в одом из ящиков лежит много писем примерно одинакого содержания.
В каждом(или почти в каждом) письме есть ссылка. У всех ссылок есть одинаковый участок.
К примеру:
хттп://ввв.гугл.ру/hgurnRjrk141246
хттп://ввв.йа.ру/hgurnRjrk516483
Вот жирным выделены одинаковые участки.
Задача состоит в том чтобы собрать все эти ссылки.
З.Ы. Если не в том форуме создал то переместите =)



Ранг: 253.9 (наставник)
Активность: 0.130
Статус: Участник

Создано: 02 ноября 2008 12:48
· Личное сообщение · #2

экспортни все нужные письма в текстовые файлы, потом слей эти файлы в один чем-нибудь... ну и наконец, возьми любую прогу (можно регулярные выражения), которая может фильтровать строки, в фильтре задай свою одинаковую последовательность.

-----
MicroSoft? Is it some kind of a toilet paper?





Ранг: 114.1 (ветеран)
Активность: 0.090
Статус: Участник

Создано: 02 ноября 2008 12:49
· Личное сообщение · #3

Magister Yoda Скажем так, не только не на том форуме, а и не на том сайте!

-----
minimaL_patсh на руборде





Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 02 ноября 2008 13:46
· Личное сообщение · #4

да кстати ошибся словом...
Экспорт надо было написать...
с экспортированием в один файл всех писем всё нормально...
но как отсеять ссылки тогда?




Ранг: 1288.1 (!!!!), 273thx
Активность: 1.290
Статус: Участник

Создано: 02 ноября 2008 13:51
· Личное сообщение · #5

Magister Yoda пишет:
но как отсеять ссылки тогда?

примитивной прогой на любом ЯП, написанной за 5 минут самостоятельно.




Ранг: 467.7 (мудрец), 5thx
Активность: 0.270
Статус: Участник
Иной :)

Создано: 02 ноября 2008 14:01
· Личное сообщение · #6

Magister Yoda
Регулярки спасут отца демократии!
В том же notepad++ или в FAR через плагин.
Регулярка приблизительно такого вида
Code:
  1. (http.+\/index\.php\?hgurnRjrk\d+)


-----
Computer Security Laboratory





Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 02 ноября 2008 14:44
· Личное сообщение · #7

[HEX]
либо я что-то не так делаю либо ты не правильно написал...
сделай так в Notepad++ и сделай скриншот чтобы понятно было




Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 02 ноября 2008 17:50 · Поправил: Модератор
· Личное сообщение · #8

переименуйте топик в парсер ссылок в файле

сделал




Ранг: 450.3 (мудрец), 13thx
Активность: 0.20
Статус: Участник

Создано: 02 ноября 2008 17:50
· Личное сообщение · #9

[HEX] пишет:
или в FAR через плагин


Это ты про какой именно плагин ?
Я активно пользую макросы в редакторе, но иногда не хватает функционала. А каждый раз писать программку для обработки чего либо бывает лень...



Ранг: 253.9 (наставник)
Активность: 0.130
Статус: Участник

Создано: 02 ноября 2008 22:38
· Личное сообщение · #10

вот мой старый проект, делал по нужде. фильтрует строки по регулярке.

топикстартеру осталось всего лишь слить все письма в один файл, это совсем не сложно, простейший способ - сжать их TAR'ом

3dad_02.11.2008_CRACKLAB.rU.tgz - project1.exe

-----
MicroSoft? Is it some kind of a toilet paper?





Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 03 ноября 2008 06:46
· Личное сообщение · #11

Tim
на самом деле всё проще про сливание писем в 1 файл...
в The Bat! есть функция Сохранить в файл - уже пробовал, работает норм
Tim
Спасибо попробую, ещё разобраться надо




Ранг: 251.8 (наставник), 17thx
Активность: 0.120
Статус: Участник
Seeker

Создано: 03 ноября 2008 10:54
· Личное сообщение · #12

ToBad
RE Search

[HEX]
Ты забыл про жадность (иногда без нее не работает):

Code:
  1. (http.+?\/index\.php\?hgurnRjrk\d+)


-----
DREAMS CALL US





Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 03 ноября 2008 11:59
· Личное сообщение · #13

всё равно ничо не понял
ничо не отсеивает...




Ранг: 450.3 (мудрец), 13thx
Активность: 0.20
Статус: Участник

Создано: 03 ноября 2008 16:13
· Личное сообщение · #14

=TS= пишет:
RE Search


Спасибо !




Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 03 ноября 2008 17:28
· Личное сообщение · #15

=TS=,[HEX]
покажите пример в notepad++



Ранг: 133.4 (ветеран), 57thx
Активность: 0.110
Статус: Участник

Создано: 03 ноября 2008 22:47
· Личное сообщение · #16

Немного изменил свой скриптец исходя из условий задачи. Правда я ее не совсем понял, поэтому сделал два варианта. Скрипт создает два файла: html с линкованными ссылками и txt - просто список ссылок. Первая твоя кнопка вытаскивает все ссылки, начинающиеся с , вторая - ссылки, у которых есть текст, выделенный тобой в первом посте. В поле вводишь путь к файлу относительно файла со скриптом.
Скрипт работает только в IE. Твой файл должен быть в ANSI - кодировке.


6ada_03.11.2008_CRACKLAB.rU.tgz - getlink_script_yoda.rar




Ранг: 467.7 (мудрец), 5thx
Активность: 0.270
Статус: Участник
Иной :)

Создано: 04 ноября 2008 18:02
· Личное сообщение · #17

Хмм... за это время так и не решился вопрос?
В общем в notepad++ решается, но правда немного через попу, но всеже это подручные средства, а не специализированое ПО.

Для примера возьмём поиск ссылок на картинки (подобного вида ./images/logo_xx_xxxxxx.gif) со страницы рамблера hxxp://tv.rambler.ru/index.html

Идея в следующем:
1. Создаем желательно единственный таб в notepad++ и вставляем туда содержимое страницы (файла).
2. Ищем регуляркой все вхождения. Но найденые участки будут ввиде строк что нам наверное не совсем подходит для данного примера, поэтому сделаем переносы строк до и после нужных нам ссылок. Жмём CTRL+H, выбираем регулярные выражения, в строку поиска вставляем регулярку (\./images\/logo_\d+_\d+\.gif), а в строку замены вставляем \n\1\n. Таким образом у найденых ссылок слева и справа будут переносы строк. Теперь ищем все строки с нашими ссылками. Нажимаем CTRL+F, ставим пункт регулярные выражения, вставляем снова нашу регулярку (\./images\/logo_\d+_\d+\.gif) и нажимаем кнопку "Искать всё в". В итоге получаем результат поиска приблизительно следующего вида:
Code:
  1. [new 2]
  2. Line 91 : /images/logo_41_8304.gif
  3. Line 93 : /images/logo_42_17748.gif
  4. Line 95 : /images/logo_47_8306.gif
  5. Line 97 : /images/logo_43_17749.gif
  6. Line 99 : /images/logo_44_8898.gif
  7. Line 101 : /images/logo_45_8319.gif
  8. Line 103 : /images/logo_46_8315.gif
  9. ...

Копируем всё в буффер и вставляем в новый таб.
3. Избавляемся от ненужного нам текста Line 91 : той же заменой через регулярку (Line \d+ : ) на пустоту.

В итоге получаем чистые ссылки на картинки.
Я согласен что метод не идеален и описание очень нудное и долгое. Но если под рукой ничего нет, то и это сойдет.

ToBad
Я непомню идет ли плагин в стандартной комплектации или нет, но на всякий случай вот ссыль на автора плагина hxxp://pavel.kostrom.spb.ru/programs/far#research

-----
Computer Security Laboratory





Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 17 февраля 2009 05:13
· Личное сообщение · #18

сделайе плиз регулярку для link_deleted_by_forum_engine/files/*********




Ранг: 467.7 (мудрец), 5thx
Активность: 0.270
Статус: Участник
Иной :)

Создано: 17 февраля 2009 17:47 · Поправил: [HEX]
· Личное сообщение · #19

http:\/\/depositfiles\.com\/files\/\w+

советую почитать www.pcre.ru/ там же и конструктор регулярок есть.

-----
Computer Security Laboratory




Ранг: 45.5 (посетитель), 1thx
Активность: 0.020
Статус: Участник

Создано: 18 февраля 2009 00:57
· Личное сообщение · #20

см. аттач

9bf4_17.02.2009_CRACKLAB.rU.tgz - HELP.rar




Ранг: 107.3 (ветеран), 5thx
Активность: 0.20.04
Статус: Участник

Создано: 18 февраля 2009 05:43
· Личное сообщение · #21

[HEX]
спс за сайт! буду разбираться




Ранг: 209.5 (наставник), 42thx
Активность: 0.10
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 07:06 · Поправил: Getorix
· Личное сообщение · #22

Кстати говоря, а не знает ли народ движка регулярных выражений на сях с сырцами (желательно отдельно, а не Boost какой нить)? На CodeProject я нашел парочку, мож кто еще подкинет? Заранее пасиб

-----
Get busy living or get busy dying ©




Ранг: 516.1 (!), 39thx
Активность: 0.280
Статус: Участник

Создано: 18 февраля 2009 07:54
· Личное сообщение · #23

в винде есть встроенный обработчик regexp через библиотеки vbscript



Ранг: 191.8 (ветеран), 46thx
Активность: 0.170
Статус: Участник

Создано: 18 февраля 2009 08:24
· Личное сообщение · #24

Когда-то давно пользовался прогой, вроде ссылки живые, мож в помощь
macx.chat.ru/grgen/
macx.chat.ru/grgen/grgen11ru.zip



Ранг: 162.2 (ветеран)
Активность: 0.090
Статус: Участник

Создано: 18 февраля 2009 08:33
· Личное сообщение · #25

Getorix
pcre




Ранг: 209.5 (наставник), 42thx
Активность: 0.10
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 09:02 · Поправил: Getorix
· Личное сообщение · #26

Av0id
> в винде есть встроенный обработчик regexp через библиотеки vbscript
Клевая штука конечно, но низя юзать библиотеки vbscript

asd
> pcre
Там вроде как на Javascript он, а мне бы на сях либочку

-----
Get busy living or get busy dying ©




Ранг: 162.2 (ветеран)
Активность: 0.090
Статус: Участник

Создано: 18 февраля 2009 10:31
· Личное сообщение · #27

Getorix
на сях есть. х.з. где, но я когда-то пользовался. пошарь по офсайту




Ранг: 467.7 (мудрец), 5thx
Активность: 0.270
Статус: Участник
Иной :)

Создано: 18 февраля 2009 12:11 · Поправил: [HEX]
· Личное сообщение · #28

Getorix
www.pcre.org
billposer.org/Linguistics/Computation/Resources.html#patterns
www.dmoz.org/Computers/Programming/Languages/Regular_Expressions/C_and_C%2b%2b/

-----
Computer Security Laboratory





Ранг: 209.5 (наставник), 42thx
Активность: 0.10
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 12:27
· Личное сообщение · #29

[HEX]
Пасиба бро!
Кажись то что надо.

-----
Get busy living or get busy dying ©




Ранг: 133.4 (ветеран), 57thx
Активность: 0.110
Статус: Участник

Создано: 18 февраля 2009 18:21
· Личное сообщение · #30

Есть неплохая книжка по регуляркам: Дж.Фридл, Регулярные выражения. Djvu 7,5мб: www.phpfaq.ru/files/friedl.rar.


. 1 . 2 . >>
 eXeL@B —› Программирование —› Парсер ссылок в файле
Эта тема закрыта. Ответы больше не принимаются.
   Для печати Для печати