Сейчас на форуме: Kybyx, user99 (+2 невидимых)

 eXeL@B —› Оффтоп —› Оффлайн сайт на жёстком диске, как?
Посл.ответ Сообщение


Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 18:32 · Поправил: aspirin
· Личное сообщение · #1

День добрый) Озадачился сегодня, как скачать с сайта целиком раздел, не захватывая при этом весь остальной мусор. Кто-нибудь умеет так делать? Я уже успел попробовать самые популярные программы, вроде Teleport Pro, Offline Explorer, пока что остановился именно на OE. Если в адресную строку вбивать ссылку на необходимый раздел, то скачивается лишь общее содержание, отдельные страницы недоступны. Кто знает решение?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 16 марта 2014 18:39
· Личное сообщение · #2

aspirin пишет: Offline Explorer

Глубину в 0 и качать только с текущего сервера http://exelab.ru или же с текущего url например http://exelab.ru/f/ будет содержать только страницы которые содержат этот путь, не загружать с других сайтов если есть ссылка.
Писал на память, названия некоторых опций могут отличаться.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 19:33 · Поправил: aspirin
· Личное сообщение · #3

F_a_u_s_t, попробовал на примере форума MSI, переходит в оффлайн режиме по вкладкам не плохо, но полно пропущенных страниц, я имею ввиду, темы. Ну а если мне нужно захватить главную страницу форума, следующие несколько за ней, чтобы выйти на нужный подфорум, и уже оттуда весь раздел выкачать, как тогда?) Это всё для примера, мне в дальнейшем хотелось бы иметь архив данного форума на жёстком диске, без разделов с выложенным программным обеспечением, иначе говоря, только rar-статьи и обсуждения. Как это реализовать?

-----
Ламер - не профессия :))





Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 19:51 · Поправил: aspirin
· Личное сообщение · #4

Что очень забавно, Teleport Pro отказывается вообще скачивать что-либо, кроме index.htm, если у сайта структура: 0-1\1--1\1\1...и т.д. Глубину даже в 4 задавал, только index качает и всё
Что же касается WebCopier, тоже самое. Вдвойне забавно, но неужто никто из разработчиков не тестировал особо алгоритмы работы своего же софта?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 16 марта 2014 19:53 · Поправил: F_a_u_s_t
· Личное сообщение · #5

aspirin пишет: иначе говоря, только rar-статьи и обсуждения.

Поставить фильтр на типы файлов, еще там есть фильтр урл, добавьте пути которые необходимо пропускать.
Еще пример, как пример настройки, допустим здесь есть раздел скачать статьи в архивах, берете ссылку списка статей и вставляете ее в OE, ставите качать только с текущего урл или же глубину 1 ( первая страница и связанные с ней ).

aspirin пишет: но полно пропущенных страниц, я имею ввиду, темы.

Такое может быть только если поставили флажок качать только с url, если стоял бы сервер, то стягивался бы весь сайт полностью ( лишнее отсечь через фильтр ).




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 20:02
· Личное сообщение · #6

вот пример ссылки на данный раздел форума: http://www.exelab.ru/f/action=vtopic&forum=7&sortBy=0&page=0.html

какой формат команды мне указать в OE, чтобы скачалось всё содержимоё?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 16 марта 2014 20:07
· Личное сообщение · #7

aspirin пишет: вот пример ссылки на данный раздел форума

Глубина 0 ( будет брать все страницы ), качать с текущего урл, все страницы которые содержат данные урл в своем пути - пойдет на закачку, снимите флажки с фото, видео, оставьте архивы ( раз хотите брать атачи ).
При этих настройках будет полностью скачан оффтоп без остальных разделов форума.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 21:06 · Поправил: aspirin
· Личное сообщение · #8

хорошо, вот ещё сайт: http://www.falshivim-vmeste.ru/
Предположим, нужен раздел только классики вместе с общим индексом, как остальное не захватывать? Какой формат ссылки будет?
Основная ведь проблема во вложенных страницах, общий список программа и так мне выкачивает, перехожу по ссылкам, а там "хрена с два". И ещё заметил тупость, - на некоторых сайтах, в одной и той же категории раздела, номера у страниц имеют совершенно разные порядки, т.е. если в программе указать диапазон страниц, то когда начинаешь проверять, часть из них вообще не открывается.

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 16 марта 2014 21:18
· Личное сообщение · #9

aspirin пишет: Предположим, нужен раздел только классики вместе с общим индексом

Качать только с урл http://www.falshivim-vmeste.ru/c.html глубина 0
Скачается индекс, потом программа побежит по ссылкам индекса и связанным страницам, частично захватит мусор, но немного, после закачки проекта его можно удалить с карты сайта.
В данном случае совсем без мусора не получится из за плохой структуры сайта.
Что касается уровня, то если поставить 1, скачается первая страница и связанные с ней, уровень 2, первая страница, связанные и связанные со связанными, в общем глубина, по большей части нужен 0 ( неограниченно ).
Программа все же не обладает интеллектом, только настройка фильтров и чистка вручную.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 21:21
· Личное сообщение · #10

Я одного не пойму, к чему было городить столько наворотов в этих всех программах, когда можно было реализовать режим предварительного просмотра, и всего лишь в нём указать то, что программе нужно будет загружать. Сложно пишется такой софт?

-----
Ламер - не профессия :))





Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 16 марта 2014 21:41 · Поправил: aspirin
· Личное сообщение · #11

Интересно, я перехожу в раздел классики, и тут всего-то 22 ссылки приводят, ставлю уровень 1, и мне пишет, что в очереди 5тыс файлов на загрузку
Теперь захожу в уровень, тут вижу все эти страницы на сервере, но они не подсвечены, т.е. программа их не включила в проект.

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 16 марта 2014 21:56 · Поправил: F_a_u_s_t
· Личное сообщение · #12

aspirin пишет: когда можно было реализовать режим предварительного просмотра

В лисе был плагин для этого, забыл название, скачивает страницу и все связанные с ней, просто бегаешь по страницам, а плагин сам тянет их.
По поводу сложность, примерно строчек 100-200 на python + grab, половина из которых это правила.
У автора на вики есть примеры, легко можно сделать по образу и подобию.
Для других языков наверное тоже есть подобные фреймворки для написания пауков.
Или в ручную, через регулярки, тоже примерно столько же строк.
Уверен на 100% в гугле уже есть куча реализаций, останется только правила допилить
Пример: --> Link <--
Расширение для лисы --> Link <--
Забыл про wget, что он может рекурсивно качать по шаблону.
как настроить




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 17 марта 2014 15:48 · Поправил: aspirin
· Личное сообщение · #13

F_a_u_s_t, мне начинает нравится scrapbook, я указал стартовый сервер, и с него пока идёт списком загрузка всех ссылающихся страниц. Нет тысяч неизвестных файлов, которые занимают сотни мегабайт, и непонятно вообще для чего ещё нужны. Пока тестирую. Но если сейчас всё заберёт, и не окажется пропущенных страниц, то остальные решения пойдут в топку Удивительно, что всего лишь бесплатное расширение к браузеру может быть удобнее специализированного коммерческого софта, за который очень неплохо даже хотят получить.

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 17 марта 2014 16:07
· Личное сообщение · #14

aspirin пишет: удобнее специализированного коммерческого софта, за который очень неплохо даже хотят получить.

Нет ничего странного, есть много хороших бесплатных программ которые лучше платных аналогов.
wget и wget + grep для совсем запущенных случаев, когда структуры нет как таковой, а просто тупо каша из страниц.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 17 марта 2014 16:29
· Личное сообщение · #15

F_a_u_s_t, может я чего совсем не понимаю? Подождал минут 40, пока паук стянет хотя бы частично вложенные страницы. Глубину поставил 4, сайт pesni.ru вижу алфавит исполнителей, переходит до самых песен, и тут уже дальше не открывает. Фильтрация по каталогам стоит, надо по доменам ставить?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 17 марта 2014 16:45
· Личное сообщение · #16

aspirin пишет: Фильтрация по каталогам стоит, надо по доменам ставить?

Да, тут только черными списками можно лишнее отсечь, поскольку песни могут находиться в другом каталоге, где не используется стартовый урл.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 17 марта 2014 17:58 · Поправил: aspirin
· Личное сообщение · #17

F_a_u_s_t, немножко не по делу, но неужто людям самим удобна имеющаяся структура большинства популярных интернет ресурсов, когда как начинаешь сохранять их копию на жёсткий диск, и видишь, что нет чёткой логики в местонахождении информации? Ведь всё это же надо поддерживать в рабочем состоянии, к примеру вышел из строя жёсткий диск, надо же будет данные восстанавливать в соответствии с тем, где, и что было? Или как обычно у нас, пока работает, и ладно?

add: Очень большой недостаток scrapbook в том, что загрузка идёт только в 1 поток. Я подождал пару часов, что-то всё же загрузилось. По страницам отлично перехожу, всё работает. Но и сайт взял на 10тыс страниц. За 2 часа он загрузил только 2500, маловато Может есть что-то аналогичное этому расширению, чтобы работало в несколько потоков?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 18 марта 2014 10:19
· Личное сообщение · #18

aspirin пишет:
но неужто людям самим удобна имеющаяся структура большинства популярных интернет ресурсов, когда как начинаешь сохранять их копию на жёсткий диск


Структура то есть, просто нечеткая и логика в ней не прослеживается, для резервной копии это не проблема, скачал архив и с него же развернул копию.

aspirin пишет: Очень большой недостаток scrapbook в том, что загрузка идёт только в 1 поток.

Возможно это недостаток не самого плагина, а plugin api лисы, доки нужно смотреть, поддерживает лиса многопоточность или нет, если держит, то можно автору плагина написать или допилить самому.
Есть еще какие то аналоги, но никогда ими не пользовался, не в курсе, можно глянуть на сайте лисы.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 18 марта 2014 14:17 · Поправил: aspirin
· Личное сообщение · #19

F_a_u_s_t пишет:
Возможно это недостаток не самого плагина, а plugin api лисы, доки нужно смотреть, поддерживает лиса многопоточность или нет, если держит, то можно автору плагина написать или допилить самому.

я не программист, максимально, что умею, это написать калькулятор Попробую связаться с автором. Вероятно нужно уточнить, что моя основная ОС это Windows 7, поэтому ссылки на решения в Unix ОС приводить смысла не имеется, или только для основной аудитории форума, кому может быть топ также интересен.

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 18 марта 2014 17:21
· Личное сообщение · #20

aspirin пишет: ссылки на решения в Unix ОС приводить смысла не имеется

Wget под винду есть, даже с гуем, как собственно grep или тот же bash.




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 07 апреля 2014 22:03
· Личное сообщение · #21

Чего-то интерес к топу совсем пропал...
У кого есть диск кряклаба, интересовался, как сжат весь форум в архив менее 100 мб, и какой программой загружен неизвестно?

-----
Ламер - не профессия :))




Ранг: 262.5 (наставник), 337thx
Активность: 0.340.25
Статус: Участник

Создано: 08 апреля 2014 13:54
· Личное сообщение · #22

WinUHA, лучше его текст никто не жмет




Ранг: 111.0 (ветеран), 2thx
Активность: 0.090
Статус: Участник

Создано: 08 апреля 2014 15:22
· Личное сообщение · #23

TryAga1n
а загружать сайт лучше чем?

-----
Ламер - не профессия :))




Ранг: 0.0 (гость)
Активность: 0.250
Статус: Участник

Создано: 09 апреля 2014 01:31
· Личное сообщение · #24

aspirin пишет: и какой программой загружен неизвестно?

Раньше грузили OE, пруф был где то в анналах истории, чем сейчас не знаю, но скорее всего тем же OE, здесь довольно простая структура и можно качать чем угодно.


 eXeL@B —› Оффтоп —› Оффлайн сайт на жёстком диске, как?

У вас должно быть 20 пунктов ранга, чтобы оставлять сообщения в этом подфоруме, но у вас только 0

   Для печати Для печати