![]() |
eXeL@B —› Оффтоп —› Оффлайн сайт на жёстком диске, как? |
Посл.ответ | Сообщение |
|
Создано: 16 марта 2014 18:32 · Поправил: aspirin · Личное сообщение · #1 День добрый) Озадачился сегодня, как скачать с сайта целиком раздел, не захватывая при этом весь остальной мусор. Кто-нибудь умеет так делать? Я уже успел попробовать самые популярные программы, вроде Teleport Pro, Offline Explorer, пока что остановился именно на OE. Если в адресную строку вбивать ссылку на необходимый раздел, то скачивается лишь общее содержание, отдельные страницы недоступны. Кто знает решение? ----- Ламер - не профессия :)) ![]() |
|
Создано: 16 марта 2014 18:39 · Личное сообщение · #2 aspirin пишет: Offline Explorer Глубину в 0 и качать только с текущего сервера http://exelab.ru или же с текущего url например http://exelab.ru/f/ будет содержать только страницы которые содержат этот путь, не загружать с других сайтов если есть ссылка. Писал на память, названия некоторых опций могут отличаться. ![]() |
|
Создано: 16 марта 2014 19:33 · Поправил: aspirin · Личное сообщение · #3 F_a_u_s_t, попробовал на примере форума MSI, переходит в оффлайн режиме по вкладкам не плохо, но полно пропущенных страниц, я имею ввиду, темы. Ну а если мне нужно захватить главную страницу форума, следующие несколько за ней, чтобы выйти на нужный подфорум, и уже оттуда весь раздел выкачать, как тогда?) Это всё для примера, мне в дальнейшем хотелось бы иметь архив данного форума на жёстком диске, без разделов с выложенным программным обеспечением, иначе говоря, только rar-статьи и обсуждения. Как это реализовать? ----- Ламер - не профессия :)) ![]() |
|
Создано: 16 марта 2014 19:51 · Поправил: aspirin · Личное сообщение · #4 Что очень забавно, Teleport Pro отказывается вообще скачивать что-либо, кроме index.htm, если у сайта структура: 0-1\1--1\1\1...и т.д. Глубину даже в 4 задавал, только index качает и всё ![]() Что же касается WebCopier, тоже самое. Вдвойне забавно, но неужто никто из разработчиков не тестировал особо алгоритмы работы своего же софта? ![]() ----- Ламер - не профессия :)) ![]() |
|
Создано: 16 марта 2014 19:53 · Поправил: F_a_u_s_t · Личное сообщение · #5 aspirin пишет: иначе говоря, только rar-статьи и обсуждения. Поставить фильтр на типы файлов, еще там есть фильтр урл, добавьте пути которые необходимо пропускать. Еще пример, как пример настройки, допустим здесь есть раздел скачать статьи в архивах, берете ссылку списка статей и вставляете ее в OE, ставите качать только с текущего урл или же глубину 1 ( первая страница и связанные с ней ). aspirin пишет: но полно пропущенных страниц, я имею ввиду, темы. Такое может быть только если поставили флажок качать только с url, если стоял бы сервер, то стягивался бы весь сайт полностью ( лишнее отсечь через фильтр ). ![]() |
|
Создано: 16 марта 2014 20:02 · Личное сообщение · #6 |
|
Создано: 16 марта 2014 20:07 · Личное сообщение · #7 aspirin пишет: вот пример ссылки на данный раздел форума Глубина 0 ( будет брать все страницы ), качать с текущего урл, все страницы которые содержат данные урл в своем пути - пойдет на закачку, снимите флажки с фото, видео, оставьте архивы ( раз хотите брать атачи ). При этих настройках будет полностью скачан оффтоп без остальных разделов форума. ![]() |
|
Создано: 16 марта 2014 21:06 · Поправил: aspirin · Личное сообщение · #8 хорошо, вот ещё сайт: http://www.falshivim-vmeste.ru/ Предположим, нужен раздел только классики вместе с общим индексом, как остальное не захватывать? Какой формат ссылки будет? Основная ведь проблема во вложенных страницах, общий список программа и так мне выкачивает, перехожу по ссылкам, а там "хрена с два". И ещё заметил тупость, - на некоторых сайтах, в одной и той же категории раздела, номера у страниц имеют совершенно разные порядки, т.е. если в программе указать диапазон страниц, то когда начинаешь проверять, часть из них вообще не открывается. ----- Ламер - не профессия :)) ![]() |
|
Создано: 16 марта 2014 21:18 · Личное сообщение · #9 aspirin пишет: Предположим, нужен раздел только классики вместе с общим индексом Качать только с урл http://www.falshivim-vmeste.ru/c.html глубина 0 Скачается индекс, потом программа побежит по ссылкам индекса и связанным страницам, частично захватит мусор, но немного, после закачки проекта его можно удалить с карты сайта. В данном случае совсем без мусора не получится из за плохой структуры сайта. Что касается уровня, то если поставить 1, скачается первая страница и связанные с ней, уровень 2, первая страница, связанные и связанные со связанными, в общем глубина, по большей части нужен 0 ( неограниченно ). Программа все же не обладает интеллектом, только настройка фильтров и чистка вручную. ![]() |
|
Создано: 16 марта 2014 21:21 · Личное сообщение · #10 |
|
Создано: 16 марта 2014 21:41 · Поправил: aspirin · Личное сообщение · #11 |
|
Создано: 16 марта 2014 21:56 · Поправил: F_a_u_s_t · Личное сообщение · #12 aspirin пишет: когда можно было реализовать режим предварительного просмотра В лисе был плагин для этого, забыл название, скачивает страницу и все связанные с ней, просто бегаешь по страницам, а плагин сам тянет их. По поводу сложность, примерно строчек 100-200 на python + grab, половина из которых это правила. У автора на вики есть примеры, легко можно сделать по образу и подобию. Для других языков наверное тоже есть подобные фреймворки для написания пауков. Или в ручную, через регулярки, тоже примерно столько же строк. Уверен на 100% в гугле уже есть куча реализаций, останется только правила допилить Пример: Расширение для лисы Забыл про wget, что он может рекурсивно качать по шаблону. ![]() |
|
Создано: 17 марта 2014 15:48 · Поправил: aspirin · Личное сообщение · #13 F_a_u_s_t, мне начинает нравится scrapbook, я указал стартовый сервер, и с него пока идёт списком загрузка всех ссылающихся страниц. Нет тысяч неизвестных файлов, которые занимают сотни мегабайт, и непонятно вообще для чего ещё нужны. Пока тестирую. Но если сейчас всё заберёт, и не окажется пропущенных страниц, то остальные решения пойдут в топку ![]() ----- Ламер - не профессия :)) ![]() |
|
Создано: 17 марта 2014 16:07 · Личное сообщение · #14 aspirin пишет: удобнее специализированного коммерческого софта, за который очень неплохо даже хотят получить. Нет ничего странного, есть много хороших бесплатных программ которые лучше платных аналогов. ![]() wget и wget + grep для совсем запущенных случаев, когда структуры нет как таковой, а просто тупо каша из страниц. ![]() |
|
Создано: 17 марта 2014 16:29 · Личное сообщение · #15 F_a_u_s_t, может я чего совсем не понимаю? Подождал минут 40, пока паук стянет хотя бы частично вложенные страницы. Глубину поставил 4, сайт pesni.ru вижу алфавит исполнителей, переходит до самых песен, и тут уже дальше не открывает. Фильтрация по каталогам стоит, надо по доменам ставить? ----- Ламер - не профессия :)) ![]() |
|
Создано: 17 марта 2014 16:45 · Личное сообщение · #16 |
|
Создано: 17 марта 2014 17:58 · Поправил: aspirin · Личное сообщение · #17 F_a_u_s_t, немножко не по делу, но неужто людям самим удобна имеющаяся структура большинства популярных интернет ресурсов, когда как начинаешь сохранять их копию на жёсткий диск, и видишь, что нет чёткой логики в местонахождении информации? Ведь всё это же надо поддерживать в рабочем состоянии, к примеру вышел из строя жёсткий диск, надо же будет данные восстанавливать в соответствии с тем, где, и что было? ![]() ![]() add: Очень большой недостаток scrapbook в том, что загрузка идёт только в 1 поток. Я подождал пару часов, что-то всё же загрузилось. По страницам отлично перехожу, всё работает. Но и сайт взял на 10тыс страниц. За 2 часа он загрузил только 2500, маловато ![]() ----- Ламер - не профессия :)) ![]() |
|
Создано: 18 марта 2014 10:19 · Личное сообщение · #18 aspirin пишет: но неужто людям самим удобна имеющаяся структура большинства популярных интернет ресурсов, когда как начинаешь сохранять их копию на жёсткий диск Структура то есть, просто нечеткая и логика в ней не прослеживается, для резервной копии это не проблема, скачал архив и с него же развернул копию. aspirin пишет: Очень большой недостаток scrapbook в том, что загрузка идёт только в 1 поток. Возможно это недостаток не самого плагина, а plugin api лисы, доки нужно смотреть, поддерживает лиса многопоточность или нет, если держит, то можно автору плагина написать или допилить самому. Есть еще какие то аналоги, но никогда ими не пользовался, не в курсе, можно глянуть на сайте лисы. ![]() |
|
Создано: 18 марта 2014 14:17 · Поправил: aspirin · Личное сообщение · #19 F_a_u_s_t пишет: Возможно это недостаток не самого плагина, а plugin api лисы, доки нужно смотреть, поддерживает лиса многопоточность или нет, если держит, то можно автору плагина написать или допилить самому. я не программист, максимально, что умею, это написать калькулятор ![]() ----- Ламер - не профессия :)) ![]() |
|
Создано: 18 марта 2014 17:21 · Личное сообщение · #20 |
|
Создано: 07 апреля 2014 22:03 · Личное сообщение · #21 |
|
Создано: 08 апреля 2014 13:54 · Личное сообщение · #22 |
|
Создано: 08 апреля 2014 15:22 · Личное сообщение · #23 |
|
Создано: 09 апреля 2014 01:31 · Личное сообщение · #24 |
![]() |
eXeL@B —› Оффтоп —› Оффлайн сайт на жёстком диске, как? |