Сейчас на форуме: ut2004, vsv1 (+7 невидимых)

 eXeL@B —› Вопросы новичков —› Люди просто интересно ... как устроена Поисковая система ???
Посл.ответ Сообщение

Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 11 октября 2006 02:30
· Личное сообщение · #1

Интересует , как устроена поисковая система допустим похожая на рамблер. И вообще для создания какой софт или скрипты используются ??? Как пополняются страницы и и обновляется инфа на низ ???

И вообще реально, просто для интереса, сделать свою ?



Ранг: 18.7 (новичок)
Активность: 0.010
Статус: Участник

Создано: 11 октября 2006 03:24
· Личное сообщение · #2

www.xakep.ru/magazine/xa/063/124/1.asp



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 11 октября 2006 05:32
· Личное сообщение · #3

QuZ пишет:
И вообще реально, просто для интереса, сделать свою ?

Если индексировать маленькую локальную сеть - реально. Если сделать хоть 1% от рамблера, то не реально. Хотя если ты миллионер, то без проблем...



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 11 октября 2006 11:03
· Личное сообщение · #4

А ктонить пробывал ?? есть опыт ?? может ктонить подробнее расскажет как это делается....



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 12 октября 2006 00:43
· Личное сообщение · #5

QuZ пишет:
может ктонить подробнее расскажет как это делает

Универсальным справочником является Интернет, а краклаб.
Если вкратце:
1) Составляется словарь слов для поиска
2) Просматриваются по возможности "все страницы всех серверов в мире" и индексируются по словарю
есть или нет слово на странице. Как строится индекс для поиска фраз - не знаю, наверное что-то типа метрики вводится.
3) Уже давно добавлен механизм расширения словаря : если кто-то умудрится даже самое неправильное слово раз сто вбить при поиске - оно заносится в словарь.
4) Пункты 2 и 3 повторяются 24 часа в сутки, 7 дней в неделю.
5) Есть договоренность, что файлы и папки перечисленные в файле robots.txt не индексируются
6) Все поисковики стараются под видом вашей пользы всучить вам "бар", который собирает имена серверов по которым вы ходите и им повышается приоритет индексации. Раз люди ходят - значит еще кому-то будет полезно. Конечно поисковики не забывают своих спонсоров и всячески стараются вас заманить на их сервера, наверняка иногда подсовывая их в список найденных или рисуя рядом с найденными

И никаких чудес, только куча-куча вложенных миллиардов и куча-куча прибыли( при удаче ) за рекламу и прочий сервис.



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 13 октября 2006 05:54
· Личное сообщение · #6

QuZ
Главное, все это начинать делать в гараже, как Гугл например

news.filebox.ru/computer/2006-10-2



Ранг: -12.6 (нарушитель)
Активность: 0.030
Статус: Участник

Создано: 13 октября 2006 09:22
· Личное сообщение · #7

anton2v пишет:
(новичок)
Статус: Участник

Создано: Окт 11, 2006 14:24:44
Цитата Личное сообщение

www.xakep.ru/magazine/xa/063/124/1.asp

The page cannot be displayed




Ранг: 89.2 (постоянный)
Активность: 0.060
Статус: Участник

Создано: 13 октября 2006 11:27 · Поправил: NEOPEX
· Личное сообщение · #8

У меня всё грузиццо, ну а так можешь скачать весь выпуск - http://www.wisesoft.ru/load1903.htm http://www.wisesoft.ru/load1903.htm

-----
Люблю повеселиться, особенно пожрать




Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 15 октября 2006 01:36
· Личное сообщение · #9

Люи а там говорят что на сд диске есть срипты для поисковика - в этом-же номере... Может у кого-либо есть эти диски ?? Если найдете то скиньте плз...



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 15 октября 2006 02:27
· Личное сообщение · #10

QuZ пишет:
говорят что на сд диске есть срипты для поисковика

Если ты хочешь сваять свой поисковик краков и вареза, тоже не парься. Есть куча сайтов, которые это профессионально делают - вряд ли ты их переплюнешь.



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 15 октября 2006 08:44
· Личное сообщение · #11

не.. кряки пусть ищут асталависты кейгены крялабы и все остальные я просто хочу для себя поэксперементировать что с этим может выйти... всеж нэт почти бесплтный да и места навалом ...



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 16 октября 2006 07:22
· Личное сообщение · #12

QuZ пишет:
я просто хочу для себя поэксперементировать что с этим может выйти... всеж нэт почти бесплтный да и места навалом

Если заниматься по серьезному, то ты вылетишь в трубу - трафик будет немерянный. И место быстро кончится. Поставь себе апач и MySql - там в примерах скриптов наверняка что-то похожее есть.
Ищи движок поиковика. Вот что-то близкое, но немного не то :
softsearch.ru/articles/7-540-read.shtml



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 16 октября 2006 12:17
· Личное сообщение · #13

а траф у меня почти бесплатный Классно быть всеж провайдером . +-Терабайт - не в тему ...

Мне бы результат важен =)



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 17 октября 2006 01:26
· Личное сообщение · #14

QuZ пишет:
Классно быть всеж провайдером

Это другое дело. Тогда "зебра" для тебя. Это не совсем поисковик - мета поисковик, т.е. ищет по "готовенькому". Но для привлечения клиентов на хостинг вполне годится. Есть и обратная проблема : как "засветить" сайты на поисковиках. Для этого есть туторы и коммерческие предложения.



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 17 октября 2006 14:07
· Личное сообщение · #15

tundra37
А поконкретнее...

Если у кого-либо что нить еще есть на заметку - кидайте... Как всегда буду благодарен =)



Ранг: -2.7 (нарушитель)
Активность: 0=0
Статус: Участник

Создано: 22 октября 2006 05:09
· Личное сообщение · #16

QuZ пишет:
а траф у меня почти бесплатный Классно быть всеж провайдером

В смысле? С какого перепуга он у тебя бесплатный? Или ты за счёт своих клиентов лазишь?
Тогда это уже уголовщиной пахнет...



Ранг: -2.7 (нарушитель)
Активность: 0=0
Статус: Участник

Создано: 22 октября 2006 05:13
· Личное сообщение · #17

tundra37 пишет:
Конечно поисковики не забывают своих спонсоров и всячески стараются вас заманить на их сервера, наверняка иногда подсовывая их в список найденных или рисуя рядом с найденными

Я тоже заметил,что иногда вперемешку с "нормальными" страницами вылазит всякая дрянь,
вплоть до порносайтов (это на Яндексе то....)
tundra37 пишет:
2) Просматриваются по возможности "все страницы всех серверов в мире" и индексируются по словарю

Такое даже гипотетически трудно представить.Скорее всего есть определённый "список" сайтов,
на которых идёт поиск. И чтобы вновь испечённый сервак был занесён в "индекс",надо очевидно
производить некий набор действий... я к тому что само по себе ничего не происходит в мире



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 24 октября 2006 03:32 · Поправил: tundra37
· Личное сообщение · #18

DrOcHuN пишет:
Я тоже заметил,что иногда вперемешку с "нормальными" страницами вылазит всякая дрянь,

Это связано с "грязными технологиями". На страницу помещается список самых "поисковых строк" и в результате искать на яндексе стало невозможно. На yahoo проще найти рускоязычные страницы, т.к. там это отфильтровывается.
Скорее всего есть определённый "список" сайтов,
Но дальше строится дерево ссылок и оно вполне демократичное. Я находил документы и файлы на фтп-серверах явно не предназначенные для поиска всемирным сообществом и явно не нуждающиеся в индексации. Просто поисковик обнаружил свое "любимое слово" внутри Линуксового экзешника, например Конечно, такие вещи отлавливаются потом, но тем не менее - факт на лицо ...
А уж индексация "закрытых" страниц - это особая песня. Я, например, нашел и скачал тексты программ, к которым не было ссылок с самого сайта, но были ссылки из поисковика !



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 25 октября 2006 07:16
· Личное сообщение · #19

DrOcHuN[u][/u] Вообщето я написал - ПОЧТИ БЕСПЛАТНЫЙ .....

А во вторых , если ты не знаешь То при покупке большого лолличества трафика - 100- 200 терабайт , 1 гиг стоит 10 центов.....
А терабайт выходит в 100 вечнозеленых.... А еще остается к концу месяца траф , который оплатили пользователи за месяц , но не использовали... И со следующего месяца можно его использовать.... Так что незаконного тут мало что...
Благодарю... Только вот интересно что-нить более конкретное о поисковой системе....... За помощь буду благодарен....



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 26 октября 2006 05:14 · Поправил: tundra37
· Личное сообщение · #20

QuZ пишет:
что-нить более конкретное о поисковой системе

Времена программистов одиночек, по крайней мере в области Интернета, давно уже канули в лету. Используется , я ее условно назову, крупноблочная система : есть готовые реализации запроса страниц, есть готовые проги для баз данных с индексацией и поиском. Садится программист прошедший 2-х недельные курсы и ваяет поисковую систему из этих блоков Грубо говоря , нет программистов умеющих сделать поисковую систему с нуля и понимающего как это все работает. Есть спецы по конкретным подсистемам - они пишут ТЗ, а программеры правят нужные подсистемы. Поэтому твой вопрос - бессмысленный. Любой , кто сможет ответить то, что ты хочешь, скорее всего уже высокоплачиваемый сотрудник одного из поисковиков и вряд ли сюда зайдет
===========================
Чтобы тебе стало ясно : почитай описание формата для HTML. Вот все что там есть, тебе придется анализировать на странице, плюс скрипты, java всяческая и т.д. Не страшно - тогда реши эту задачу. После этого я расскажу, что такое базы и индексы. Но на самом деле, если ты ее решишь эффективно, то ты обеспеченный профи до конца своих дней И про базы можеь забыть...



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 30 октября 2006 10:05
· Личное сообщение · #21

Спасибо.....Классно написал... Вот бы и профи заходили сюда.... Ну ладно.... Мне не страшно это конечно, но времени в обрез... просто сетку еще по всей москве щас реализую- И проблем Море.....
А вот насчет одиночек- ты прав... вот и ищу помошника... Ну или помощь..... мож просто кто-то гдето что-то подобное делал.......
*лин , нажда должна помирать последней........



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 31 октября 2006 04:47
· Личное сообщение · #22

QuZ Профи и не очень создают группы здесь sourceforge.net/ , но увы - нужно знание английского. По Си , Дельфи и Бейсику есть масса русскоязычных форумов, друзей знающих и хотящих работать с форматом HTML ищи там.



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 01 ноября 2006 10:05
· Личное сообщение · #23

как много всего.... кстати я там мало что нашел........ видно не там искал..... но ни форума ничего не видел...



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 02 ноября 2006 04:41
· Личное сообщение · #24

QuZ
Повторяю, на sourceforge есть группы разработчиков, их много и русские тоже есть. А форумы естественно в другом месте. Задаешь поиск, заходишь на форум и определяешься - подходит, не подходит.
В конце концов задай здесь поиск со словом исходники - достаточно часто туда отсылают или просто спроси Как дите малое, ей богу ...



Ранг: -12.6 (нарушитель)
Активность: 0.030
Статус: Участник

Создано: 05 ноября 2006 11:17
· Личное сообщение · #25

QuZ пишет:
Только вот интересно что-нить более конкретное о поисковой системе

А что поискать на Рамблере не судьба? Не думаю что здесь есть спецы в этом деле.
Такие вещи ИМХО только спамерам интересны,чтобы знать куда и что рассылать,так чтобы
по шапке потом не получить.
QuZ пишет:
при покупке большого лолличества трафика - 100- 200 терабайт , 1 гиг стоит 10 центов.....
А терабайт выходит в 100 вечнозеленых....

бред какой-то
Кто будет покупать столько траффика и где его хранить?



Ранг: 310.8 (мудрец), 29thx
Активность: 0.430
Статус: Участник

Создано: 06 ноября 2006 06:15
· Личное сообщение · #26

Sergey Lossev пишет:
А что поискать на Рамблере не судьб

Если бы он умел искать, то не задавал бы таких вопросов. А про бесплатный траффик, так это ему только кажется. Пусть попробует скачать 100 Гб - сразу узнает, кто главный провайдер, а кто ....



Ранг: 5.6 (гость)
Активность: 0.010
Статус: Участник

Создано: 08 ноября 2006 13:06
· Личное сообщение · #27

Ну вообщето сам качаю и с меня скачивают по 400-500 гигов месяц.... А хранить трафик то за-что ? он не умирает..А вот юзеры тоже покупают трафик да и не в малом колличестве.. на дом в среднем уходит около 700 гигов месяц.... И кстати еще.. тема другая - не искать где дешевле нет и сколько его брать , наверно сам разберусь И еще на рамблере и на яндексе и на гугле и на мэйле нет ничего интересного.....максимально что находил - ставить движок яндекса только со своими базами данных, но менять в скрипте ниче не могу..... И если б нашел , то не постил бы такую тему......



Ранг: -12.6 (нарушитель)
Активность: 0.030
Статус: Участник

Создано: 09 ноября 2006 09:03
· Личное сообщение · #28

QuZ пишет:
И если б нашел , то не постил бы такую тему......

да ладно уж врать,искал значит плохо




Ранг: 60.1 (постоянный)
Активность: 0.120
Статус: Участник

Создано: 10 ноября 2006 14:40
· Личное сообщение · #29

Sergey Lossev[u][/u] И ты можешь скинуть несколько подробных URL ов ??? Хотяб с описанием , хоть про скрипты и исходники вообще молчу.... Тебе ж это так просто....



Ранг: -12.6 (нарушитель)
Активность: 0.030
Статус: Участник

Создано: 11 ноября 2006 03:24
· Личное сообщение · #30

Shidla пишет:
И ты можешь скинуть несколько подробных URL ов ??? Хотяб с описанием , хоть про скрипты и исходники вообще молчу.... Тебе ж это так просто....

дело не в этом,а в том что вопрос сабжа туп как минимум,а во-вторых здесь крякерский форум,а
не справочное бюро


 eXeL@B —› Вопросы новичков —› Люди просто интересно ... как устроена Поисковая система ???
:: Ваш ответ
Жирный  Курсив  Подчеркнутый  Перечеркнутый  {mpf5}  Код  Вставить ссылку 
:s1: :s2: :s3: :s4: :s5: :s6: :s7: :s8: :s9: :s10: :s11: :s12: :s13: :s14: :s15: :s16:


Максимальный размер аттача: 500KB.
Ваш логин: german1505 » Выход » ЛС
   Для печати Для печати