Сейчас на форуме: tyns777, zds (+3 невидимых)

 eXeL@B —› Программирование —› Exe Sign vs Наивный байесовский классификатор
Посл.ответ Сообщение


Ранг: 673.3 (! !), 400thx
Активность: 0.40.31
Статус: Участник
CyberMonk

Создано: 29 октября 2009 22:32
· Личное сообщение · #1

Приветсвую
Ктонибудь игрался с байесовскими классификаторами для определения спама или же детекции Пе программ ? Вот разбирал технологии детекции по сигнатурам , собственно пайд техника более менее известна , есть идеи разные , по детекту сигнатур , но пока решил пройтись по тому что уже есть. Если глянуть статистику то байесовские классификаторы вообщем то справляются очень даже ничего с детекцией сигнатур. Также можно выводить статистику , по процентам совпадения с известными сигнатурами. Можно искать с пропущенными данными. Интересно то что , для анализа нужна статистика , собственно мои основные наработки от этого тоже не далеко ушли. По крайней мере проблема детекции по сигнатуре с одним имеющимся файлом не решена. Но рассматривая анализ множества файлов , я вот и вышел на эту модель. Мнения по теме детекции сигн с bayes ?!

-----
RE In Progress [!] Coding Hazard [!] Stay Clear of this Cube





Ранг: 355.4 (мудрец), 55thx
Активность: 0.320
Статус: Uploader
5KRT

Создано: 30 октября 2009 18:59
· Личное сообщение · #2

/offtopic
Какие-то уж очень сложные методы Вы находите (ну в реализации), ПЕ сканер на основе этого метода
для меня нов, т.к. только сейчас узнал из вики (что это)
ru.wikipedia.org/wiki/Наивный_байесовский_классификатор

Я так понимаю - этот метод будет заюзан в вашем новом ПО нового поколения? (распаковщике)
//ПЕ сканер сейчас сам разрабатываю

-----
Gutta cavat lapidem. Feci, quod potui. Faciant meliora potentes




Ранг: 481.4 (мудрец), 109thx
Активность: 0.180
Статус: Участник
Тот самый :)

Создано: 30 октября 2009 19:07 · Поправил: Hexxx
· Личное сообщение · #3

Конкретно про байеса:
http://en.wikipedia.org/wiki/Bayesian_spam_filtering и там в references есть линки.

Может лучше кластерный анализ на основе функции наиболее длинной общей последовательности байт? Правда тогда надо иметь эталонные образцы заранее, чтобы смотреть к чему тяготеет.

-----
Реверсивная инженерия - написание кода идентичного натуральному




Ранг: 60.6 (постоянный), 20thx
Активность: 0.070
Статус: Участник

Создано: 30 октября 2009 19:44
· Личное сообщение · #4

Hexxx пишет:
Правда тогда надо иметь эталонные образцы заранее, чтобы смотреть к чему тяготеет

И получается та же сигнатурная система, лишь с той разницей, что увеличится погрешность?




Ранг: 673.3 (! !), 400thx
Активность: 0.40.31
Статус: Участник
CyberMonk

Создано: 30 октября 2009 20:37
· Личное сообщение · #5

Coderess именно , речь идет не о методе , а о новых средствах детекции сигнатур. Основной метод я пока освещать не буду , главное цель а не средства , но в любой модели как говорит Hexxx нуждаюсь в эталонных образцах, и это няпряжно. Это вообще не проблема , но было бы классно если этот эталон сведется к минимальному числу взятых с ехе сигнатур. В данном случае выше описанная модель по статистике имеет высокий процент распознавания неизвестных файлов. Например в детекции спама он доходит до 97 процентов , где 7 из них бывают ложные при одном конечном решении. Метод же детекции сигнатур обыкновенный 100 процентов если эталон известен заранее , и 33 процента если файл полностью не известен , туда входят всякие ухищрения как в пайде, например деление сигнатуры.
Собственно это стандартная информатика ... судя по прошлым постам у людей происходит искривление лица при виде моих постов )

Я уже к этому привык , и большинство тем не были созданы именно по этой причине , тем не менее я помню тут экспертов по сигнатурам , которых нет у меня в аське.

Hexxx
Hexxx пишет:
Может лучше кластерный анализ на основе функции наиболее длинной общей последовательности байт? Правда тогда надо иметь эталонные образцы заранее, чтобы смотреть к чему тяготеет.

Там есть такой термин как определение новизны , если считать его как фактор детекции , то его можно сравнить с баесом где строится предположение. А само дробление в пайде есть тоже. С виду баес по проще кажется , ближе к цели Хотя можно попробовать из этого собрать что то одно , скажем вариант энтропия + кластерный анализ + байес , с каждой части возьмем что то свое , кластерный анализ ответсвенен за общее сравнение и получение Обнаруженной новизны , байес же проведет анализ умным методом. Обнаруженной новизны об этом я думал ...

-----
RE In Progress [!] Coding Hazard [!] Stay Clear of this Cube




Ранг: 237.0 (наставник), 20thx
Активность: 0.130
Статус: Участник
sysenter

Создано: 30 октября 2009 20:43
· Личное сообщение · #6

Можно вообще еще нейросети приделать...

-----
продавец резиновых утёнков




Ранг: 309.8 (мудрец), 21thx
Активность: 0.170
Статус: Участник

Создано: 30 октября 2009 20:48
· Личное сообщение · #7

> Можно вообще еще нейросети приделать...
community.livejournal.com/bh_crew/10739.html

-----
Shalom ebanats!




Ранг: 101.0 (ветеран), 344thx
Активность: 1.150
Статус: Участник

Создано: 30 октября 2009 21:24
· Личное сообщение · #8

mak
Вы флудер...




Ранг: 1288.1 (!!!!), 273thx
Активность: 1.290
Статус: Участник

Создано: 30 октября 2009 21:37
· Личное сообщение · #9

у мака просто каждую неделю, видимо, новый проект по глобальности сравнимый с постройкой БАК




Ранг: 355.4 (мудрец), 55thx
Активность: 0.320
Статус: Uploader
5KRT

Создано: 30 октября 2009 21:43
· Личное сообщение · #10

у мака просто каждую неделю

Этож здорово, когда хакерская мысль не стоит на месте. мак показывал свой распаковщик
так что не флудер 95%

-----
Gutta cavat lapidem. Feci, quod potui. Faciant meliora potentes



 eXeL@B —› Программирование —› Exe Sign vs Наивный байесовский классификатор
:: Ваш ответ
Жирный  Курсив  Подчеркнутый  Перечеркнутый  {mpf5}  Код  Вставить ссылку 
:s1: :s2: :s3: :s4: :s5: :s6: :s7: :s8: :s9: :s10: :s11: :s12: :s13: :s14: :s15: :s16:


Максимальный размер аттача: 500KB.
Ваш логин: german1505 » Выход » ЛС
   Для печати Для печати