← Разработка
Введение энтропии
Несколько часов назад мне пришло в голову идея добавить фактор, указывающий на разнообразие ссылок на разные сайты каждого автора, его контент и др. Сначала я подумал о том, чтобы назвать его «коэффициентом инбридинга», но, поскольку это может быть сложно, я решил назвать это энтропией.
Считать это в «процентах», потому что люди более привыкли видеть их, чем коэффициент с десятичными числами от 0 до 1.
Мы можем использовать энтропию повсюду, и у нас уже есть примеры успешного применение её в: Toxu, Meneame..., где мы можем взять алгоритмы и др.
https://github.com/gallir/Meneame
Автор имеет большую энтропию при большем разнообразии сайтов, поэтому у него будет 100% (или 1), если все отправленные им новости поступают с разных сайтов, и 0% (или 0), если все они указывают на один и тот же сайт — спамер или компьютер. rss.
Пример, который использует Meneame. Пароли, публикации, карма. Мы везде можем это использовать.
Это может быть универсальным показателем, как для внутреннего, так и для наружного использования. Энтропия — должно быть хорошее определение?
P.S. я не ставил ОК, но в теле статьи ОК стоит.
Мне нравится этот индекс, и он кажется очень важным. Давайте введем его, у нас есть хорошие примеры использования этого. Но он же не изолированный. Мы не можем опираться только на него, ИМХО, необходимо учитывать и другие данные.
Ошибку в шаблоне подправил, и еще несколько. Я действительно пока детально не занимался шаблонами тут. Спасибо, +!
Если мы говорим о энтропии каждого автора, я вижу это хорошо, но совсем не эффективно при определении того, существует ли спам, например, или нет. Было бы хорошо связать эту энтропию с качеством новостей (что-то субъективное и сложное!).
Нет. Я не говорю о энтропии каждого автора (ВСЕГО автора), нам надо ввести энтропию на более мелкие звенья, энтропию пароля например, как это на Toxu. Энтропия автора, это обширное поле, там есть сотни полей. Мы можем применить это к деталям, а не ко ВСЕМУ.
Хороший способ начать: https://github.com/gallir/Meneame/tree/master/scripts
Только просьба. Давайте не будем «пихать» Питон туда, куда его не надо. :)
Продолжение. Первый пост в Песочнице (тестирование)
Добавил поле дату в 2 таблицы. Evg, нам они необходимы для подсчета энтропии связанных с времененм.
Ок, через неделю мы можем смотреть первые результаты.
Возможно стоит сделать сводную таблицу?
А смысл сейчас? Мы должны будем туда подсчет записывать. 2 таблицы логов от туда брать и заносить. Меня больше волнует сейчас, это выделение url. Вес url необходимо подсчитывать. Вот с этим вопрос решим и тогда сводную.Сейчас в логах дата появилась, собственно они полные. А вот с url пока ничего нет.
Вот, накидал. Stats, место для этого создал: https://sugata.ru/stats
Теперь мы можем в профиль, пространства добавить что-то подобное. Публичная стата нужна с возможностью закрывать ее.
Нам желательно не следует использовать Highcharts.
Давайте другой, можно любой — предлагайте. Я вот сейчас сменил и вывел значения. + поля внес. Дату и коэф. плавающий. Мы должны собирать стату...