Archive for Сентябрь, 2016

Мелочь

Воскресенье, Сентябрь 25th, 2016

Формат блога все же не удобен. Хочется сказать одну мысль, а вроде бы надо полстраницы написать.

Говорят, лошадь, которая всю жизнь по кругу крутила колесо на мельнице, когда её выпускают пастись на лугу, продолжает ходить кругами — привыкла. Я — такая лошадь. Даже осознание своих собственных мыслей не имеет никакого значения. Ведь процесс осознания я тоже осознаю. Нет никаких озарений — «о, я всё понял, я ошибался». Любое такое озарение осознается со стороны и, фактически, игнорируется. Самый главный гомеостаз, который учится поддерживать организм — это гомеостаз сознания. Я, вероятно, не могу сделать ничего, что бы его поменять, потому что любые предпринятые мной действия будут мной же учтены и компенсированы. Ни действия, ни размышления о желаниях, ни доводы о том, что правильно. Любой довод, как только видно, к чему он ведет, отметается на этом основании — на основании, что он ведет к нарушению гомеостаза.

Если бы он еще понимал, что этот гомеостаз не вечен. Что более надежно немного другое состояние. То, которое смотрит хотя бы немного вперед, а не только крутит одни и те же мысли только потому, что я делал это десять лет и теперь должен делать это следующие двадцать. Но это всё не имеет значения. Главное поддержать гомеостаз здесь и сейчас. Хотя бы следующие 5 минут. Или возвращаться к нему настолько быстро, насколько получится. А дальше хоть трава не расти.

Классификация текста.

Понедельник, Сентябрь 12th, 2016

Опять осень, опять фигня какая-то. Или это из-за недостатка секса. Или из-за питания. Или сбившегося режима сна. Атмосфера тоже могла повлиять, здесь я всегда впадаю в тупое состояние. Не сказал бы, что бы интеллект резко падал — наконец освоил word2vec и lasagne — жаль, но нейронные сети не являются прорывом в классификации текстов. Полпроцента разницы по сравнению с градиентным спуском, если все правильно сделать. Еще лемматизация дала треть процента. А надо пятнадцать. Говорят, надо делать качественную предобработку текста, но с этим пока сложности.

Кстати, word2vec. Легко дает 75% (при моем максимуме в 80%) при использовании чужой разметки векторов (свою на обычном компьютере не сделаешь). Но ни капли точности в целом не прибавляет. То есть, если просто добавить к тому, что уже есть, я получаю 78%, вместо 80-и. Обидно, да? Я всегда (с тех пор, как узнал про него) считал word2vec прорывом. Ведь просто посчитать, как часто встречается каждое слово в тексте — это же слишком тупо. А на практике — не так уж тупо. Не особо тупее крутого анализа похожести слов.

Лучше всего работает добавление новых обучающих примеров, что, конечно, не удивительно. Лишние 10% к базе дают 2% прироста качества. С этой точки зрения выгодно сидеть и файлы размечать, а не над алгоритмами думать.