11 мая. Марков 2.

в xx веке в городе* наблюдался в середине 1930-х годов нагорное * кладбище в сент-женевьев-де-буа в крипте церкви благовещения * похоронен с * рыцарскими

в xiii веке они * * имели другую * * конструкцию пилонов станции * глубокого внутри- и* внешнеполитического* * курса был назначен

в xi веке и вошедшие в список 15* прошлогодних* * * попыток владельцев монетных * регалий и в * * сопровождении многочисленной

в xix веке дом дважды перестраивался в 1951 году по доносу * * дворовых места; жителей 4947 ; 829 * жилых и промышленных прлощадок космодрома * хорошо * аргументированное ;-) * акраш * * * * правильно? насколько оно соответствует критериям * значимости лучше * создать многосторониий * образ дон-кихота * * лишь внутри племени сформировался* * отдельный концерт * теперь риму представился случай испытать полученные * обезьяной в * министерстве финансов * занимался пропагандой * среди диких племен * имеет практику рейдовой * погрузки с * измельчением в пыль * урановой промышленности используют * * обогащение является * * * * *

в xix веке * * было создано дочернее предприятие нефтяной* компании * * * трудится 750 аналитиков и* * * портфельных или * * прямых * парусов и ::: и ::::еще раз — кому-чему оппозиция ? вон те же меньшевики с эсерами — были в то время как материал * * нового костюма решает* приобрести за деньги для * дальнейшего свободного* руководства по* сборке * пролетных * путях в * * автоматическом списке: они уже присутствуют в статье? или я чего-то не заметил?

в vi * * веке в * * готическом стиле * * * были проведены * * * * * ходовые качества* пароходов* колхида поддерживала * тесные * * научные * * исследования должен финансировать дальнейшее* изучения которой * * являются 2 ракетных * катера и* * бесчисленные памятники средневековой * * латинской империи было * утверждено название императорский константиновский * * межевой канцелярии было* объявлено о * * распаде * золотой медалью окончил омскую * высшую * * * * *

База доделалась, погенерил текст. Классический марков можно списывать на пенсию. Никакой структуры предложений не выдерживается, да и не может выдержаться по этому алгоритму. Да и набрать текста для двусловных префиксов нереально. Про трёхсловные молчу. Пусть есть 10к слов. Двусловников уже получается 100кк, это без учёта падежей. А падежей у двусловников ещё 49. Конечно, огромное количество слов друг с другом в реальном тексте никогда не встретятся, но текст выше показывает, что база 40кк пар слов очень далека от полноты.

Сейчас вожусь ещё с одной идеей. Если будет что получаться, напишу.

Комментарии (5) на “11 мая. Марков 2.”

  1. un:

    в голове упорно вертится мысль про генерацию предложений по двусловному маркову с правильной струкутурой предложений и согласованием падежей. Бред, конечно, будет феерический, зато структура идеальная и лексика тематическая.

  2. un:

    Да еще и над индексом этой таблицы двусловников надо будет серезно подумать, по идее там надо хранить как минмиум части речи и их последовательность.

  3. Секрет:

    марков исключительно для согласования падежей.
    Если ты их будешь согласовывать по-другому — зачем марков?

  4. un:

    для семантики конечно же

  5. Секрет:

    Марков? Для семантики?
    Кто-то из нас что-то не понимает. Моё объяснение вот.
    http://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D0%BA%D0%B0

    Давай своё.
    И вообще, пока вижу потребность в синтаксическом анализе и морфологии. Что такое семантика всё равно не понимаю (понимаю только, что не марков).

Можно чего-нибудь сказануть.