« Ответ #1 : 17 ФХЪРСап 2010, 16:52:42 »
http://ngrams.googlelabs.com/Ученые приспособили поисковый сервис Google для проведения масштабных лингвистических исследований. С его помощью специалисты, используя 5 миллионов отсканированных книг, смогли проследить эволюцию языка в последние 200 лет. Статья специалистов опубликована в журнале Science, а коротко о работе пишет New Scientist.
До сих пор у лингвистов не было инструмента, при помощи которого можно было бы проанализировать значительное количество текстов. Авторы нового исследования работали с книгами, которые были переведены в цифровой формат к настоящему моменту - всего их насчитывается около 15 миллионов. Ученые выбрали из них треть текстов (5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках) и составили базу всех использованных в них слов - их получилось около 500 миллиардов.
http://lenta.ru/news/2010/12/17/books/
Базы слов и словосочетаний находятся здесь, можно скачивать:
http://ngrams.googlelabs.com/datasetsЕсть в том числе русскоязычная база.
Записан
"...Я - ты, и ты - Я, и где ты, там и Я, и Я во всём..." (Евангелие от Евы, цит. по св. Епифаний Кипрский: Haeres XXVI, 3)