ЕВРОПА И ФИНАНСОВЫЙ КРИЗИС

Главная > Архивы >ЕВРОПА И ФИНАНСОВЫЙ КРИЗИС
Архивы

Банковская аналитика, как инструмент макроэкономической и социальной прогностики

В настоящее время существует значительное количество различных поисковых систем, позволяющих выполнять поиск по достаточно сложным запросам на естественном языке. Однако основной и весьма серьезной проблемой является селекция (ранжирование по релевантности) полученных результатов поиска. Например, при задании в поисковой машине Yandex поискового запроса «финансовый кризис» результатом поиска будет более 60 миллионов найденных источников.

Другой серьезной проблемой является то, что из-за универсальности поисковых машин поиск каждый раз проводится «с нуля», без учета уже найденной информации и текущих интересов пользователя.

Еще одной, ранее не рассматривающейся задачей не только научного, но и социального плана является донесение до пользователей информации о пользователях со сходными интересами и результатах их поисковой работы. Это позволит создавать и контролировать группы и сетевые сообщества по сходным интересам, а поскольку в прикладных науках эффективность коллективного труда во много раз выше, чем индивидуального, это существенно увеличивает эффективность прикладной науки в целом.

Важнейшей фундаментальной задачей в свете поставленных проблем является выявление смысла текстов, найденных в результате поиска или аналитической работы.

Постановка задачи

Работа с современными информационными ресурсами предполагает в первую очередь аналитическую работу с текстовыми документами, найденными в ходе выполнения некоторых поисковых запросов при помощи стандартных или специализированный поисковых машин.

При этом важно:

- установить первоисточник, поскольку в результатах поиска, как правило, встречаются многократные повторы, цитирование и самоцитирование,

- выявить максимально информативный документ из множества найденных,

- установить и понять разницу в найденных документах.

Современное состояние проблемы

К сожалению, задача сравнения двух текстов в программировании относится к числу «классических задач». При сравнении выбираем первое слово первого текста, сравниваем со всеми словами второго текста, при нахождении констатируем, что слово встречается и в первом и во втором тексте, при ненахождении – что слово есть только в первом тексте, после завершения этой процедуры во втором тексте остаются слова, которые встречаются только в нем.

Трудоемкость этой процедуры составляет в среднем произведение длин текстов в словах на среднюю длину текста.

Постановка задачи

Найти такое универсальное представление текстов, которое позволяло бы обеспечить их эффективное сравнение и другие операции с ними:

- составление словаря слов, встречающихся в тексте,

- выявление устойчивых словесных конструкций,

- частотный анализ текста на уровне слов,

- вспомогательные операции с тестами (компактное хранение, автоматический подстрочный перевод, сортировка по тематике и области знаний, озвучивание).

В конечном итоге решение этой задачи – основа для создания анализирующих систем искусственного интеллекта и поисковых систем нового поколения.

Подход к решению

В математике и криптографии достаточно часто используют небиективные (неоднозначные) отображения со следующими свойствами.

Пусть дано слово W произвольной длины L в некотором алфавите A. Рассмотрим преобразование H(W)=h, которое отображает слова произвольной длины в слово фиксированной длины (возможно, в другом алфавите).

Это преобразование должно обладать следующим свойством - при случайном равновероятном выборе двух слов W1 и W2 в алфавите А из множества возможных соответствующие им слова h1 и h2 должны быть с высокой вероятностью различны.

Если преобразование H является размешивающим преобразованием по Шеннону, то для оценки вероятности можно используют, как правило, длину слова h.

Практическая реализуемость

В Большом академическом словаре ("Словарь современного русского литературного языка") зафиксировано 131 257 слов. Если считать словоформы, то число слов в русском языке возрастет на порядок, т.е. со 130 тысяч до 1-1,5 млн. лексических единиц. Следовательно, вероятность случайного совпадения значений h будет не слишком велика. Для английского языка число словоформ также оценивается близким к миллиону.

Предположим, что длина хеш-слова равна 3-м байтам. Тогда условная вероятность P(h1=h2/W1 не равно W2) оценивается величиной порядка 2-24 т.е. 10-7 (с учетом того, что 210 примерно 103).

Алгоритм преобразования текстов

Следовательно, к произвольному тексту на любом языке можно применить следующее преобразование – каждое отдельное слово текста W, длиной более, чем длина h, заменить значением (хеш-значением) функции H (хеш-функция) от него. Для общности, можно заменять хеш-значением все слова, независимо от их длины.

В результате такого преобразования текст преобразуется в последовательность двоичных чисел, назовем их хеш-слова, каждое из которых будет длиной |h|, т.е. длиной хеш-значения (в приводимом примере 3 байта). Принципиальным результатом такого преобразования является то, что любые конструкции для сравнения и поиска становятся равной длины и нет необходимости сравнивать слова различной длины.

Далее для каждого текста Ti одновременно с преобразованием его к хеш-словам строится словарь Di, состоящий из неповторяющихся хеш-значений и соответствующих им слов.

Технический результат

Словарь Di является мерой смысла текста, он позволяет не только оптимизировать поиск в тексте (ищем первоначально слова поискового запроса в словаре, при их наличии – ищем их в тексте, что и делают современные поисковые машины), но и сравнивать тексты между собой.

Что дает сравнение текста?

Весьма важной для выявления смысла текстов является процедура их сравнения. Предлагаемый способ преобразования текстов позволяет существенно упростить их сравнение, а значит, и выявление смысла в них. Ниже рассмотрен результат сравнения двух текстов, выполненный на основе предложенных способов. Для пары текстов на основе их цифрового представления образуются три объекта: объект 01 – слова, которые встречаются только в первом тексте, объект 02 – слова, которые встречаются только во втором тексте, и объект 03 – слова, которые встречаются в обоих текстах. Таким образом, если сравнивать произвольный текст с текстом-тематикой (например, словарем области знаний), то первый объект (01) – новизна текста, второй - неиспользованные понятия тематики, не встречающиеся в тексте, третье – степень приближения объекта к тематике.

Предлагаемая технологии доведена до полноценной практической реализации в виде трех программных модулей:M_ind, который в качестве аргумента использует текстовый файл в кодировке ASCII или Windows и образует файлы индексов .lmd и словаря .csv и файл частоты встречаемости слов .num. Tcmp, который сравнивает два текста (вводятся двумя аргументами в командной строке), обработанных прдыдущей программой и строит описанные выше три объекта 01.csv, 02.csv и common.csv. Stat, который выделяет статистические закономерности текста, образуя файл .xls, содержащий словарь с частотой встречаемости слов, файл .m0 низкоинформативных слов и файл .m1 высокоинформативных слов и файл .ws устойчивых сочетаний слов в тексте.

Предлагается также способ оптимизации поиска информации в компьютерной системе, состоящей по меньшей мере из двух пользователей, по меньшей мере одной программы-посредника и по меньшей мере одного поискового сервера, согласно которому пользователь формулирует поисковый запрос и направляет его в программу-посредник, которая выделяет из поискового запроса ключевые слова и формирует из них словарь пользователя и определяет на их основе сферу его интересов, затем программа-посредник передает запрос в поисковый сервер и получает от поискового сервера результаты поиска, в которых программа-посредник определяет наиболее сходные по сформированному словарю и сфере интересов и передает пользователю только или в первую очередь их.

Вторая задача решается в способе построения групп пользователей со сходными интересами в системе оптимизации поиска информации в компьютерной системе, заключающемуся в том, что программа-посредник с согласия первого пользователя передает информацию о первом пользователе, его поисковых запросах, словаре, сфере интересов и результатах поиска другому пользователю, поисковые запросы, словарь, сфера интересов и/или результаты поиска которого тождественны или сходны относительно таковых первого пользователя.

Предлагаемые стратегические алгоритмы анализа информации могут стать основой для создания аналитического инструмента нового поколения, который позволит решить ряд важнейших задач:

- анализировать публикации в электронных СМИ, извлекать из них смысл, включая неосознанно или осознанно подсознательно вложенный, включая элементы нейролингвистического программирования читателя;

- составлять аннотированные обзоры публикаций и отчетной информации, легко воспринимаемые руководителями;

- выявлять пиар-атаки и составлять стратегию контрпиар-акций с учетом ключевого словарного и смыслового контекста;

- выявлять группы пользователей с одинаковыми интересами и их взаимосвязи;

- выявлять тренды новизны или нестандартную активность абонентов электронной почты или пользователей социальных сетей;

- выявлять скрытую активность, стеганографический словарный контент, выявлять группы потенциальной агентуры спецслужб или преступных групп;

- проводить фоновый поиск информации без заметного увеличения загруженности жесткого диска по заданным категориям, а также проводить определение категорий или ценности хранимой на компьютере информации в фоновом режиме.

Щербаков А.Ю.