Методология

При извличане на информацията е приложено т.нар. tf-idf (term frequency–inverse document frequency) претегляне на честотите – т.е. по-често срещаните фирми участват в модела с по-голяма тежест. Така договорите в базата данни са разделени на атомични езикови единици (token) и за всяка от тях е изчислен tf-idf коефициент, като предварително от документите са премахнати единиците с големи положителни отклонения от средната честота на срещане, както и такива по-кратки от три символа. Коефициентите се изчисляват чрез честотата на срещане на всяка една единица във всеки един документ, кaкто и честотата на срещане на дадена единица в цялата база от документи.

При търсенето в полето „Предмет на поръчката” се прилага същата обработка на данните и на въведеното от потребителя и се отсяват всички документи, в които се среща поне една от търсените единици (search tokens). Коефициентите се нормират (целта е сумата от всички коефициенти да е равна на 1,0 за всеки документ) и се изчислява сумата от нормираните tf-idf коефициенти от единиците в търсения низ във всеки от изолираните документи (1). Намира се и броят търсени единици във всеки документ (2). Документите се агрегират по „изпълнител” и за всеки изпълнител се изчислява метрика, равняваща се на натрупаните от неговите договори коефициенти, изчислени в сумата по (1) и разделени на (2). Този резултат се претегля с произведението от общата тежест на единиците в дадения документ и броя им. На базата на най-добре оценените девет изпълнителя (които по горната методика биха покрили 100% от разглежданите кандидатури) се оформя процентното разпределение.

Проектът „Отворени обществени поръчки” е осъществен от Института за пазарна икономика в партньорство с Висшето училище по застраховане и финанси с финансовата подкрепа на Програмата за подкрепа на студентски иновации на Институт Отворено общество – София и Фондация Микрофонд – София