От Samsv Ответить на сообщение
К Fateev Ответить по почте
Дата 01.06.2018 10:12:42 Найти в дереве
Рубрики WWII; Армия; 1941; Память; Версия для печати

Можно начать хотя бы с наведения порядка в адм. террит. делении.

>День добрый.

>>Те это рутинная задача для большого банка и уже давно
>>Да и пенсионный примерно такие же объемы шевелит
>
>50 лимонов записей - это копейки для современных компов и баз данных.
>Проблема именно в автоматическом распознавании дублей и их слиянии.
>Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.

>>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
>А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?


Приветствую!

А то каких только районов и нас. пунктов не встретишь.
Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.
Тогда и связывать похожие записи дегче будет.
С уважением, Samsv, http://samsv.narod.ru