Можно начать хотя бы с наведения порядка в адм. террит. делении.
>День добрый.
>>Те это рутинная задача для большого банка и уже давно
>>Да и пенсионный примерно такие же объемы шевелит
>
>50 лимонов записей - это копейки для современных компов и баз данных.
>Проблема именно в автоматическом распознавании дублей и их слиянии.
>Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.
>>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
>А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?
Приветствую!
А то каких только районов и нас. пунктов не встретишь.
Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.
Тогда и связывать похожие записи дегче будет.
С уважением, Samsv, http://samsv.narod.ru