>Те это рутинная задача для большого банка и уже давно
>Да и пенсионный примерно такие же объемы шевелит
50 лимонов записей - это копейки для современных компов и баз данных.
Проблема именно в автоматическом распознавании дублей и их слиянии.
Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.
>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?
>Но можно проще поступить
>- хочешь ляпнуть на 9 мая с трибуны "Никто не забыт, ничто не забыто" будь добр покажи сертификат на 10,000 очищенных тобой или на твои деньги записей.
>Otherwise отсидка на 15 суток
Приведет к бооооольшой показухе и припискам.