10 от 10 миллионов это 0.0001 % те не о чем и даже 1000 не о чем
Я дубликаты видел - их много
Можно сформировать критерий по которому автоматически сливать записи.
Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.
Критерий должен не подгребать под одну запись односельчан Кузнецовых
(те пусть он будет сначала слабый)
Потом потихоньку смотреть, кого предлагается объединить и идти дальше.
Также нужно поднять сервис деск, чтобы пользователи могли просить слить записи, если они что-то знают или имеют документы.
Контроль качества нужен.
Работа интересная и полезная, но денег на нее нет.