От apple16 Ответить на сообщение
К Fateev Ответить по почте
Дата 01.06.2018 10:27:40 Найти в дереве
Рубрики WWII; Армия; 1941; Память; Версия для печати

Конечно вопрос в процессе

Есть куча софта для борьбы за качество данных
Причем там не умная какая-то big data

В простейшей формулировке есть запись и ее связи с другими сущностями
(родственниками, населенными пунктами, воинскими формированиями, датами)
Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи

Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
Специальные коэффициенты, если в одной записи нет поля а в другой есть.
(в зависимости от типа исходного документа)
Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Если все ok - накатываем. теперь у нас другое множество id с другими связями
При этом можно и назад откатить если была ошибка


Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
Потом сложнее и сложнее

Городских раскидывать не очень сложное дело - там адреса и прочее
Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело

Население выступает в качестве бесплатного QA - сигнализирует если что не так.
Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.

Сходные задачи решают и банки и страховые и всякие федеральные программы.
В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.

Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))