От Fateev Ответить на сообщение
К apple16
Дата 01.06.2018 11:13:32 Найти в дереве
Рубрики WWII; Армия; 1941; Память; Версия для печати

Re: Конечно вопрос...

День добрый.
>Есть куча софта для борьбы за качество данных
Скажем так, эта задача глубоко нетривиальная, и у одних наших заказчиков в 2002г процент нормального разбора адресов (при загрузке из текста) вышел всего 50-55% картотеки(около 600 т.абонентов). Они плюнули на этот софт, написали (2 местных программера) за 2 недели свою процедуру - получилось около 65%. Еще около 3 недель ручной программерской работы по отлову массовых ошибок - и потом полгода ручной работы операторов. Но какие-то дубли ловят до сих пор.

>В простейшей формулировке есть запись и ее связи с другими сущностями
>(родственниками, населенными пунктами, воинскими формированиями, датами)
>Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи
Нет разницы - реляционная база или сетевая или иерархическая - важен именно алгоритм распознавания и на каких принципах его делать.

>Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
>Специальные коэффициенты, если в одной записи нет поля а в другой есть.
>(в зависимости от типа исходного документа)
>Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Согласен, обычно по каким то определенным критериям дубли и сливают.

>Если все ok - накатываем. теперь у нас другое множество id с другими связями
>При этом можно и назад откатить если была ошибка

Разумеется ! это вообще первое, о чем должны думать и делать при любой массовой конвертации.

>Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
>Потом сложнее и сложнее

>Городских раскидывать не очень сложное дело - там адреса и прочее
>Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело
В городах другое - одинаковые улицы и ошибки при вводе - примеры я уже показывал.

>Население выступает в качестве бесплатного QA - сигнализирует если что не так.
>Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

>Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.
>Сходные задачи решают и банки и страховые и всякие федеральные программы.
>В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.
С современными гражданами все таки проще - можно оттолкнуться от ID документов- паспорта, страховые, ИНН итп. С гражданами 1930-40х такое не проходит ( .

>Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))

Обычно (по моей практике) заказчиков на вразумление и трудовые подвиги очень хорошо стимулирует сильный пинок директората.

С уважением, Павел Фатеев.