От apple16
К wadimych
Дата 14.11.2015 20:48:05
Рубрики WWII;

Но это рутинная задача - типовая для индустрии

1. Поднять процесс улучшения качества и связывать дубликаты
2. Поднять процесс занесения пропущенных лиц (при наличии документов)

Зато в любой момент можно дать список всех 10 миллионов, а не гадать с точностью 30%

Или сказать что вот у нас достоверно 2 миллиона по донесениям.
Остальное надо работать

Опять таки потери привязаны к формированиям, к донесениям этих формирований.
Если написано в донесении какого-то там полка мол потеряно сегодня 2 человека значит найти их.
Также большое количество пропавших без вести сидит в послевоенных делах военкоматов

Другой дороги нет - надо считать каждого, а не в столбик циры фронтов суммировать

От wadimych
К apple16 (14.11.2015 20:48:05)
Дата 14.11.2015 22:24:13

Многие просто не учтены (-)


От wadimych
К wadimych (14.11.2015 22:24:13)
Дата 14.11.2015 22:26:38

Вообще

Т.е. ты поднимаешь солдата с медальоном. Данных на него нет ни в ОБД, ни в документах ЦАМО.
Более полную картину даст разбор финансовых документов + анализ потерь по ОБД, это даст примерное количество неучтенных.
Но и это не исключает вышеописанного случая.

От Манлихер
К wadimych (14.11.2015 22:26:38)
Дата 16.11.2015 10:44:59

На заполненном бланке в медальоне тоже м.б. ошибка (+)

Моё почтение
>Т.е. ты поднимаешь солдата с медальоном. Данных на него нет ни в ОБД, ни в документах ЦАМО.
>Более полную картину даст разбор финансовых документов + анализ потерь по ОБД, это даст примерное количество неучтенных.
>Но и это не исключает вышеописанного случая.

...Плюс его еще можно неправильно прочитать, особенно если текст поврежден.

В сражениях за истину последняя участия не принимает

От apple16
К wadimych (14.11.2015 22:26:38)
Дата 15.11.2015 01:47:37

Значит заводится запись что есть медальон. Потом пригодится.

>Но и это не исключает вышеописанного случая.

Попытки почитать мемуары 1941 года с ОБД у меня в 50% процентов случаев заканчивались никак. Нет человека и все.
Наград еще нет, донесения о потерях и прочие документы
снигули вместе с дивизией. Военкоматские послевоенные уточнения тоже пусты.

Но начать надо - сколько у нас достоверных по базе знать нужно.
Кривошеев это прошлый век - тогда по фронтам просуммировать можно было.
Сейчас технически нет проблемы считать с точностью до человека.
Значит надо считать.

Интересно кто-то этой работой вообще занимается?
И сколько у него людей и денег.


От wadimych
К apple16 (15.11.2015 01:47:37)
Дата 15.11.2015 11:29:39

Ивлев

Что-то делает.

От neuro
К apple16 (14.11.2015 20:48:05)
Дата 14.11.2015 21:22:49

Re: Но это...

>1. Поднять процесс улучшения качества и связывать дубликаты
И как Вы их свяжите? Мой дед указан 4 раза. С разным отчеством, датой и местом рождения. Конкретно все 4 можно связать только зная гегрфию (места призыва - соседние районы). И связать их можно в том числе прочитав рукописный текст.
ЗЫ. Я работаю в програмиской конторе в коей клиентов много и 3 года занимался разбором данных из унаследованных систем.

От apple16
К neuro (14.11.2015 21:22:49)
Дата 15.11.2015 01:37:50

Это как раз стандартная задача

Линкуют записи согласно правилам из нескольких независимых источников.
Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
Естественно, что часть работы ручная.

Есть рынок целый - Master Data Management of Customer Data Solutions
Что-то там найти, купить, прикрутить и начать.
Ну или силами кулибиных слизать основные подходы тоже можно.
(хотя я не знаю смогут ли студенты что-то путное сделать, а не студетнов в госсекторе как бы и быть не должно)

Насчет сильно тяжелых случаев - работает вторая часть - отзывы родственников
со сканами документов.
Под 9 мая раскрутить новость - если хочешь выйти с фотографией в рамочке надо еще и на сайт пройти и проверить что там и как и если не так подробно описать и документы предоставить.

Весь вопрос нужно ли это кому - есть ли такая цель вообще. Кто-то под нее финансы выделяет или одноразовая была акция по сканированию донесений.

От neuro
К apple16 (15.11.2015 01:37:50)
Дата 25.11.2015 15:15:49

Re: Это как...

>Линкуют записи согласно правилам из нескольких независимых источников.
>Правил вагон - вплоть до отдельного алгоритма как вязать фамилии и повышенного доверия отдельным полям из отдельных источников.
>Естественно, что часть работы ручная.

>Есть рынок целый - Master Data Management of Customer Data Solutions
>Что-то там найти, купить, прикрутить и начать.
И что там покупать? Оцифрованные данные противоречивы, уточнить их можно используя сосканированные изображения, знания по довоенной географии, предложенные документы от родственников. И смотреть и сравнивать надо глазами. А это миллионы человек, соответственно многие человеко-годы и многие десятки миллионов затрат. Нереально.
С уважением, Рига Ю. В.