|
От
|
Сибиряк
|
|
К
|
Сибиряк
|
|
Дата
|
30.06.2021 09:14:23
|
|
Рубрики
|
WWII;
|
|
Re: понятно, что...
>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.
Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.
Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.