如何計算所需的樣本數量,以獲得伯努利隨機變量的有用置信區間長度?


0

我正在從1億個文檔中提取元數據字段。這些元字段包括諸如"作者姓名","作者位置","關鍵字"之類的內容。某些文檔具有所有這些元字段,某些文檔具有其中的一些字段,而某些文檔則沒有。我們不知道該人群的元字段覆蓋率是多少,但是我們希望在處理整個集合之前從樣本中得出最佳猜測(例如,45%的文檔將包含一個作者姓名... 5%的將包含一個作者姓名。作者位置)。

基本樣本量計算表明,我需要分析166個隨機文檔,以使我有99%的信心表示我的樣本代表總體(99%的置信度),而我們的覆蓋率的置信區間為正負10%發現。

但是,直覺上,這對我來說似乎不是正確的方法。如果一個元字段在整個人口中很少出現,那麼我似乎不得不調整自己的人口或更改該特定元字段的置信區間。

我應該如何設計此測試以獲得代表完整文檔種群的元字段的有效覆蓋率?

0

Unfortunately, as you notice, the length of a CI for the parameter of a Bernoulli random variable depends on the same variable. At 50% the CI is shorter, at the tails it is longer. So you cannot give a uniform error bound for all fields, unless in all fields the same proportion of entries is empty.