五、调查方法

(一)数据获取方式和渠道

域名和网站的总量数据通过国内各国际域名注册商和CNNIC联合获得。

网页的特征数据由百度公司利用搜索技术对全国网站进行搜索获得。搜索时通过URL判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的IP地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。

网站的特征数据及在线数据库的特征数据通过Call Center电话问卷调查的方式获得。

(二)调查问卷的抽样方法

1.总体界定

按照对中国互联网络信息资源的定义(中国互联网络上公开发布的网页、在线数据库的总和),同时考虑到未注册域名而提供服务的网站数量较少以及调查的难度,本次调查中所指的总体为:中国(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有网站。

2.抽样框

关于抽样框,最直接的作法是选择抽样框为全国有域名的网站名录。由于保密性的原因,抽样过程需要委托各域名注册/代理商完成,从方便实施并提高数据精度的角度考虑选择抽样框为全国(不含港、澳、台)范围内的域名名录。

由于一个网站可能会有两个或两个以上域名,而有的域名没有建立网站。这样对于总体而言,就出现了“抽样框单位没有对应的抽样单位”、“抽样框单位和抽样单位不一一对应”等问题。对此,考虑采用排除、事后加权等方法来解决。

3.抽样方法

本次调查的抽样方法采用分层按比例抽样:考虑到各域名类别下网站特征的差别,首先按域名类别分层;之后在每个类别内采用定距抽样的方法来抽取样本,最后对调查结果进行事后加权处理以估计全国范围的估计量。下面分阶段叙述抽样方法:

第一阶段:将样本量分到各层

因为到目前(2003年11月)为止只有截止2003年6月30日的全国范围的域名数的情况;同时考虑到我们主要是利用各类别域名数之间的比例关系来确定样本量在各层的分配,而这种关系应该不会有较大的变化。因此本方案按照截止2003年6月30日的“各类别域名数占全国域名总数的比例”将样本总量分配到各域名类别。

第二阶段:将样本量分配到各域名注册/代理商

抽样过程由域名注册/代理商按照抽样办法(由中国互联网络信息中心提供)抽取指定数量的域名作为样本。样本按照各域名注册/代理商所注册拥有的域名数的比例进行分配。具体计算办法如下:

M ij =Mj×(Nij /Nj)

其中:M ij表示第i家域名注册/代理商所应抽取第j类的域名数,M j表示第j类应抽取的域名样本数,Nij表示第i家域名注册/代理商所拥有第j类的域名总数,Nj表示第j类的域名总数。

第三阶段:各家域名注册/代理商抽取域名样本

考虑到尽可能简化各域名注册/代理商抽取样本的工作量和保证抽样的精度,要求各域名注册/代理商在整理了域名名录(抽样框)后采用等距抽样,抽取样本步骤如下:

步骤1:分组

以域名的类别为单位对域名名录进行分组。

步骤2:排序

由域名注册/代理商对其抽样框(域名名录及相关信息)内各组域名首先按照域名注册单位所属省份排序,进而在域名注册单位所属省份下按域名注册先后时间进行排序。

步骤3:编号

对各组内完成排序的域名进行编号。域名注册单位所属省份排序和编号规则规定如下:

序号

省市区

序号

省市区

序号

省市区

序号

省市区

1

北京

9

上海

17

湖北

25

云南

2

天津

10

江苏

18

湖南

26

西藏

3

河北

11

浙江

19

广东

27

陕西

4

山西

12

安徽

20

广西

28

甘肃

5

内蒙古

13

福建

21

海南

29

青海

6

辽宁

14

江西

22

重庆

30

宁夏

7

吉林

15

山东

23

四川

31

新疆

8

黑龙江

16

河南

24

贵州

 

 

步骤4:抽取样本

以第i个域名注册/代理商、抽取第j类样本的过程为例叙述如下。第i个域名注册/代理商在第j组域名列表中抽取出指定数量的Mij个域名作为其提供的第j类域名的样本,抽取的规则如下:首先计算一个抽样距离XIJ(XIJ=Round(nij/Mij)),XIJ为第i个域名注册/代理商在第j类样本中的抽样间距,然后随机从1到nij中选出一个数S,那么编号为P=S+k*Xij(k=0、1、2、3   M ij-1)的域名即为被抽取的样本域名(当P>nij时,取P=P-nij)。

其他组的样本抽取过程类似,将各组中抽取到的样本综合到一起可组成第i个注册/代理商应抽取的样本。

步骤5:获取样本相关资料

将以上步骤所抽取的样本域名及其相关信息(包括:域名、域名类型、域名注册时间、域名所属单位、域名单位所在地、域名联系人、联系电话等)存为Excel工作表文件。格式如下:

序号

域名

域名类型

域名注册时间

域名所属单位

域名单位所在地

联系人及联系方式

1

cnnic.net.cn

Net

 

 

北京

 

 

 

 

 

 

 

 

将所有注册/代理商提供的样本合并即成为调查所需样本。


版权所有 中国互联网新闻中心 电子邮件: webmaster @ china.org.cn 电话: 86-10-68326688