研究背景:
乳腺癌通常发生于乳房腺上皮组织,是当前全球女性最常见的恶性肿瘤之一,严重影响女性身心健康甚至危及生命,发病隐匿,预后较差,其发病率逐年上升,发病年龄趋于年轻化。中国女性乳腺癌发病率低于欧美,但近年来发病率逐年快速上升,特别是在一些经济发达地区,监测表明:在北京、上海、广州等发达城市乳腺癌发病率已跃居女性恶性肿瘤之首。然而乳腺癌的病因至今尚未完全明了,既往的研究认为乳腺癌的发生是遗传因素和环境因素共同作用的结果。然而,近年来随着社会不断进步,文化不断交流和交融,女性对相关因素的暴露情况也随之变化。因而,影响乳腺癌发生的危险因素需要进一步的分析和评估,而建立乳腺癌的风险预测模型是简单有效的方法,运用模型筛选高危人群,不仅能预知研究对象的发病风险,还能尽早采取干预措施,从而实现疾病的一级预防,减轻疾病负担。
目的:
研究郑州地区的目标人群的一般情况、文化程度、婚姻状况、健康状况、个人疾病史、生活方式、饮食习惯、职业暴露史等因素与乳腺癌的关系,并建立乳腺癌风险预测模型,寻求乳腺癌发病的危险因素,筛选高危人群,为乳腺癌防制工作和制定干预措施提供科学依据。
方法:
采用问卷调查的方法,从2010年12月至2012年6月在郑州大学第三附属医院普通外科中心治疗的患者中,选择在郑州地区生活10年以上的住院患者为研究对象,获得研究对象的知情同意后收集资料,最终以确诊的81例乳腺癌病人为病例组,以同期90例健康体检者为对照组,采用Epidata3.0建立调查表数据库,并进行双录入核查、逻辑一致性核查后将数据导出转换成SPSS格式。
首先比较各因素在病例组和对照组的差异,率的比较采用卡方检验,有序分类变量各等级强度的差别采用秩和检验。针对单因素分析中有统计学意义的变量运用Multifactor Dimensionality Reduction 2.0软件分析各个因素的交互作用,筛选出不同因素组合的最优模型,再进行多因素非条件Logistic回归分析,并建立Logistic回归模型以验证多因子降维分析的结果,并对Logistic回归模型做出评价。除了Multifactor Dimensionality Reduction2.0软件外,其他分析所用的软件为SPSS12.0。
结果:
单因素分析筛选到16个有统计学意义的乳腺癌危险因素,分别为体重指数(P=0.004)、文化程度(P=0.005)、职业(P<0.001)、饮食习惯(P<0.001)、吸烟(P=0.001)、饮酒(P=0.006)、体育锻炼(P=0.002)、初潮年龄(P<0.001)、月经周期(P<0.001)、首次活产年龄(P=0.039)、活产次数(P=0.020)、流产次数(P<0.001)、哺乳(P<0.001)、雌激素替代治疗(P<0.001)、乳腺癌家族史(P<0.001)、乳腺良性疾病史(P<0.001)。
最优的多因子降维模型是三阶模型,即月经初潮年龄、雌激素替代治疗、乳腺癌家族史的交互作用模型,其测试集平衡精度和交叉验证一致性均为最高,分别为0.813、8/10,且置换检验有统计学意义(P<0.001)。
经Logistic回归分析,共有8个变量,分别为体重指数X1、饮食习惯X4、活产次数X11、流产史X12、哺乳X13、雌激素替代治疗X14、乳腺癌家族史X15、乳腺良性疾病史X16被纳入模型,最终得到的预测乳腺癌发病风险的模型为:ln(p/1-p)=-3.234+1.842X1-2.764X4(1)-2.958X4(2)+4.352X11(1)-0.323X11(2)+4.002X12-2.813X13+2.438X14+3.950x15+2.683X16。
用ROC曲线对Logistic回归模型进行评价,曲线下面积为0.814,95%置信区间为(0.738,0.889),用该模型筛选乳腺癌的灵敏度和特异度分别为72.6%、90.2%,与ROC曲线上最优的灵敏度和特异度(分别为75.0%、92.0%)接近。
结论:
乳腺癌的危险因素可能包括高体重指数、高脂饮食习惯、活产次数少、多次流产、未哺乳、雌激素替代治疗、乳腺癌家族史、乳腺良性疾病史。