在年的时候,MITCSAIL教授ReginaBarzilay依然带领学生在ACL、EMNLP上发布了六篇论文,而且在接下来的几年笔耕不辍,高产连连。
你或许要问雷锋网AI科技评论:为何用“依然”这个词?
因为在这一年,Barzilay被诊断患有乳腺癌。
ReginaBarzilay专注NLP领域,在年曾被评选为MITTR35之一。在患病之后,Brazilay意识到好的数据非常宝贵。「你非常需要数据,非常需要信息。」Barzilay表示,「我是否要采用这种药物?这个治疗方案对我来说是最好的选择吗?复发率会是多高?如果没有可靠的数据支持,那么你的治疗方案只能依赖全凭运气的猜测。」
兴许是自己的切身体会让Barzilay感触良多,在鬼门关走过一遭后,Barzilay在回到学校后就着手开展了机器学习应用于医学领域的研究,并在年发布了《利用机器学习分析乳腺癌报告》的论文。
从诊断到治疗,从预防到检测,Barzilay想做的并不是颠覆现有的临床研究,只是想利用机器学习帮助医生和患者从中受益。医生会通过病人的信息手工映射到结构化的数据上,并确定病症的相关性。这种原始的方法可以与计算机科学联系起来,并利用后者完成人类医生一直在做的事情。
但是,诊断中存在的延误与失误对科学进步而言实在是一大讽刺和阻碍。雷锋网根据美国肿瘤协会提供的一项数据了解到,美国每年有万人诊断患有癌症,但只有3%参加了临床试验。而目前的研究实践数据只能完全依赖这3%的患者。因此,Barzilay想做的,就是从剩下的97%患者中获取更多的信息。
Barzilay医院名师的合作,医院(MGH)的乳腺放射科主任TaghianAlphonse、MGH的AvonComprehensiveBarzilayreastEvaluationCenter的KevinHughes、还有乳腺图像处理部的ConstanceLehman等。他们为Barzilay的研究提供宝贵的数据支持。
而在MITStata中心,Barzilay表示目前的项目资金其实足够给前来工作的学生们支付酬劳,但就像Barzilay一样,学生们都是本着一颗热忱的心在无偿劳动。「在MIT这么长时间,我从来没有见过学生对研究抱着如此崇高的情怀,而且还自愿奉献自己的时间。」
Barzilay主要通过NLP结合患者的诊断报告,对数据进行检索、总结及文本的理解。通过NLP工具,Barzilay与学生们从10.8万份癌症患者的报告中提取了相关的临床信息,而所整理的数据集准确度达到98%。
她的工作核心是机器学习,或者说,让计算机从数据中习得算法与事物间的内在联系。就像亚马逊、Netflix那样,系统能够跟踪并预测你的喜好,并将这些「小结论」综合为大数据。
下一步,Barzilay准备将治疗结果加进诊断报告中。在另一个研究中,Barzilay开发了一个数据集,Hughes团队能够利用这个数据集监控非典型疾病的发展,也就是说,医生可以判断哪些病人在未来有高风险罹患癌症的可能性。
机器在预测上有着天生的优势——但Barzilay却不满足于此,她与电子工程及计算机科学学院的教授TommiJaakkola及学生TaoLei尝试揭开机器学习的黑箱,在文本数据方面提出了一种新的训练神经网络的方法,让机器不仅可以提供预测与分类,还能为人类的决策提供理论的决策依据。这一研究目前已经尝试应用于数千份乳腺活检的病理报告,通过文本为病理学家提供诊断依据。
此外,Barzilay也在研究如何让这些新工具更好地做出预测。乳腺的X光片信息量非常大,人类在短时间内很难全部看清,而与之不同的是,机器能够观察到最为细微的变化,而且在低像素的X光中,它的表现也同样不俗。Barzilay与Lehman和NicolasLocascio进行合作,将深度学习用于分析乳腺X光片。
他们的小目标是希望帮助放射科医生分析一些常用的诊断指标,大目标则是希望能在X光片都看不出端倪时,能够先给病人敲响警钟,或判断哪些病人的有复发的可能性。这实际上也就是「预测」了——在X光还没有显示问题时,机器就已经「看透」了一切。
但要实现终极目标,则需要让计算机应用于健康领域的各个方面。目前这一方向已经有了进展:Taghian与研究生JulianStraub带领六个本科生目前开发了一个采用机器学习检测淋巴瘤的设备。这种疾病早期症状非常隐蔽,如果没有及时发现,后果将不堪设想。不过由于造价昂贵,相关的检测设备在美国非常稀缺。学生们正在尝试开发出造价更加便宜的版本,并希望数月内能在MGH里进行测试。
Barzilay对于目前机器学习做出的贡献感到非常欣慰,她认为这在未来将会对医疗领域产生巨大变革,「现在依然任重道远,我们的征程才刚刚开始。」雷锋网也将持续