原文地址:http://news.sciencenet.cn/htmlnews/2023/7/504106.shtm
大数据时代,“小数据”有未来吗?武汉纺织大学数理科学学院江健教授团队与美国密歇根州立大学Guo-wei Wei教授团队共同研究认为:“有!”相关研究成果日前在线发表在国际期刊《化学评论》上。
?
小数据面临的挑战分析。受访者供图
由于数据获取中存在时间、成本、伦理、隐私、安全等各种限制,小数据在科学和工程研究中非常常见。江健认为,大数据处理与分析一直是过去十年到现在的焦点,小数据集及其挑战却很少受到关注,尽管在机器学习和深度学习研究中它们在技术上面临更为严峻的挑战。
他告诉《中国科学报》,总体而言,小数据集挑战往往因数据多样性、填补、噪声、不平衡和高维度等问题而变得更加复杂。幸运的是,当前大数据时代的特点是机器学习、深度学习和人工智能的技术突破,使得数据驱动的科学发现成为可能,而许多为大数据开发的先进机器学习技术无意中为小数据集问题提供了解决方案。因此,过去十年中,针对小数据挑战的机器学习和深度学习取得了重大进展。
该论文总结并分析了包括化学、生物、医药、材料在内的分子科学中小数据集挑战的几种潜在的新兴解决方案。论文详细地从逻辑回归、K近邻、支持向量机、核函数学习、随机森林和梯度提升树,以及更先进的技术,包括人工神经网络、卷积神经网络、U-net、图神经网络、生成对抗网络、长短期记忆、自编码器、transformer、迁移学习、主动学习、基于图的半监督学习,以及基于物理模型的数据增强技术等方面讨论了这些方法的最新进展,并对小数据集挑战未来发展趋势做了相关展望。
武汉纺织大学数理科学学院相关负责人介绍,江健一直从事药物设计、复杂网络建模等交叉学科方面的研究,其所在的计算系统生物学团队近5年来,在单细胞测序数据分析、药物设计及发现、蛋白质结构预测和高光谱图像处理等研究领域取得了一系列研究成果。
山西大学智能信息处理研究所团队在图神经网络研究方面取得重要进展,相关成果5月23日发表于人工智能领域国际期刊《IEEE模式分析与机器智能学报》(IEEETransactionsonPatternAna......
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......
10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......
”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......
关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......
10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......
实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......
近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......
10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......
近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......