朱杭波
联系方式
教育经历
时间 | 单位 | 专业 | 学位 | 排名 |
---|---|---|---|---|
2021.09 - 2025.06 | 浙大宁波理工学院 | 生物工程 | 学士 | Rank:1% |
2022.09 - 2024.06 | 浙大宁波理工学院 | 计算机科学与技术 | 辅修 | Rank:1% |
科研技能
编程语言 : Python; R; Shell;
生物信息分析
- 单细胞相关 : 单细胞转录组分析;时空转录组分析 等;
- 转录组学 : 常规 RNA-seq 分析流程;差异表达分析;转录本组装 等;
- 数据可视化 : 熟练运用 R/ggplot2,Seaborn等工具进行可视化展示;
深度学习建模
- 框架 : 熟练掌握Pytorch, Tensorflow等深度学习框架,精通scikit-learn,熟悉模型的搭建,训练,测试等;
- 计算机视觉相关 : 熟练掌握基于图像数据的模型搭建,了解常规的网络架构,包括ResNet, VggNet,熟悉目标检测算法的常用算法,如YOLO系列。
- 数据可视化 : 熟练运用 R/ggplot2,Seaborn等工具进行可视化展示;
编程素养
- 工作环境 : 熟练使用 Linux 系统;习惯使用并行加速分析流程;有良好的文件归类和环境管理习惯;
- 记录与版本管理 : 熟练使用 Git;习惯使用 Markdown 进行文档记录;
- 流程开发 :熟练使用 Python 和 Shell 进行生信流程开发;大样本项目经验丰富;基本掌握 Snakemake 的使用;
- 代码规范 : 基本掌握模块化编程思想;注重代码可读性、复用性、可测试性;遵循优良的代码规范;
科研素养
- 高效的文献分类、管理、检索工作流;
科研 & 工作经历
本科期间
浙大宁波理工学院 酶分子改造实验室 导师:胡升 教授
2022.03 - 至今
承担 / 参与课题:
- 基于机器学习的蛋白质丰度预测 [深度参与]: 2022.03 - 2023.11 模型的训练,特征参数的选取,模型的部署[1]
- 构建了一个包含 46 种不同培养环境下蛋白质丰度值的数据集(2 万个样本);
- 使用了SMOGN 算法减小数据不平衡对模型的影响,增强了模型的鲁棒性;
- 使用随机森林,支持向量机等机器学习模型预测蛋白质的丰度,较基线模型提升 30%的准确度。
- 基于深度学习的GFP蛋白发光值预测 : 2024.04 - 至今 迁移学习;卷积神经网络;将蛋白值的二级结构信息与发光值相关联[2]
- 使用迁移学习和深度学习开发了一个模型,以预测从氨基酸序列中获取的 GFP 蛋白的荧光强度;
- 通过共进化分析,对氨基酸序列进行突变,并利用预测模型选择最佳序列;
- 进行湿实验室实验验证突变序列的有效性。
单细胞数据挖掘实习生
中国科学院北京基因组研究所(国家生物信息中心) 指导老师:章张,降帅
2023.07 - 2023.09
负责项目:
1、 单细胞数据挖掘
- 通过深入分析接受 PD-1 和 CTLA-4 治疗的黑色素瘤患者的单细胞 RNA 测序(scRNA-seq)数据,揭示了其中的关键差异;
- 通过分析癌症基因组图谱(TCGA)数据库中患者的生存信息,验证了与患者预后紧密相关的一系列基因,其中特别包括了lncRNA,例如 MIR155HG 和 RP1-56K13.3。
2、 Cell Taxonomy数据库更新
- 将挖掘到的lncRNA信息与其细胞类型归类整理,用于更新Cell Taxonomy数据库
开源项目
Is coming soon ......
研究方向 & 兴趣 & 目标
基于多组学数据构建癌症预后模型
- 利用高质量的多组学数据,如bulk RNA-seq、scRNA-seq等转录组学数据,筛选与生存期高度相关的基因来构建模型;
- 利用WSI病理切片、CT、MRI等病理组学和影像组学数据,筛选与疾病高度相关的特征;
- 结合表型和历史证据,鉴定相关的基因型和选择位点;
- 基于深度学习模型,利用上述组学参数,构建模型进行疾病预后预测。
基于大语言模型的蛋白值表达量预测
- 从蛋白质的三级结构出发,使用GNN来捕获蛋白值三级结构间的信息;
- 从**密码子偏好性“”的角度出发,利用卷积神经网络,捕获密码子偏好性与蛋白值表达量之间的联系;
- 微调已有的ProteinLLM模型,用于蛋白质信息的提取。
分析工具、数据库开发
- 高效生物信息软件开发
- 单/多物种多组学数据库开发
个人荣誉 & 奖励
2023,全国大学生数学建模竞赛浙江赛区一等奖 中国工业与应用数学学会
2023,美国大学生数学建模竞赛Honorable Mention 美国数学及其应用联合会(COMAP)
2022,2023 三好学生 浙大宁波理工学院