心電(ECG)信號是心律失常和心肌梗死診斷的重要依據。為進一步提升心律失常和心肌梗死分類效果,提出了一種基于Convolutional vision Transformer(CvT)和多模態圖像融合的心電分類算法。通過格拉姆求和角場(GASF)、格拉姆差分角場(GADF)和遞歸圖(RP)將ECG一維信號轉化成三種不同模態的二維圖像,并融合生成包含了更多特征的多模態融合圖像。CvT-13模型對融合后的圖像進行處理可以兼顧局部和全局信息,從而有效提升了分類性能。在MIT-BIH心律失常數據集和PTB心肌梗死數據集上,該算法對五種心律失常分類的綜合準確率達到99.9%,對心肌梗死分類的綜合準確率達到99.8%。實驗表明,高精度計算機輔助的智能分類方法具有一定的優越性,可以有效提高心律失常以及心肌梗死等心臟疾病的診斷效率。