利用Python实现海量数据之间的合并工作——pandas.merge
在excel中需要利用VLOOKUP函数进行两个表格的关联列合并操作。Python中的pandas.merge()函数拥有更加强大的功能,函数需要利用Pandas包。
其中,
1、data1和data2表示需要进行合并操作的两个数据集表格,两个表格都可以选定特定列进行合并操作;
2、how='' 表示两个列表的合并策略,可选参数有'left'、'right'、'outer'和'inner'4种,
(1)'left' 表示以左表格(data1)为基准进行合并,合并时保留左表格匹配列的全部内容,右表格(data2)多出内容进行删除,缺少内容填入nan值;
(2)'right' 表示右表格为基准进行合并,合并时保留右表格匹配列的全部内容,左表格多出内容进行删除,缺少内容填入nan值;
(3)'outer' 表示进行合并时保留两表格匹配列的全部内容,相互缺失的内容填入nan值;
(4)'inner' 表示合并时仅保留两表格匹配列共同拥有的内容,其余进行删除处理;
3、on=[] 表示选定匹配列操作,匹配列必须是两表格的同名列,可选择多列进行匹配;
4、sort= 表示对匹配列的排序策略,True表示排序,False表示不排序&#