【python】生成笛卡尔积(交叉表)DataFrame和numpy_dataframe 笛卡尔积-优快云博客

本文链接：https://blog.youkuaiyun.com/w417950004/article/details/78437777

有文件A：这里写图片描述，B：，希望通过A,B生成C：
就是笛卡尔积操作。
一，当数据在numpy数组中，数据为：

A=['a','b','c','d']
B=['1','2','3','4']

其实方法一的思想很简单粗暴：A,B元素存储在list中，将A中每个元素复制len(B)次，然后将之与B进行行合并；得到的结果再与result列合并。最后输出result
代码如下：

def dikaerji(A,B):
    lenB = len(B)
#     print(lenB)
    dika_num = pd.DataFrame(columns=['alph','num'])
    for a in A:
        curA = np.array([a]*lenB)
        curA.shape = (lenB,1)   

        # 必须要先转换成np的aray形式，不然会报“没有shape”的错
        curB = np.array(B)
        curB.shape = (lenB,1)

        join_h = np.hstack((curA,curB))

        dika_num = dika_num.append(pd.DataFrame(join_h,columns=['alph','num']),ignore_index=True)
    return dika_num

结果为：
这里写图片描述

方法二，若数据是在两个DataFrame中存储着：

first = DataFrame([['a','b','c','d']],columns=['first'])
second = DataFrame([1,2,3,4],columns=['second'])

思想：循环遍历两层for循环，使用iterrows()函数来获取行信息，代码如下：

def getMergeAB(A,B):
    newDf = DataFrame(columns=['alpha','nums'])
    for _,A_row in A.iterrows():
        for _,B_row in B.iterrows():
            AData=A_row['first']
            BData=B_row['second']  
            row = DataFrame([dict(alpha=AData,nums=BData)])
            newDf = newDf.append(row,ignore_index=True)
    return newDf

测试：

first = DataFrame([['a','x'],['b','y'],['c','z'],['d','w']],columns=['first','x_first'])
second = DataFrame([1,2,3,4],columns=['second'])
da = getMergeAB(first,second)