#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sat Dec 30 20:02:22 2017

@author: Kamessi
"""

import csv
import numpy as np
from scipy import linalg as LA
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
import math

def read_country(filename):
    f = open(filename,'r', encoding='cp1252')
    reader = csv.reader(f)
    raw_matrix = []
    for row in reader:
        temp = []
        for i in range(0,len(row)):
            try:
                temp.append(float(row[i]))
            except ValueError:
                temp.append(row[i])
        raw_matrix.append(temp)  
    f.close()
    return raw_matrix


def main():
    #Read the raw matrix
    raw_matrix = read_country("2009.csv")
    
    #compute mcp
    product_list = raw_matrix[0][1::]
    country_list = []
    for i in range(1,len(raw_matrix)):
        country_list.append(raw_matrix[i][0])
    
    country_sum = []
    for i in range(1,len(raw_matrix)):
        country_sum.append(np.sum(raw_matrix[i][1::]))
    
    product_sum = []
    for i in range(1,len(raw_matrix[0])):
        product = 0
        for j in range(1,len(raw_matrix)):
            product += raw_matrix[j][i]
        product_sum.append(product)
    total_sum = np.sum(product_sum)
    
    mcp = []
    
    for i in range (1,len(raw_matrix)):
        country_row = []
        for j in range(1,len(raw_matrix[i])):
            percentage = raw_matrix[i][j]/country_sum[i-1]
            total_percentage = product_sum[j-1]/total_sum
            if percentage > total_percentage:
                country_row.append(1)
            else:
                country_row.append(0)
        mcp.append(country_row)
    
    #compute mpp
    country_sum = []
    for i in range(0,len(mcp)):
        country_sum.append(np.sum(mcp[i]))
    
    product_sum = []
    for i in range(0,len(mcp[0])):
        product = 0
        for j in range(0,len(mcp)):
            product += mcp[j][i]
        product_sum.append(product)
    total_sum = np.sum(product_sum)
    
    mpp = []
    for i in range(0,len(mcp[0])):
        product_row = []
        for j in range(0,len(mcp[0])):
            temp_sum = 0
            for k in range(0,len(mcp)):
                try:
                    temp_sum += (mcp[k][i] * mcp[k][j]/(country_sum[k]*product_sum[i]))
                except:
                    pass
            product_row.append(temp_sum)
        mpp.append(product_row)
    
    #compute PCI
    mpp = np.array(mpp)
    
    e_vals, e_vecs = LA.eig(mpp)
    eigenvectors = e_vecs.tolist()
    eigen = []
    for eigenvector in eigenvectors:
        temp = []
        for col in eigenvector:
            temp.append(col.real)
        eigen.append(temp)
    
    vector = []
    for i in range(0,len(eigen)):
        vector.append(eigen[i][1])
    
    pci = []
    if vector[len(vector)-2] > 0:
        for item in vector:
            pci.append((item-np.mean(vector))/np.std(vector))
    else:
        for item in vector:
            pci.append((-item+np.mean(vector))/np.std(vector))
    
    #compute proximity
    proximity = []
    for i in range(0,len(mcp[0])):
        product_row = []
        for j in range(0,len(mcp[0])):
            temp_sum = 0
            for k in range(0,len(mcp)):
                try:
                    temp_sum += mcp[k][i] * mcp[k][j]
                except:
                    pass
            p0 = product_sum[i]
            p1 = product_sum[j]
            if p0 < p1:
                large = p1
            else:
                large = p0
            product_row.append(temp_sum/large)
        proximity.append(product_row)
    
    #compute actual distance
    distance = []
    for i in range(0,len(mcp)):
        product_row = []
        for j in range(0,len(mcp[0])):
            sum1 = 0
            for k in range(0,len(mcp[0])):
                try:
                    sum1 += (1-mcp[i][k])*proximity[j][k]
                except:
                    pass
            sum2 = 0
            for k in range(0,len(mcp[0])):
                try:
                    sum2 += proximity[j][k]
                except:
                    pass
            if mcp[i][j] == 1:
                product_row.append(0)
            else:
                product_row.append(sum1/sum2)
        distance.append(product_row)
    
    #compute opportunity gain
    opportunity_gain = []
    for i in range(0,len(mcp)):
        country_row = []
        for j in range(0,len(mcp[0])):
            gain = 0
            for k in range(0,len(mcp[0])):
                temp = 0
                for l in range(0,len(mcp[0])):
                    temp += proximity[l][k]
                gain += (proximity[j][k]/temp)*(1-mcp[i][k])*pci[k]
            gain = gain - (1-distance[i][j]) * pci[j]
            country_row.append(gain)
        opportunity_gain.append(country_row)
    
    #compute ADI
    raw_matrix = read_country("ADI.csv")
    raw_matrix = np.array(raw_matrix)
    raw_matrix = np.transpose(raw_matrix)
    
    product_list2 = raw_matrix[0][1::]
    country_list2 = []
    for i in range(1,len(raw_matrix)):
        country_list2.append(raw_matrix[i][0])
        
    adi = []
    for i in range(1,len(raw_matrix)):
        temp = []
        for j in range(1,len(raw_matrix[0])):
            temp.append(float(raw_matrix[i][j]))
        adi.append(temp)
    
    #compute SOI
    soi = []
    
    if len(product_list) == len(product_list2):
        print("categorization verified")
    
    common = []
    for i in range(0,len(country_list)):
        if country_list[i] in country_list2:
            for j in range(0,len(country_list2)):
                if country_list[i] == country_list2[j]:
                    dependent = adi[j]
                    independent = []
                    for item in opportunity_gain[i]:
                        independent.append([item])
                    reg = LinearRegression()
                    reg.fit(independent, dependent)
                    r_2 = reg.score(independent, dependent)
                    common.append(country_list[i])
                    if country_list[i] == "China":
                        matrix = open("soi analysis 1.csv",'w',newline='')
                        writer = csv.writer(matrix)
                        start = ["Product","OG","Export Increase"]
                        writer.writerow(start)
                        for i in range(0,len(independent)):
                            temp = [product_list[i],independent[i][0],dependent[i]]
                            writer.writerow(temp)
                        matrix.close()
                    soi.append(r_2)
    
    print("Mean SOI: ",np.mean(soi))
    
    matrix = open("structual optimality index.csv",'w',newline='')
    writer = csv.writer(matrix)
    col_name = ["Country","SOI"]
    writer.writerow(col_name)
    for i in range(0,len(soi)):
        temp = [common[i],soi[i]]
        writer.writerow(temp)
    matrix.close()
    
    #comprehensive regression
    raw_matrix = read_country("GDP.csv")
    country_list3 = []
    gdp_change = []
    for i in range(1,len(raw_matrix)):
        country_list3.append(raw_matrix[i][0])
        gdp_change.append(float(raw_matrix[i][2])-float(raw_matrix[i][1]))
    
    independent = []
    dependent = []
    name = []
    
    for i in range(0,len(common)):
        if common[i] in country_list3:
            for j in range(0,len(country_list3)):
                if common[i] == country_list3[j]:
                    name.append(country_list3[j])
                    dependent.append(gdp_change[j])
                    independent.append(soi[i])
    
    data = np.array(independent)
    X = sm.add_constant(data)
    model = sm.OLS(dependent, X).fit()
    print(model.summary())
    

if __name__ == "__main__":
    main()