python 机器学习&restful服务化

最近一直想用机器学习做一个模型，然后暴露服务，提供restful接口给外部调用，这样也能体现出模型的价值，所以今天稍微捣鼓了一下，之前用过java的weka去做过，但是发现那个好麻烦，而且对很多算法的支持不够强大，社区好像也没太多人，所以今天转向python去做，python机器学习社区还是比较火的，我用的环境是anaconda，在jupyter下面去写的这个例子，前面主要是模型的训练，
后面用了python的flask框架做了一个restful接口，这样直接可以通过接口访问，直接通过json进行交互，屏蔽了平台的差异性。

import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
# Load libraries
import pandas
from pandas.tools.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from flask import Flask

def study():
# Load dataset
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]
    validation_size = 0.20
    seed = 7
    X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)
# Test options and evaluation metric
    seed = 7
    scoring = 'accuracy'
# Spot Check Algorithms
    models = []
    models.append(('LR', LogisticRegression()))
    models.append(('LDA', LinearDiscriminantAnalysis()))
    models.append(('KNN', KNeighborsClassifier()))
    models.append(('CART', DecisionTreeClassifier()))
    models.append(('NB', GaussianNB()))
    models.append(('SVM', SVC()))
# evaluate each model in turn
    results = []
    names = []
    result = ""
    for name, model in models:
        
        kfold = model_selection.KFold(n_splits=10, random_state=seed)
        cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
        results.append(cv_results)
        names.append(name)
        msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
        result = result + msg
    return result

app = Flask(__name__)

@app.route('/')
def index():
    return study();

if __name__ == '__main__':
    app.run(host='127.0.0.1',port=3366)

运行结果


Python: 3.6.1 |Anaconda 4.4.0 (x86_64)| (default, May 11 2017, 13:04:09) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)]
scipy: 0.19.0
numpy: 1.12.1
matplotlib: 2.0.2
pandas: 0.20.1
sklearn: 0.18.1

* Running on [http://127.0.0.1:3366/](http://127.0.0.1:3366/) (Press CTRL+C to quit)

调用rest api结果

image.png

感想与计划
之前一直觉得做一件事很难，的确，做好一件事并不简单，但是要是去入门什么的确实十分的简单，上面贴的那么多代码，我并不知道每个函数的具体用法，但是我可以推测出每个函数大致是在干什么，每个参数大致代表什么意思，因为我对机器学习这个流程很了解，所以我知道每一部分的代码在做什么，

    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]

比如说上面的url表示的就是数据集的链接，names就是表示数据集的feature和target，很显然前面四个是这个数据集的feature也就是有4个特征，最后的class应该就是target(结论)。
那么接下来就是通过pandas去读取这个文件,当然pandas我也不知道是什么，但是我能猜出来大致是要通过这个url下载这个文件，而且保存为csv格式，然后给这些记录加上名称。
然后array就是取这个数据集里的值,X就是取0=<X<4列的数据，Y也就是取第4列的数据，作为target，在我们去做一些未知的事情的时候，有时类比和猜想能让我们快速的入门，即使有时候我们猜想是错误的，但是我们毕竟在这个过程中注入了自己的想法，这个和看到不懂的不会的直接去google差距还是很大的，后者也能解决问题，但是有一种依赖，前者或许有时候不能快速的解决问题，但是却能够培养我们一种良好的思维方式。记得之前在实习的时候，老大分给我一个任务，对于当时的我来说真的亚历山大，但是在我的努力下还是做出来了，虽然做的不够好有很多问题，但是经过后来的慢慢优化，一样可以做的很好，我们都是在成长，都是在学习，解决问题的方式很重要，有没有自己的想法也很重要，这也是我最近工作所感触最深的。

首页

热点资讯

义务教育

高等教育

出国留学

考研考公

python 机器学习&restful服务化