您的当前位置:首页正文

python 机器学习&restful服务化

来源:华拓网
  • 最近一直想用机器学习做一个模型,然后暴露服务,提供restful接口给外部调用,这样也能体现出模型的价值,所以今天稍微捣鼓了一下,之前用过java的weka去做过,但是发现那个好麻烦,而且对很多算法的支持不够强大,社区好像也没太多人,所以今天转向python去做,python机器学习社区还是比较火的,我用的环境是anaconda,在jupyter下面去写的这个例子,前面主要是模型的训练,
    后面用了python的flask框架做了一个restful接口,这样直接可以通过接口访问,直接通过json进行交互,屏蔽了平台的差异性。
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
# Load libraries
import pandas
from pandas.tools.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from flask import Flask

def study():
# Load dataset
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]
    validation_size = 0.20
    seed = 7
    X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)
# Test options and evaluation metric
    seed = 7
    scoring = 'accuracy'
# Spot Check Algorithms
    models = []
    models.append(('LR', LogisticRegression()))
    models.append(('LDA', LinearDiscriminantAnalysis()))
    models.append(('KNN', KNeighborsClassifier()))
    models.append(('CART', DecisionTreeClassifier()))
    models.append(('NB', GaussianNB()))
    models.append(('SVM', SVC()))
# evaluate each model in turn
    results = []
    names = []
    result = ""
    for name, model in models:
        
        kfold = model_selection.KFold(n_splits=10, random_state=seed)
        cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
        results.append(cv_results)
        names.append(name)
        msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
        result = result + msg
    return result

app = Flask(__name__)

@app.route('/')
def index():
    return study();

if __name__ == '__main__':
    app.run(host='127.0.0.1',port=3366)
  • 运行结果

Python: 3.6.1 |Anaconda 4.4.0 (x86_64)| (default, May 11 2017, 13:04:09) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)]
scipy: 0.19.0
numpy: 1.12.1
matplotlib: 2.0.2
pandas: 0.20.1
sklearn: 0.18.1

* Running on [http://127.0.0.1:3366/](http://127.0.0.1:3366/) (Press CTRL+C to quit)

  • 调用rest api结果
image.png
  • 感想与计划
    之前一直觉得做一件事很难,的确,做好一件事并不简单,但是要是去入门什么的确实十分的简单,上面贴的那么多代码,我并不知道每个函数的具体用法,但是我可以推测出每个函数大致是在干什么,每个参数大致代表什么意思,因为我对机器学习这个流程很了解,所以我知道每一部分的代码在做什么,
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]

比如说上面的url表示的就是数据集的链接,names就是表示数据集的feature和target,很显然前面四个是这个数据集的feature也就是有4个特征,最后的class应该就是target(结论)。
那么接下来就是通过pandas去读取这个文件,当然pandas我也不知道是什么,但是我能猜出来大致是要通过这个url下载这个文件,而且保存为csv格式,然后给这些记录加上名称。
然后array就是取这个数据集里的值,X就是取0=<X<4列的数据,Y也就是取第4列的数据,作为target,在我们去做一些未知的事情的时候,有时类比和猜想能让我们快速的入门,即使有时候我们猜想是错误的,但是我们毕竟在这个过程中注入了自己的想法,这个和看到不懂的不会的直接去google差距还是很大的,后者也能解决问题,但是有一种依赖,前者或许有时候不能快速的解决问题,但是却能够培养我们一种良好的思维方式。记得之前在实习的时候,老大分给我一个任务,对于当时的我来说真的亚历山大,但是在我的努力下还是做出来了,虽然做的不够好有很多问题,但是经过后来的慢慢优化,一样可以做的很好,我们都是在成长,都是在学习,解决问题的方式很重要,有没有自己的想法也很重要,这也是我最近工作所感触最深的。