...

понедельник, 16 ноября 2015 г.

Начинаем использовать Rust

Всем привет!
С недавнего времени я начал изучать прекрасный язык Rust. Практическое применение этого языка для себя я вижу во встраивании в критические по производительности места кода (по крайней мере, до момента «дозревания» и обрастания библиотеками и фреймворками).

Для закрепления теоретических навыков я решил сделать небольшой проект, суть которого состоит в следующем: динамическая библиотека на Rust реализует упрощенный вариант Алгоритма шинглов и посредством FFI позволяет подключать её (библиотеку). Всем кому интересно прошу под кат.
Для начала немного теории — что такое FFI? Вот мой вольный перевод по материалу с англоязычной википедии:
FFI (Foreign function interface) — механизм, позволяющий исполнять код, написанный на одном языке, другим (языком). Термин пришел из языка программирования Lisp (точнее его диалекта Common Lisp), также он именуется в Haskell и Python. В Java его называют JNI (Java Native Interface) или JNA(Java Native Access).

В большинстве случаев, FFI объявляется в языках высокого уровня (python, ruby, js), так чтобы была возможность использовать сервис, объявленный и реализованный на языке низкого уровня (C, C++). Это позволяет использовать одному языку программированию API OS, в котором они не определены (но определены в другом языке программирования) или улучшить производительность.

Основная функция FFI — это связывание семантики и соглашения о вызове одного языка (хоста) с семантикой и соглашением о вызове другого(гостя). Этот процесс должен учитывать среду исполнения и/или двоичный интерфейс обоих.

Так хватит теории, приступим к практике.

Rust
Для начало нужно создать новый проект при помощи команды (перед этим нужно установить Rust на вашу систему):

cargo new [название проекта]

После этого появится папка с названием, которое вы указали, со следующим содержимым

В конфигурационный файл Cargo.toml пишем следующий код:

Cargo.toml
[package]
name = "libshingles"
version = "0.1.0"
authors = ["Andrey Ivanov <lekkion@gmail.com>"]

[dependencies]
regex = "0.1.41"
rust-crypto = "^0.2"
libc = "0.1"

[lib]
name = "libshingles"
crate_type = ["dylib"]



В блоке [package] указываем информацию о вашем пакеты, в [dependencies] — подключаемые контейнеры, а в [lib] содержится указание скомпилировать библиотеку в виде стандартной динамической библиотеки (по умолчанию, компилирует в специфичный формат rlib).

Теперь непосредственно код lib.rs:

lib.rs
extern crate libc;
extern crate regex;
extern crate crypto;

use std::ffi::CStr;

use std::thread;
use regex::Regex;
use std::cmp::min;
use crypto::md5::Md5;
use crypto::digest::Digest;

#[no_mangle]
pub extern "C" fn count_same(text1: *const libc::c_char, text2: *const libc::c_char, length: usize) -> f32 {
        let buf1 = unsafe { CStr::from_ptr(text1).to_bytes() };
        let text1_ = String::from_utf8(buf1.to_vec()).unwrap();

        let buf2 = unsafe { CStr::from_ptr(text2).to_bytes() };
        let text2_ = String::from_utf8(buf2.to_vec()).unwrap();

        fn canonize(text: String) -> String {
                let html = Regex::new(r"<[^>]*>|[:punct:]").unwrap();
                let stop_words = Regex::new(r"(?i)\b[а-я]{1,2}\b").unwrap();
                let mut temp = html.replace_all(&text, " ");
                temp = stop_words.replace_all(&temp, " ");
                temp
        }

        fn get_shingles(text: String, len: usize) -> Vec<String> {
                let text = canonize(text);
                let split: Vec<&str> = text.split_whitespace().collect();
                if(split.len()<len) {
                        return Vec::new();
                }

                let mut str: Vec<String> = Vec::new();
                for i in 0..(split.len()-len+1) {
                        let mut buf = String::new();
                        for y in i..i+len {
                                buf = buf + " " + split[y];
                        }

                        let el = String::from(buf.trim()).to_lowercase();
                        str.push(el);
                }

                let mut handles: Vec<_> = Vec::with_capacity(str.len());
                for item in str {
                        handles.push(
                                thread::spawn(move || {
                                        let bytes: &[u8] = item.as_bytes();
                                        let mut hash = Md5::new();
                                        hash.input(bytes);
                                        hash.result_str()
                                })
                        )
                }

                let mut res: Vec<String> = Vec::new();
                for h in handles {
                        match h.join() {
                                Ok(r) => res.push(r),
                                Err(err) => println!("error {:?}", err),
                        };
                }
                res
        }

        let shingles1 = get_shingles(text1_, length);
        let shingles2 = get_shingles(text2_, length);
        if(shingles1.len()==0 || shingles2.len()==0) {
                return 0 as f32;
        }

        let mut same = 0;
        for item in &shingles1 {
                for el in &shingles2 {
                        if(*item == *el) {
                                same += 1;
                        }
                }
        }

        same = same*100;
        let length_text = min(shingles1.len(), shingles2.len());
        let length_text_f = length_text as f32;
        let same_f = same as f32;

        let result: f32 = same_f/length_text_f;
        result
}



Я уже упоминал, что алгоритм шинглов во многом упрощен: этап канонизации сведен к очистке от знаков препинания и удалению слов длиной менее два символа (такие слова обычно лишены всякой смысловой нагрузки). По-хорошему следовало очистить текст от прилагательных и отбросить от слов окончания, оставив только корни. Но для решения моих задач эта реализация подходит более чем.

В коде библиотеки я обращу внимание только на моментах относящихся к реализации FFI.

extern crate libc;  


Назначение этого контейнера в обеспечении всех определений, необходимых для взаимодействия с C-кодом на каждой платформе, поддерживающую Rust: определение типов, постоянных, а также заголовков функций.

Атрибут

#[no_mangle]
позволяет отключить дефолтовое поведение, которое изменяет имена функций.
pub extern "C"
указывает, что эта функция придерживается соглашения о вызове за пределами этого модуля по бинарному интерфейсу С.
text1: *const libc::c_char
text2: *const libc::c_char

Это типы сигнатур для CString
let buf1 = unsafe { CStr::from_ptr(text1).to_bytes() };
let text1_ = String::from_utf8(buf1.to_vec()).unwrap();

let buf2 = unsafe { CStr::from_ptr(text2).to_bytes() };
let text2_ = String::from_utf8(buf2.to_vec()).unwrap();

Здесь мы обозначаем как небезопасный код извлечение байтов по сырому указателю на CString. И конвертируем эти байты в тип String.

Вот и все. Важное замечание — не паникуйте при написании динамической библиотеки с использованием FFI! Использование макроса panic! приводит к неопределенному поведению. Если вы используйте panic!, необходимо выносить его в другой поток, так чтобы паника не всплывала к С.

Пример
use std::thread;

#[no_mangle]
pub extern fn oh_no() -> i32 {
    let h = thread::spawn(|| {
        panic!("Oops!");
    });

    match h.join() {
        Ok(_) => 1,
        Err(_) => 0,
    }
}



Компилируем библиотеку командой
cargo build

Cкомпилированная библиотека будет расположена по пути
/target/debug/
с расширением .so. Приступим к подключению нашей библиотеки в других языках.

Node.js
Чтобы подключить нашу динамическую библиотеку на этой платформе используем библиотеку, именуемую в npm как «ffi».
Вот пример подключения библиотеки:

index.js
var FFI = require('ffi');

var lib = FFI.Library('./target/debug/liblibshingles.so', {
    'count_same': [ 'float', [ 'string', 'string', 'int' ] ]
});

module.exports = lib.count_same;


var text1 = "Сегодня после аппаратного совещания, где был заслушан доклад министра энергетики, жилищно-коммунального хозяйства и государственного регулирования тарифов Удмуртии Ивана Маринина о подготовке к  следующему отопительному сезону, глава республики Александр Соловьев прокомментировал ситуацию с пуском тепла в этом году, сообщает пресс-служба главы и правительства Удмуртии. «У меня есть информация, как Ижевск готовился к отопительному сезону в 2010-м, в 2011-м и других годах, в том числе и нынче. Меня такая работа не устраивает, — сказал Александр Соловьев. — Много вопросов к Министерству жилищно-коммунального хозяйства, есть вопросы к заместителю председателя правительства Сивцову, который отвечает за ЖКХ. Это их работа — пусть разбираются». По словам руководителя региона, долги, из-за которых в том числе в Ижевске были проблемы с пуском тепла, влияют не только на отопительный сезон. Александр Соловьев сказал, что, имея большие долги, невозможно решать вопросы в Москве ни по дальнейшей газификации республики, ни по строительству плавательного бассейна. «Мне всегда говорят, что так не только у нас, но и в других субъектах. Не надо равняться на плохие примеры, — отметил глава Удмуртии. — Руководство городов обновили. Узкие места нам известны. Теперь при принятии бюджетов городов, бюджета республики необходимо учесть все ошибки, чтобы следующий отопительный сезон открыть безболезненно и своевременно. От каждого ответственного за тот или иной участок мне нужна эффективная работа — только и всего».";
var text2 = "Отвечая на вопрос представителей СМИ об использовании десяти новых автомобилей «Лада Веста», переданных в субботу республике Ижевским автозаводом, руководитель Удмуртии отметил, что эти машины получат районы республики, сообщает пресс-служба главы и правительства республики. Распределение произведено с учётом достижений той или иной территории и состояния используемых ныне автомобилей. «У некоторых глав уже совсем старые машины. Если бы было 25 автомобилей, я бы всем отдал. В бюджете у нас на приобретение транспорта было заложено 50 миллионов рублей, но я принял решение нынче не закупать новые машины», — сказал Александр Соловьев. «Лады Весты» будут переданы в распоряжение Алнашского, Балезинского, Игринского, Киясовского, Красногорского, Малопургинского, Селтинского, Сюмсинского, Юкаменского и Ярского районов.";

lib.count_same.async(text1, text2, 2, function(err, res) {
    if(err) {
        return console.log('err', err);
    }
    console.log(res)
});



Пакет ffi позволяет исполнять подключаемый код в другом потоке, используя libuv — для сохранения концепции асинхронности кода. Более подробная информация здесь.

Материалы, использованные при написании статьи:
RUST FFI Embedding Rust in projects for safe, concurrent, and fast code anywhere
Node FFI Tutorial
Foreign function interface
Foreign Function Interface Rust book

Также спасибо товарищу mkpankov

Код на гитхабе

This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.

Комментариев нет:

Отправить комментарий