Monday 27 November 2017

تتحرك من المتوسط - كيو

في قاعدة بيانات المعاملات التي تمتد على 1000 من الكيانات على مدى 18 شهرا، أود إجراء استعلام لتجميع كل فترة محتملة مدتها 30 يوما بواسطة الكيان مع سوم لمبالغ معاملاتها و كونت من معاملاتها في فترة الثلاثين يوما هذه، وإرجاع البيانات في الطريقة التي أستطيع ثم الاستعلام ضد. بعد الكثير من الاختبارات، هذا الرمز يحقق الكثير مما أريد: وسوف تستخدم في استعلام أكبر منظم شيء مثل: الحالة التي لا يغطي هذا الاستعلام هو عندما عدد المعاملات سوف تمتد عدة أشهر، ولكن لا يزال في غضون 30 يوما من بعضها البعض. هل هذا النوع من الاستعلام ممكن مع بوستغريز إذا كان الأمر كذلك، أرحب بأي مدخلات. العديد من المواضيع الأخرى تناقش تشغيل المجاميع، وليس المتداول. النص البرمجي كريت تابل: يتضمن الإخراج المثالي سوم (المبلغ) و كونت () من جميع المعاملات على مدار 30 يوما. انظر هذه الصورة، على سبيل المثال: يشير تمييز التاريخ الأخضر إلى ما يتم تضمينه من خلال طلب البحث. تسليط الضوء الصف الصفراء يشير السجلات ما أود أن تصبح جزءا من مجموعة. من خلال كل فترة 30 يوما ممكنة من قبل كيانتييد يعني أن الفترة يمكن أن تبدأ في أي يوم، لذلك 365 فترات ممكنة في السنة (غير قفزة) أو هل تريد فقط أن تنظر في أيام مع معاملة الفعلية كبداية من فترة على حدة لأي entityid. في كلتا الحالتين، يرجى تقديم تعريف الجدول الخاص بك، بوستغرس الإصدار، بعض البيانات عينة والنتيجة المتوقعة للعينة. نداش إروين براندستيتر جول 20 15 في 7:18 من الناحية النظرية، أنا يعني أي يوم، ولكن في الممارسة العملية ليست هناك حاجة للنظر في أيام حيث لا توجد معاملات. نشرت I39ve بيانات العينة وتعريف الجدول. ندش توفلكيندر 20 يوليو 15 في 14:50 لذلك كنت تريد أن تتراكم صفوف من نفس الكيان في نافذة لمدة 30 يوما بدءا من كل معاملة الفعلية. هل يمكن أن يكون هناك معاملات متعددة لنفسه (ترانزديت، إنتيغنتيد) أم أن هذه المجموعة محددة فريدا لا يحتوي تعريف الجدول الخاص بك على قيود فريدة أو بيكاي، ولكن يبدو أن القيود مفقودة. نداش إروين براندستيتر جول 20 15 في 15:44 الاستعلام لديك هل يمكن تبسيط الاستعلام الخاص بك باستخدام شرط نافذة، ولكن هذا فقط تقصير بناء الجملة، وليس تغيير خطة الاستعلام. أيضا باستخدام عدد أسرع قليلا (). منذ معرف هو بالتأكيد لا نول وأنت لا تحتاج إلى ترتيب بي إنتيانت منذ كنت بالفعل جزء بي إنتيتييد يمكنك تبسيط مزيد من ذلك، على الرغم من: لا تضيف النظام من قبل تعريف نافذة على الإطلاق، لا علاقة لها الاستعلام الخاص بك. ثم أنت لا تحتاج إلى تحديد إطار إطار مخصص، إما: أبسط وأسرع، ولكن لا يزال مجرد نسخة أفضل من ما لديك. مع أشهر ثابتة. الاستعلام الذي قد تريده غير محدد بوضوح، لذلك إل بناء على هذه الافتراضات: عد المعاملات والمبلغ لكل 30 يوما الفترة ضمن الصفقة الأولى والأخيرة من أي كيان. استبعاد الفترات الرائدة والزيادية دون نشاط، ولكن تشمل جميع الفترات المحتملة 30 يوما داخل تلك الحدود الخارجية. يسرد هذا كل الفترات التي تبلغ 30 يوما لكل كيان واحد مع المجموعات المجمعة، ويكون هذا التحويل في اليوم الأول (بما في ذلك). للحصول على قيم لكل صف فردي الانضمام إلى الجدول الأساسي مرة أخرى. الصعوبة الأساسية هي نفسها كما نوقش هنا: تعريف الإطار لنافذة لا يمكن أن تعتمد على قيم الصف الحالي. الاستعلام الذي تريده بالفعل بعد تحديث السؤال والمناقشة: تجميع صفوف من نفس الكيان في نافذة لمدة 30 يوما بدءا من كل معاملة فعلية. منذ يتم توزيع البيانات الخاصة بك قليلا، فإنه ينبغي أن يكون أكثر كفاءة لتشغيل الانضمام الذاتي مع شرط مجموعة. كل ذلك أكثر منذ بوستجرس 9.1 ليس لديها لاتيرال ينضم، ولكن: نافذة المتداول يمكن أن يكون معنى فقط (فيما يتعلق الأداء) مع البيانات لمعظم أيام. وهذا لا يجمع التكرارات على (ترانزديت، إنتيغنتيد) في اليوم، ولكن يتم تضمين جميع الصفوف من نفس اليوم دائما في إطار 30 يوما. بالنسبة إلى جدول كبير، يمكن أن يساعد فهرس التغطية مثل هذا الأمر قليلا: يكون مبلغ العمود الأخير مفيدا فقط في حالة إجراء فحص للشفرة فقط. عدا ذلك إسقاطه. ولكن لن تستخدم أثناء تحديد الجدول بأكمله على أي حال. وسوف تدعم الاستفسارات عن مجموعة فرعية صغيرة. إصدار بيتا إينودو النتيجة يستخدم مجموعة واسعة من واجهات برمجة التطبيقات المتاحة للجمهور وشراكات تبادل البيانات مصدر بياناتها. تأتي بياناتنا السكانية واالقتصادية بشكل عام من مكتب التعداد األمريكي، في حين يتم جمع بيانات سوق الشقق بشكل أساسي من مصادر مدفوعة وشراكات لتبادل البيانات مع قادة الصناعة. نذهب إلى أطوال كبيرة لتنظيف وتوحيد وتنسيق تلك البيانات قبل استخدامه للتحليل التنبؤية. مع تطور منصة التقدم، فإن جزء أكبر من بياناتنا تأتي مباشرة من المستخدمين من خلال التحميلات المباشرة وإدارة الملكية دمج البرامج، وضمان الاتساق ودقة المعلومات. تم تصميم قاعدة البيانات إينودو عشرات لجمع بيانات عمليات الملكية وكذلك بيانات عن استخدام المنصة نفسها، أو البيانات الوصفية، من كل مستخدم. ثم يتم استخدام هذه البيانات لتدريب وصقل خوارزميات التنبؤية لدينا. نحن نعرف مدى أهمية البيانات لقطاع العقارات هذا هو السبب في أننا صممنا برنامجنا للعمل مثل كرم القائم على السحابة (على سبيل المثال ساليسفورس). البيانات إيفريونيس آمنة تماما في حسابهم الخاص. في أي وقت يتم فيه تحميل خاصية أو تحليلها من قبل مستخدم، يتم إنشاء نسخة من تلك الخاصية، مع معرف فريد لا يمكن الوصول إليه إلا من حساب المستخدمين. بالنسبة للخوارزميات التنبؤية، فإن البيانات المحددة لأي مستخدم واحد ليست مهمة. البيانات الجماعية مجهولة المصدر من جميع المستخدمين هي حيث تكمن القيمة الحقيقية، وهذه هي البيانات التي تستخدمها الخوارزميات لدينا لتعزيز باستمرار التنبؤات وخلق توقعات السوق تطلعي. وقد تم إينودو عشرات البيانات فريق العلوم قادرة على تحقيق أكثر من 93 التنبؤات دقيقة من الإيجار بوصفها وظيفة من عنوان الملكية، وعدد من غرف النوم، وعدد من الحمامات، وحدة لقطات مربع، وسائل الراحة (مع ما يقرب من 200 وسائل مختلفة تمثل على الصعيد الوطني)، واحد مقابل نوع خاصية مولتفاميلي. ونحن نضمن هذه الدقة عن طريق اختبار توقعاتنا على البيانات التاريخية وعن طريق فحص توقعاتنا مباشرة مع المستثمرين والمطورين والوسطاء الذين ينشطون في صناعة متعددة الأسر. وبناء على ما سمعنا من المستخدمين المهتمين، إينودو نقاط لديها تطبيق واسع النطاق على العديد من قطاعات هذه الصناعة. وفيما يلي بعض الأمثلة على ذلك: القيمة المضافة للمستثمرين - المستثمرين مثل الفرصة لقياس الزيادة في الإيجار من كل وسائل الراحة في إضافة قيمة الاستثمار، وتحليل بسرعة الفرص الجديدة. في المتوسط، تحليل أي فرصة للاستثمار يتطلب حوالي 4.5 ساعات من جمع المعلومات وتحليلها - نحن يغلي هذه العملية إلى أقل من أقل من 10 دقيقة. المطورين - القدرة على تحديد الأسواق التي ستظهر أفضل أداء استثماري، واختبار مختلف الخلطات وحدة وسائل الراحة حزم داخل تلك الأسواق، ويبدو أن أهم جانب من جوانب المنتج للمطورين. الوسطاء - وسطاء مبيعات الاستثمار ترغب في أن تكون قادرة على تحليل القيمة المضافة استراتيجيات، سحب على الفور كومبس، وموضوعية مقارنة الفرص مع النتيجة بسيطة. وقد أشار كثيرون إلى أنهم يرغبون في استخدامها لدعم افتراضات الاستثمار عندما يجمعون الآراء الوسيطة للقيمة ويقدمون مذكرات. المقرضين - اقترب العديد من المقرضين لنا حول استخدام نقاط إينودو بنفس الطريقة المستخدمة حاليا فيكو النتيجة لقياس مخاطر المستأجرين المحتملين. وبما أن نقاط إينودو تقيس العوائد المعدلة حسب المخاطر، فإننا نرى بالتأكيد الإمكانيات في هذا السوق. المثمنون - غالبا ما يستخدم المثمنون التجاريون تحليل الانحدار لتحديد التأثير المتزايد لخصائص البناء المختلفة، ولكن نادرا ما يكون ذلك بدقة مماثلة. وقد أعرب كثيرون عن اهتمامهم باستخدام نقاط إينودو كطريقة موضوعية لعمل نسخة احتياطية من افتراضات الاكتتاب الاستثماري. للحصول على نقاط إينودو، لدينا مشاريع البرمجيات الإيجار والإشغال ونفقات التشغيل والقيم العقارية التقديرية إلى الأمام على أساس ديموغرافيككونوميكس من كل سوق، وتخفيض التدفقات النقدية المستقبلية لكل الممتلكات مرة أخرى إلى اليوم في معدل مخاطر تعديلها للسوق، و ثم يقارن كل صافي القيمة الحالية للممتلكات على أساس كل وحدة، ويصنفها على مقياس 1-100 بالنسبة إلى العقارات الأخرى في نفس السوق. نحن نعرف ما كنت تفكر - وهذا يبدو بسيطا جدا. صدقوا أو لا تصدقوا، في الواقع صعبة جدا للحصول على جميع البيانات اللازمة للقيام بذلك على أساس مستمر، ناهيك عن إبراز تلك القيم إلى الأمام على أساس الاتجاهات الديمغرافية والاقتصاد الكلي. إينودو نقاط يغطي كل سوق في جميع أنحاء الولايات المتحدة. ما وجدنا هو أن هناك ما يكفي من البيانات لتطبيق خوارزميات التنبؤية لدينا في كل سوق، ولكن نوعية وكمية البيانات المتاحة في مناطق المترو الرئيسية تؤدي إلى دقة التنبؤية أكبر في تلك الأسواق. بعض الأسواق لديها القليل جدا من البيانات متعددة الأسرة أن علينا أن ننظر إلى أسواق أخرى مماثلة لنقاط البيانات الكافية لجعل التنبؤ الدقيق. لحسن الحظ لعملائنا، والأسواق مع القليل جدا من البيانات تميل إلى أن تكون الأسواق حيث هناك القليل جدا من التنمية متعددة الأسر التي تجري. ومن المرجح أن يكون الجزء الأكبر من التحليلات المنجزة على المنصة في المناطق الرئيسية للمترو، حيث تكون البيانات وفيرة، كما أن تقديراتنا هي الأكثر دقة. في أخبار أويوكس المطور نحن نبحث عن المطور أويوكس مع 3-5 سنوات من الخبرة للمساعدة في تطوير منطقتنا منصة تحليلات التنبؤ التنبؤية العقارية، إينودو النتيجة. يجب أن يكون المرشحين على مستوى عال من الكفاءة في واجهة المستخدم تصميم تجربة المستخدم وتطوير الشبكة. وسيشمل ذلك تحليل الأعمال وجمع المتطلبات والتوثيق من أصحاب المصلحة في قطاع الأعمال والعملاء وتخطيط الشبكات والنماذج الأولية وتنسيق تطوير المنتجات باستخدام منهجية رشيقة بين مطوري الواجهة الخلفية وعلماء البيانات وخبراء صناعة العقارات لتقديم أربعة إصدارات منتجات المنتج على جدول زمني عدواني طوال عام 2017. مستوى استثنائي من الاهتمام بالتفاصيل أمر لا بد منه. والمرشح المثالي يعرف أفضل الممارسات، ويمكن توثيق لهم، ويمكن أن تعمل مع فريق ديناميكي لضمان تنفيذ جميع تطوير أوكس لتلك المعايير. المسؤوليات تحليل التحديات تجربة المستخدم وخلق حلول التصميم التي تلبي أهداف العمل تحليل التطبيقات وبيانات نطاق العمل متطلبات وقواعد العمل وفهم تدفق البيانات من المصدر إلى الشاشة إنشاء التصاميم التي تركز على المستخدم من خلال النظر في تحليل السوق، وردود الفعل العملاء، ونتائج سهولة الاستخدام التعرف و والتنبؤ بحالات الاستخدام وتفاعل المستخدم، وتصميم تطبيقات بديهية لدعمها بنية المعلومات وتخطيط الشبكات، وبناء نماذج تفاعلية في وقت مبكر من الإصدارات الميزة تحمل المسؤولية الشاملة لتصميم واجهة المستخدم، وإدراج قابليتها للاستخدام، وتدفقات العمل الشاملة، وتطبيق المعايير، وذلك باستخدام أدوات مختلفة لإنشاء واجهات رسومية للتطبيقات القائمة على شبكة الإنترنت العمل مباشرة مع أصحاب المصلحة التجارية والعملاء والمصممين والمطورين والمهندسين وعلماء البيانات لتنسيق بناء التطبيقات للمواصفات وفي الوقت المحدد البقاء ما يصل إلى السرعة على اتجاهات أوكس، وكذلك كما الشركات والصناعات معايير ري المشاركة في اختبار المستخدم وتصميم البحوث للحصول على نظرة ثاقبة متطلبات أوكس درجة البكالوريوس في علوم الكمبيوتر أو المجال ذات الصلة 3 سنوات من أوي أوكس، الرسم، والتصميم البصري في سياق الشركات أو وكالة قادرة على اتخاذ ردود فعل بناءة وتكرار على التصاميم و أفكار من أصحاب المصلحة متعددة مع وجهات نظر مختلفة فهم والخبرة في عمليات التصميم التي تركز على المستخدم المبدع الإبداعي الذي يمكن أن الابتكار بشكل فعال الأفكار الكبيرة وأيضا العمل على جميع التفاصيل شغف بطل أوكس والابتكار تجربة التصاميم المتحركة من خلال عملية التنمية رشيقة ويريفريم وتجربة النماذج الأولية المهرة في استخدام التصميم، ويرافرامينج، واستخدام أدوات القضية مهارات تصميم التفاعل ممتازة القدرة على رمز بسرعة وكفاءة في هتمل، كس، وجافا سكريبت تجربة الماضي مع Vue. js، Leaflet. js، D3.js وغيرها من المكتبات التصور البيانات تجربة مع بيثوندجانغو هو زائد القدرة على التواصل بشكل فعال مع جميع أصحاب المصلحة أي والمطورين التقنيين، وقادة الأعمال، والمستخدمين محفظة تظهر واجهة المستخدم الخاص بك ومهارات أوكس مطلوب مع تطبيق كلوزفول كومة بيثون المطور إنودو نقاط تبحث عن كومة كاملة بيثون، بوستغريزل و هتملسسجافاسكريبت المطور للانضمام لدينا سريع التحرك، وتطوير المنتجات العجاف فريق العمل على التطوير المستمر لمنصة تحليلات التنبؤات العقارية لدينا. وسيشمل الدور تقديم ميزات جديدة يمكن الاعتماد عليها وقابلة للتطوير للمستخدمين، وضعت في بيثون باستخدام أطر Web2Py و Vue. js. سوف تعمل مع فريق التطوير لتصميم وتقديم، عالية الجودة، ومقنعة الميزات والمنتجات في الوقت المحدد. المسؤوليات التعاون مع فريق متعدد التخصصات من علماء البيانات ومهندسي البرمجيات والمهنيين العقاريين لتصميم وتطوير واختبار وحدة، ودعم الميزات الجديدة نسعى لتحقيق جودة عالية والانتاج السريع من خلال استخدام أفضل الممارسات تطوير البرمجيات رشيقة ضبط الأداء والاختبار وإعادة بيعها، وسهولة الاستخدام والأتمتة دعم والحفاظ على، والمساعدة في توثيق وظائف البرمجيات الحفاظ على الترميز والامتثال ومعايير الأمن العمل مع العملاء الآخرين على تطوير البرمجيات والتحسينات والأدوات الداخلية، وقضايا التنفيذ الصيانة والدعم المستمر للحلول التقنية الماضية والمستقبلية بشكل استباقي تعلم أطر المنتج وقاعدة رمز إينودو النتيجة هي شركة بدء التشغيل، وعلى هذا النحو المسؤوليات المذكورة أعلاه قد تتغير وتتطور مع مرور الوقت. فالمرونة والفضول والعقلية الريادية وأخلاقيات العمل القوية ضرورية لهذا الدور. ومن المشجع أن الجميع على فريق البحث باستمرار التكنولوجيات الجديدة والفرص التحليلية لتحسين المنصة. بنيت منصة لدينا على بيثون و بوستغريزل، ويستخدم Web2Py و Vue. js الأطر. أي رمز وضعت سوف تحتاج إلى أن تكون في بيثون 2.7 ومتوافقة مع قاعدة التعليمات البرمجية الموجودة لدينا. متطلبات 3 سنوات بيثون 2.7 و كسملجافاسكريبت تجربة 2 سنوات من سكل، مع الخبرة باستخدام بوستغريزل درجة البكالوريوس في علوم الحاسب الآلي درجة الماجستير في علوم الكمبيوتر أو مجال ذات الصلة تجربة زائد باستخدام جيثب وفهم صلب للتحكم إصدار البرمجيات تجربة مع إطارات بيثون مثل دجانغو أو Web2Py تجربة العمل مع شركة ادارة العلاقات مع نمو عالية ويفضل أجيل، الهزيل، أو ما شابه ذلك من منهجيات التنمية إكسيرينس الخبرة مع مايكروسوفت أزور أو أوس تجربة زائد مع Vue. js أو غيرها من الأطر الأمامية فهم أمن تطبيقات الويب (أواسب) ذاتي الدافع وقادرة على العمل في فريق صغير مع الحد الأدنى من الإشراف الخبرة مع علم البيانات والتحليلات التنبؤية زائد كلوزبوستغريزل مقابل مس سكل سيرفر 0. ماذا يكون هذا كل شيء عن أعمل كمحلل البيانات في شركة الخدمات المهنية العالمية (واحد كنت قد سمعت بالتأكيد من). لقد تم القيام بذلك لمدة عشر سنوات. لقد قضيت ذلك العقد الذي يتناول البيانات، والبرمجيات قاعدة البيانات، أجهزة قاعدة البيانات، مستخدمي قاعدة البيانات، مبرمجي قواعد البيانات وطرق تحليل البيانات، لذلك أنا أعرف قليلا قليلا عن هذه الأمور. وكثيرا ما تأتي في اتصال مع الناس الذين يعرفون القليل جدا عن هذه الأشياء نداش على الرغم من أن بعض منهم لا يدركون ذلك. على مر السنين لقد ناقش قضية بوستغريزل مقابل مس سكل سيرفر العديد، مرات عديدة. مبدأ معروف في تكنولوجيا المعلومات يقول: إذا كنت تفعل ذلك أكثر من مرة، أتمتة ذلك. هذه الوثيقة هي طريقي لأتمتة تلك المحادثة. ما لم يذكر خلاف ذلك أنا أشير إلى بوستغريزل 9.3 و مس سكل سيرفر 2014، على الرغم من تجربتي مع مس سكل سيرفر مع الإصدارات 2008 R2 و 2012 نداش من أجل الإنصاف والأهمية أريد أن مقارنة أحدث نسخة من بوستغريزل إلى أحدث نسخة من مس سكل سيرفر. حيث لقد قدمت ادعاءات حول مس سكل سيرفر لقد بذلت قصارى جهدي للتحقق من أنها تنطبق على الإصدار 2014 من خلال الاستشارات ميكروسوفتس الوثائق الخاصة نداش على الرغم من، لأسباب سأحصل عليها. لقد اضطررت أيضا إلى الاعتماد إلى حد كبير على جوجل، كومة تجاوز ومستخدمي الإنترنت. وأنا أعلم أنه ليس من الناحية العلمية صارمة لإجراء مقارنة مثل هذا عندما أنا لا تملك تجربة متساوية مع كل من قواعد البيانات، ولكن هذه ليست ممارسة أكاديمية ندش للمقارنة في العالم الحقيقي. لقد فعلت بلدي صادقة أفضل للحصول على الحقائق بلدي حول مس سكل سيرفر الحق نداش نعلم جميعا أنه من المستحيل أن هراء الإنترنت كله. إذا وجدت أن إيف حصلت على شيء خاطئ، سوء إصلاحه. أنا أقارن بين قواعد البيانات من وجهة نظر محلل البيانات. ربما مس سكل سيرفر الركلات بوستغريزلز الحمار كما الخلفية أولتب (على الرغم من أنني أشك في ذلك)، ولكن هذا ليس ما إم الكتابة هنا، لأن إم لا ديسبليردباسيسادمين أولتب. وأخيرا، هناك عنوان بريد إلكتروني في أعلى اليسار. هل يرجى استخدامه إذا كنت ترغب في أن أبذل قصارى جهدي للرد. شروط: جميع الآراء الذاتية هنا هي بدقة بلدي. 1. لماذا بوستغريزل هو الطريق، وسيلة أفضل من مس سكل سيرفر عفوا، تنبيه المفسد. هذا القسم هو مقارنة بين قواعد البيانات من حيث الميزات ذات الصلة لتحليلات البيانات. 1.1. كسف دعم كسف هو الطريقة القياسية بحكم الواقع لنقل البيانات منظمة (أي جدولي) حولها. يمكن لجميع ردبسس تفريغ البيانات إلى تنسيقات الملكية التي لا شيء يمكن قراءة أخرى، وهو ما يرام لنسخ احتياطية، النسخ المتماثل وما شابه ذلك، ولكن لا يوجد استخدام على الإطلاق لترحيل البيانات من نظام X إلى نظام Y. منصة تحليلات البيانات يجب أن تكون قادرة على نظرة في بيانات من مجموعة واسعة من النظم وإنتاج النواتج التي يمكن قراءتها من قبل مجموعة واسعة من النظم. في الممارسة العملية، وهذا يعني أنه يحتاج إلى أن تكون قادرة على استيعاب وإفراز كسف بسرعة وموثوق بها، بشكل متكرر ودون ألم. دعونا لا نقلل من هذا: منصة تحليلات البيانات التي لا يمكن التعامل مع كسف بقوة هو كسر، مسؤولية لا طائل منه. دعم بوستغريزلز كسف هو من الدرجة الأولى. تدعم الأوامر كوبي تو أند كوبي فروم المواصفات الموضحة في RFC4180 (وهو أقرب شيء يوجد فيه معيار كسف رسمي) بالإضافة إلى العديد من المتغيرات واللهجات الشائعة وغير الشائعة. هذه الأوامر سريعة وقوية. عند حدوث خطأ، فإنها تعطي رسائل خطأ مفيدة. الأهم من ذلك، أنها لن تفسد بصمت، سوء فهم أو تغيير البيانات. إذا بوستغريزل يقول عمل الاستيراد الخاص بك، ثم عملت بشكل صحيح. أدنى نفحة من مشكلة وأنه يتخلى عن استيراد ويرمي رسالة خطأ مفيدة. (قد يبدو ذلك صعبا أو غير مريح، ولكنه في الواقع مثال لمبدأ التصميم الراسخ، ومن المنطقي: هل تفضل أن تجد أن استيرادك قد حدث خطأ الآن أو بعد شهر من الآن عندما يشكو العميل من أن نتائجك إيقاف) مس سكل سيرفر لا يمكن استيراد ولا تصدير كسف. معظم الناس لا يصدقوني عندما أقول لهم هذا. ثم، في مرحلة ما، يرون لأنفسهم. عادة ما يلاحظون شيئا مثل: مس سكل سيرفر اقتطاع بصمت حقل نص مس سكل الملقمات ترميز النص معالجة الخطأ مس سكل سيرفر رمي رسالة خطأ لأنه لا يفهم الاقتباس أو الهروب (على عكس الاعتقاد الشائع، نقلا والهروب ليست ملحقات غريبة إلى كسف، وهي مفاهيم أساسية في حرفيا كل إنسانية للقراءة بيانات تسلسل المواصفات لا أثق أي شخص لا يعرف ما هي هذه الأشياء) مس سكل سيرفر تصدير مكسورة، عديمة الفائدة كسف ميكروسوفتس وثائق رهيبة. كيف تمكنوا من الإفراط في تعقيد شيء بسيط مثل كسف هذا هو المحير خاصة لأن كسف محللون سهلة تافهة للكتابة (كتبت واحدة في C و بلومبد ذلك إلى فب قبل عام أو عامين، لأنني لم تكن سعيدا مع الأصلي كسف التعامل معها وقد استغرق الأمر كله 100 سطر من التعليمات البرمجية وثلاث ساعات ندش اثنان منها أنفقت على الحصول على السيطرة مع سويغ الذي كان جديدا بالنسبة لي في ذلك الوقت). إذا كنت لا تصدقني، تحميل هذا تنسيق بشكل صحيح، متوافقة مع المعايير أوتف-8 كسف ملف واستخدام مس سكل سيرفر لحساب متوسط ​​طول السلسلة (أي عدد من الأحرف) من العمود الأخير في هذا الملف (لديه 50 أعمدة) . استمر، جربها. (الجواب الذي تبحث عنه هو بالضبط 183.895). وبطبيعة الحال، تحديد هذا هو سهل تافهة في نداش بوستغريزل في الواقع، والبت الأكثر تستغرق وقتا طويلا هو خلق جدول مع 50 أعمدة لعقد البيانات. ضعف فهم كسف يبدو أن يكون متوطنا في مايكروسوفت أن الملف سوف كسر الوصول و إكسيل أيضا. حزين ولكن صحيح: بعض المبرمجين قاعدة البيانات وأنا أعلم أنفقت مؤخرا الكثير من الوقت والجهد كتابة رمز بيثون الذي يعقم كسف من أجل السماح مس سكل سيرفر لاستيراده. فهم قادرون على تجنب تغيير البيانات الفعلية في هذه العملية، على الرغم من ذلك. هذا هو مجنون كما تنفق ثروة على فوتوشوب ومن ثم الحاجة إلى كتابة بعض التعليمات البرمجية المخصصة للحصول عليه لفتح جبيغ، فقط لتجد أن الصورة قد تغيرت قليلا. 1.2. بيئة العمل كل منصة تحليلات البيانات الجدير بالذكر هو تورينج كاملة، مما يعني، إعطاء أو اتخاذ، أن أي واحد منهم يمكن أن تفعل أي شيء يمكن لأي شخص آخر القيام به. لا يوجد شيء مثل ما يمكنك القيام به X في البرنامج A ولكنك غير قادر على القيام X في البرنامج B. يمكنك أن تفعل أي شيء في أي شيء نداش كل ما يختلف هو مدى صعوبة ذلك. أدوات جيدة تجعل الأشياء التي تحتاج إليها للقيام أدوات سهلة سهلة تجعل من الصعب. هذا ما يتلخص دائما إلى. (هذا صحيح تماما من الناحية المفاهيمية، إن لم يكن صحيحا حرفيا - على سبيل المثال، لا ردبس أنا أعرف من يمكن أن تجعل الرسومات 3D، ولكن أي واحد منهم يمكن أن تحاكي أي حساب يمكن أن تقوم غبو.) بوستغريزل هو مكتوب بوضوح من قبل الناس الذين يهتمون فعلا إنجاز مهامك . مس سكل سيرفر يشعر وكأنه مكتوب من قبل الناس الذين لم يكن لديك فعلا استخدام مس سكل سيرفر لتحقيق أي شيء. فيما يلي بعض الأمثلة لدعم هذا: بوستغريزل يدعم دروب تابل إذا إكسيستس. التي هي طريقة ذكية وواضحة للقول إذا كان هذا الجدول لا وجود لها، لا تفعل شيئا، ولكن إذا كان يفعل ذلك، التخلص منه. شيء من هذا القبيل: هيريس كيف لديك للقيام بذلك في مس سكل سيرفر: نعم، سطر إضافي واحد فقط من التعليمات البرمجية، ولكن لاحظ المعلمة الثانية الغامضة لوظيفة أوبجكتيد. تحتاج إلى استبدال ذلك مع نف لإسقاط وجهة نظر. نب الخاص به لإجراء المخزن. أنا تعلمت كل الحروف المختلفة لجميع أنواع مختلفة من كائنات قاعدة البيانات (لماذا يجب أن يكون لدي) لاحظ أيضا أن اسم الجدول يتكرر بلا داع. إذا كان زلات تركيزك لحظة، ميتا من السهل القيام بذلك: انظر ماذا حدث هناك هذا هو مصدر موثوق من مزعج، إضاعة الوقت الأخطاء. بوستغريزل يدعم دروب سشيما كاسكيد. الذي يسقط مخطط وجميع الكائنات قاعدة البيانات داخله. وهذا أمر مهم جدا بالنسبة لمنهجية قوية لتحليل التحليلات، حيث يكون المسيل للدموع وإعادة البناء هو المبدأ الأساسي لعمل تحليلي قابل للتكرار وقابل للتدقيق والتعاوني. لا يوجد مثل هذا المرفق في مس سكل سيرفر. لديك لإسقاط كافة الكائنات في المخطط يدويا، وبالترتيب الصحيح. لأنه إذا حاولت إسقاط كائن يعتمد كائن آخر، مس سكل سيرفر ببساطة يلقي خطأ. هذا يعطي فكرة عن مدى تعقيد هذه العملية يمكن أن يكون. يدعم بوستغريزل كريت تابل أس. مثال وي: هذا يعني أنه يمكنك تسليط الضوء على كل شيء ولكن السطر الأول وتنفيذه، وهو مهمة مفيدة وشائعة عند تطوير التعليمات البرمجية سكل. في مس سكل سيرفر، إنشاء الجدول يذهب مثل هذا بدلا من ذلك: لذلك، لتنفيذ بيان سيليكت عادي، لديك للتعليق أو إزالة بت إنتو. نعم، التعليق من خطين من السهل أن ليس هذه النقطة. النقطة هي أنه في بوستغريزل يمكنك تنفيذ هذه المهمة البسيطة دون تعديل التعليمات البرمجية وفي مس سكل سيرفر كنت غير قادر، وهذا يدخل مصدر محتمل آخر من الأخطاء والمضايقات. في بوستغريزل، يمكنك تنفيذ العديد من عبارات سكل كما تريد في دفعة واحدة طالما كنت قد انتهت كل عبارة مع فاصلة منقوطة، يمكنك تنفيذ أي مجموعة من العبارات تريد. ولتنفيذ عمليات الدفعات التلقائية أو مهام البيانات القابلة للتكرار أو المخرجات، تعد هذه الوظيفة مهمة للغاية. في مس سكل سيرفر، لا يمكن أن تظهر عبارة كريت بروسدور في منتصف الطريق من خلال مجموعة من عبارات سكل. ثيريس لا يوجد سبب وجيه لهذا، مجرد تقييد التعسفي. وهذا يعني أن هناك حاجة إلى خطوات يدوية إضافية لتنفيذ دفعة كبيرة من سكل. الخطوات اليدوية تزيد المخاطر وتقلل من الكفاءة. بوستغريزل يدعم شرط العودة، السماح أوبديت. إدراج و حذف البيانات لإرجاع القيم من الصفوف المتأثرة. هذا هو أنيق ومفيد. يحتوي ملقم سكل مس على جملة أوتبوت، الأمر الذي يتطلب تعريف متغير جدول منفصل للعمل. هذا هو الكاحل وغير مريح ويجبر مبرمج لإنشاء والحفاظ على رمز نمطي لا لزوم لها. يدعم بوستغريزل اقتباس سلسلة، مثل ذلك: هذا مفيد للغاية لتوليد سكل ديناميكي لأنه (أ) أنه يسمح للمستخدم لتجنب مملة وغير موثوق بها الاقتباس اليدوي والهروب عند سلاسل حرفية متداخلة و (ب) منذ محرري النصوص و إيدس تميل إلى عدم الاعتراف كمحدد سلسلة، تسليط الضوء على تركيب يبقى وظيفية حتى في رمز سكل الحيوي. بوستغريزل يتيح لك استخدام اللغات الإجرائية ببساطة عن طريق تقديم التعليمات البرمجية لمحرك قاعدة البيانات التي تكتب التعليمات البرمجية الإجرائية في بيثون أو بيرل أو R أو جافا سكريبت أو أي من اللغات الأخرى المعتمدة (انظر أدناه) بجوار سكل الخاص بك، في نفس البرنامج النصي. هذا هو مريحة وسريعة، قابلة للصيانة، وسهلة للمراجعة، وسهلة لإعادة استخدامها وهلم جرا. في مس سكل سيرفر، يمكنك إما استخدام مقنع، بطيئة، محرج T - سكل اللغة الإجرائية، أو يمكنك استخدام لغة لجعل التجمع وتحميله في قاعدة البيانات. هذا يعني أن التعليمات البرمجية الخاصة بك في مكانين منفصلين وعليك أن تذهب من خلال سلسلة من الخطوات اليدوية القائمة على واجهة المستخدم الرسومية لتغييره. فإنه يجعل التعبئة والتغليف كل ما تبذلونه من الاشياء في مكان واحد أصعب وأكثر عرضة للخطأ. وهناك الكثير من الأمثلة هناك. كل من هذه الأشياء، في عزلة، قد يبدو وكأنه نيغل طفيفة نسبيا ومع ذلك، فإن التأثير العام هو أن الحصول على العمل الحقيقي القيام به في مس سكل سيرفر هو أصعب بكثير وأكثر عرضة للخطر من في بوستغريزل، ومحلل البيانات قضاء الوقت الثمين والطاقة على الحلول البديلة والعمليات اليدوية بدلا من التركيز على المشكلة الفعلية. تحديث: أشير إلى أن أحد ميزة مفيدة حقا مس سكل سيرفر الذي يفتقر بوستغريزل هو القدرة على إعلان المتغيرات في البرامج النصية سكل. مثل هذا: بوستغريزل غير قادر على القيام بذلك. أتمنى ذلك، لأن هناك الكثير من الاستخدامات لمثل هذه الميزة. 1.3. يمكنك تشغيل بوستغريزل في لينكس، بسد الخ (وبطبيعة الحال، ويندوز) أي شخص يتابع التطورات في تكنولوجيا المعلومات يعرف أن عبر منصة هو شيء الآن. الدعم عبر منصة يمكن القول إن ميزة القاتل من جافا، الذي هو في الواقع نوعا ما مقطوع، لغة البرمجة القبيحة، ولكن مع ذلك ناجحة بشكل كبير، مؤثرة وانتشارا. مايكروسوفت لم يعد لديه احتكار كان يتمتع مرة واحدة على سطح المكتب، وذلك بفضل صعود لينكس وأبل. والهياكل الأساسية لتكنولوجيا المعلومات غير متجانسة على نحو متزايد بفضل مرونة الخدمات السحابية وسهولة الوصول إلى تكنولوجيا افتراضية عالية الأداء. برنامج عبر منصة هو إعطاء السيطرة المستخدم على بنيتها التحتية. (في العمل أدير حاليا عدة قواعد بيانات بوستغريزل، وبعضها في ويندوز وبعضها في أوبونتو لينكس أنا وزملائي أحرروا التعليمات البرمجية وقواعد البيانات مقالبهم بحرية، ونحن نستخدم بيثون و فب لأنهم يعملون أيضا في كل من أنظمة التشغيل، وكلها تعمل فقط .) سياسة ميكروسوفتس ودائما كان بائع قفل في. أنها لا مفتوحة المصدر رمزها أنها لا توفر الإصدارات عبر منصة من برامجهم حتى أنها اخترعت نظام بيئي كامل. نيت، المصممة لرسم خط متين بين مستخدمي ميكروسوفت ومستخدمي غير ميكروسوفت. هذا أمر جيد بالنسبة لهم، لأنه يحمي إيراداتهم. أنها سيئة بالنسبة لك، المستخدم، لأنه يقيد اختياراتك ويخلق عمل لا لزوم لها بالنسبة لك. (تحديث: بعد بضعة أيام من نشر هذا، جعلتني مايكروسوفت تبدو وكأنها برات من خلال الإعلان عن أنها مفتوحة المصدر. وهذا خطوة كبيرة، ولكن دعونا لا كسر فتح بولينجر فقط بعد). الآن، وهذا ليس لينكس مقابل وثيقة ويندوز، على الرغم من إم متأكد من سوء نهاية كتابة واحدة من تلك في مرحلة ما. ويكفي أن نقول، لينكس (والعائلة مثل أونيكس: سولاريس، بسد الخ) يترك لعمل ويندوز في الغبار. أنظمة التشغيل مثل أونيكس تهيمن على سوق الخادم، والخدمات السحابية، والحوسبة الفائقة (في هذا المجال لها شبه الاحتكار) والحوسبة التقنية، ولها سبب وجيه نداش تم تصميم هذه النظم من قبل الفنيين لتيشيز. ونتيجة لذلك فإنهم يتداولون مع سهولة الاستخدام والمرونة الهائلة. A نظام التشغيل مثل أونيكس السليم ليست مجرد لطيفة سطر الأوامر ندش هو نظام بيئي من البرامج والمرافق والوظائف والدعم الذي يجعل الحصول على العمل الحقيقي القيام به كفاءة وممتعة. يمكن للقراصنة لينكس المختصة تحقيق في خط واحد رمية من باش سيناريو مهمة من شأنها أن تكون شاقة وتستغرق وقتا طويلا في ويندوز. (على سبيل المثال: في اليوم الآخر كنت أبحث من خلال جمع الأفلام الأصدقاء وقال انه يعتقد أن العدد الإجمالي للملفات في نظام الملفات كان كبيرا، بالنظر إلى عدد الأفلام كان لديه، وتساءل عما إذا كان ربما كان قد قام بطريق الخطأ نسخ مجلد كبير في واحدة من مجلدات الفيلم له، وأنا فعلت عدد متكرر من الملفات لكل مجلد له مثل هذا: أخذت كل شيء حوالي دقيقة لكتابة والثانية لتشغيل، وأكد أن بعض المجلدات له مشكلة و وقال له كيف كنت تفعل ذلك في ويندوز) لتحليلات البيانات، لا يوجد ردبس في فراغ هو جزء من كومة أداة. ولذلك فإن بيئتها مسائل. يقتصر مس سكل سيرفر على ويندوز، و ويندوز هو مجرد بيئة تحليلات ضعيفة. 1.4. ميزات اللغة الإجرائية هذا هو بيجي. النقي سكل الاعلانية جيدة في ما تم تصميمه ل ندش التلاعب البيانات العلائقية والاستعلام. يمكنك الوصول بسرعة حدودها إذا حاولت استخدامه لمزيد من العمليات التحليلية المشاركة، مثل حسابات الفائدة المعقدة، وتحليل سلسلة زمنية وتصميم خوارزمية العامة. مقدمي قاعدة بيانات سكل يعرفون ذلك، لذلك تقريبا كل قواعد البيانات سكل تنفيذ نوع من اللغة الإجرائية. هذا يسمح لمستخدم قاعدة البيانات لكتابة رمز نمط حتمي لمهام أكثر تعقيدا أو فيدلي. دعم اللغة الإجرائية بوستغريزلز استثنائية. من المستحيل أن ينصف ذلك في مسافة قصيرة، ولكن هيريس عينة من السلع. يمكن استخدام أي من هذه اللغات الإجرائية لكتابة الإجراءات والوظائف المخزنة أو ببساطة إغراقها في كتلة من التعليمات البرمجية ليتم تنفيذها مضمنة. بلبسكل: هذه هي اللغة الإجرائية بوستغريزلز الأصلية. مثل أوراكلس بلسكل، ولكن أكثر حداثة وميزة كاملة. PLV8: يتوفر محرك جافا سكريبت V8 من غوغل كروم في بوستغريزل. هذا المحرك هو ثابت، ميزة معبأة وندشاير بسرعة ساذجة في كثير من الأحيان تقترب من سرعة تنفيذ تجميعها، الأمثل C. الجمع بين ذلك مع الدعم الأصلي بوستغريزلز لنوع البيانات جسون (انظر أدناه) ولديك القدرة والمرونة في نهاية المطاف حزمة واحدة. حتى أفضل، PLV8 يدعم العالمية (أي عبر الدعوة وظيفة) الدولة، مما يسمح للمستخدم لتخزين البيانات بشكل انتقائي في ذاكرة الوصول العشوائي للوصول العشوائي السريع. لنفترض أنك تحتاج إلى استخدام 100000 صف من البيانات من الجدول أ في كل 1000،000 صف من البيانات من الجدول B. في سكل التقليدي، تحتاج إما للانضمام إلى هذه الجداول (مما يؤدي إلى جدول 100 صف صف وسيط، والتي سوف تقتل أي ولكن أكثر خادم هائل) أو القيام بشيء أقرب إلى الاستعلام الفرعي (أو أسوأ، الحلقات المتداخلة القائمة على المؤشر)، مما يؤدي إلى تحميل إو شل إذا لم يقرأ مخطط الاستعلام نواياك بشكل صحيح. في PLV8 يمكنك ببساطة تخزين ذاكرة التخزين المؤقت A في الذاكرة وتشغيل وظيفة على كل من الصفوف من الجدول B نداش في الواقع مما يتيح لك الوصول إلى ذاكرة الوصول العشوائي جودة (الكمون لا تذكر وعقوبة الوصول العشوائي لا تحميل إو غير متطايرة) إلى الجدول 100K الصف . فعلت هذا على قطعة حقيقية من العمل في الآونة الأخيرة ندش بلدي رمز PostgreSQLPLV8 كان حوالي 80 مرات أسرع من حل مس سكل T وكان رمز أصغر بكثير وأكثر قابلية للصيانة. لأنه استغرق حوالي 23 ثانية بدلا من نصف ساعة لتشغيل، وكنت قادرا على تشغيل 20 دورة اختبار تعديل تعديل في ساعة، مما أدى إلى ميزة كاملة، واختبارها بشكل صحيح، ورمز خالية من الأخطاء. انظر هنا لمزيد من التفاصيل حول هذا الموضوع. (كل تلك الدورات اختبار اختبار تعديل كانت ممكنة فقط بسبب دروب سشيما كاسكيد والحرية لتنفيذ البيانات إنشاء وظيفة في منتصف دفعة بيان، كما هو موضح أعلاه. انظر كيف لطيف كل شيء يناسب معا) بلبيثون: يمكنك استخدام كامل بيثون في بوستغريزل. Python2 أو بيثون 3، واختيار، ونعم، وتحصل على النظام الإيكولوجي الهائل من المكتبات التي بيثون له ما يبرره. يتوهم تشغيل سفم من سكيكيت تعلم أو بعض الحساب التعسفي الدقة التي تقدمها gmpy2 في وسط الاستعلام سكل لا مشكلة بلبيرل: بيرل قد تسقط من الأزياء لبعض الوقت، ولكن براعة اكتسبت سمعة كما الجيش السويسري سكين لغات البرمجة. في بوستغريزل لديك بيرل كامل كلغة إجرائية. بلر: R هو بيئة البرمجة الإحصائية القياسية بحكم الأمر الواقع في الأوساط الأكاديمية وعلوم البيانات، ولها أسباب وجيهة - أنها حرة وقوية ومميزة بالكامل ومدعومة بمكتبة هائلة من الإضافات عالية الجودة والإضافات. بوستغريزل يتيح لك استخدام R كلغة إجرائية. جافا، لوا، ش، تكل، روبي و فب معتمدة أيضا كلغات إجرائية في بوستغريزل. ج: لا تنتمي تماما في هذه القائمة لأن لديك لتجميعها بشكل منفصل، ولكن يستحق الذكر. في بوستغريزل أنه من السهل تافهة لإنشاء وظائف التي تنفذ تجميعها، C الأمثل (أو C أو المجمع) في الخلفية قاعدة البيانات. هذا هو ميزة المستخدم السلطة التي توفر سرعة لا مثيل لها ومراقبة دقيقة من إدارة الذاكرة واستخدام الموارد للمهام حيث الأداء أمر بالغ الأهمية. لقد استخدمت هذا لتنفيذ خوارزمية معالجة الدفع معقدة، الدولة تعمل على مليون صف من البيانات في الثانية ندش وهذا كان على جهاز كمبيوتر سطح المكتب. مس خوادم سكل اللغة الإجرائية يحمل في ثناياه عوامل (جزء من تمديد T - سكل ل سكل) هو الكعب، بطيئة وميزة الفقراء. كما أنها عرضة للأخطاء الخفية والبق، كما ميكروسوفتس الوثائق الخاصة يقر أحيانا. أنا لم يلتق قط مستخدم قاعدة البيانات الذي يحب اللغة الإجرائية T-سكل. ماذا عن حقيقة أنه يمكنك جعل التجميعات في اللغات ومن ثم استخدامها في مس سكل سيرفر هذا لا يعول كما دعم اللغة الإجرائية لأنك غير قادر على تقديم هذا الرمز إلى محرك قاعدة البيانات مباشرة. الإدارة وبيئة العمل هي في غاية الأهمية. إدراج بعض التعليمات البرمجية بيثون مضمنة في استعلام قاعدة البيانات الخاصة بك هو سهل ومريحة اطلاق النار حتى فيسوال ستوديو، وإدارة المشاريع ورمي ملفات دل حول (كل ذلك في العمليات المستندة إلى واجهة المستخدم الرسومية التي لا يمكن أن تكون مكتوبة بشكل صحيح، النسخة التي تسيطر عليها، مؤتمتة أو مراجعة) غير محرج، خطأ - prone وغير قابلة للتطوير. وعلى أية حال، تقتصر هذه الآلية على اللغات. 1.5. دعم التعبير العادي الأصلي هي التعبير العادي (ريجكسن أو ريجكسيس) هي أساسية لعمل التحليلات كما ندش الحساب هم الخيار الأول (وغالبا ما يكون الخيار الوحيد) لمجموعة كبيرة من المهام معالجة النصوص. أداة تحليل البيانات دون دعم التعبيرات العادية مثل دراجة بدون سرج ندش يمكنك الاستمرار في استخدامه، ولكن مؤلمة لها. وقد تحطمت بوستغريزل من خارج منطقة الجزاء لدعم ريجكس. بعض الأمثلة: الحصول على جميع الأسطر بدءا من أرقام متكررة متبوعة بحرف علة: الحصول على سلسلة عرافة معزولة الأولى التي تحدث في حقل: كسر سلسلة على مسافة بيضاء وإرجاع كل جزء في صف منفصل: العثور على حالة غير حساس جميع الكلمات في سلسلة مع ما لا يقل عن 10 أحرف: مس سكل سيرفر مثل. فرعية. باتيندكس وهلم جرا، والتي لا يمكن مقارنتها بالدعم المنطقي الصحيح (إذا كنت تشك في ذلك، حاول تنفيذ الأمثلة المذكورة أعلاه باستخدامها). There are third-party regex libraries for MS SQL Server theyre just not as good as PostgreSQLs support, and the need to obtain and install them separately adds admin overhead. Note also that PostgreSQLs extensive procedural language support also gets you several other regex engines and their various features - e. g. Pythons regex library provides the added power of positive and negative lookbehind assertions. This is in keeping with the general theme of PostgreSQL giving you all the tools you need to actually get things done. 1.6. Custom aggregate functions This is a feature that, technically, is offered by both PostgreSQL and MS SQL Server. The implementations differ hugely, though. In PostgreSQL, custom aggregates are convenient and simple to use, resulting in fast problem-solving and maintainable code: Elegant, eh A custom aggregate is specified in terms of an internal state and a way to modify that state when we push new values into the aggregate function. In this case we start each customer off with zero balance and no interest accrued, and on each day we accrue interest appropriately and account for payments and withdrawals. We compound the interest on the 1st of every month. Notice that the aggregate accepts an ORDER BY clause (since, unlike SUM. MAX and MIN. this aggregate is order-dependent) and PostgreSQL provides operators for extracting values from JSON objects. So, in 28 lines of code weve created the framework for monthly compounding interest on bank accounts and used it to calculate final balances. If features are to be added to the methodology (e. g. interest rate modifications depending on debitcredit balance, detection of exceptional circumstances), its all right there in the transition function and is written in an appropriate language for implementing complex logic. (Tragic side-note: I have seen large organisations spend tens of thousands of pounds over weeks of work trying to achieve the same thing using poorer tools.) MS SQL Server, on the other hand, makes it absurdly difficult . Incidentally, the examples in the second link are for implementing a simple string concatenation aggregate. Note the huge amount of code and gymnastics required to implement this simple function (which PostgreSQL provides out of the box, incidentally. Probably because its useful). MS SQL Server also does not allow an order to be specified in the aggregate, which renders this function useless for my kind of work ndash with MS SQL Server, the order of string concatenation is random, so the results of a query using this function are non-deterministic (they might change from run to run) and the code will not pass a quality review. The lack of ordering support also breaks code such as the interest calculation example above. As far as I can tell, you just cant do this using an MS SQL Server custom aggregate. (It is actually possible to make MS SQL Server do a deterministic string concatenation aggregation in pure SQL but you have to abuse the RECURSIVE query functionality to do it. Although an interesting academic exercise, this results in slow, unreadable, unmaintainable code and is not a real-world solution). 1.7. Unicode support Long gone are the days when ASCII was universal, character and byte were fungible terms and foreign (from an Anglocentric standpoint) text was an exotic exception. Proper international language support is no longer optional. The solution to all this is Unicode. There are a lot of misconceptions about Unicode out there. Its not a character set, its not a code page, its not a file format and its nothing whatsoever to do with encryption. An exploration of how Unicode works is fascinating but beyond the scope of this document ndash I heartily recommend Googling it and working through a few examples. The key points about Unicode that are relevant to database functionality are: Unicode-encoded text (for our purposes this means either UTF-8 or UTF-16) is a variable-width encoding. In UTF-8 a character can take one, two, three or four bytes to represent. In UTF-16 its either two or four. This means that operations like taking substrings and measuring string lengths need to be Unicode-aware to work properly. Not all sequences of bytes are valid Unicode. Manipulating valid Unicode without knowing its Unicode is likely to produce something that is not valid Unicode. UTF-8 and UTF-16 are not compatible. If you take one file of each type and concatenate them, you (probably) end up with a file which is neither valid UTF-8 nor valid UTF-16. For text which mostly fits into ASCII, UTF-8 is about twice as space-efficient as UTF-16. PostgreSQL supports UTF-8. Its CHAR. VARCHAR and TEXT types are, by default, UTF-8, meaning they will only accept UTF-8 data and all the transformations applied to them, from string concatenation and searching to regular expressions, are UTF-8-aware. It all just works. MS SQL Server 2008 does not support UTF-16 it supports UCS-2, a deprecated subset of UTF-16. What this means is that most of the time, it will look like its working fine, and occasionally, it will silently corrupt your data. Since it interprets text as a string of wide (i. e. 2-byte) characters, it will happily cut a 4-byte UTF-16 character in half. At best, this results in corrupted data. At worst, something else in your toolchain will break badly and youll have a disaster on your hands. Apologists for MS are quick to point out that this is unlikely because it would require the data to contain something outside Unicodes basic multilingual plane. This is completely missing the point. A databases sole purpose is storing, retreiving and manipulating data. A database which can be broken by putting the wrong data in it is as useless as a router that breaks if you download the wrong file. MS SQL Server versions since 2012 have supported UTF-16 properly, if you ensure you select a UTF-16-compliant collation for your database. It is baffling that this is (a) optional and (b) implemented as late as 2012. Better late than never, I suppose. 1.8. Data types that work properly A common misconception is that all databases have the same types ndash INT. CHAR. DATE and so on. هذا ليس صحيحا. PostgreSQLs type system is really useful and intuitive, free of annoyances which introduce bugs or slow work down and, as usual, apparently designed with productivity in mind. MS SQL Servers type system, by comparison, feels like beta software. It cant touch the feature set of PostgreSQLs type system and it is beset with traps waiting to ensnare the unwary user. Lets take a look: CHAR, VARCHAR and family PostgreSQL: the docs actively encourage you to simply use the TEXT type. This is a high-performance, UTF-8 validated text storage type which stores strings up to 1GB in size. It supports all the text operations PostgreSQL is capable of: simple concatenation and substringing regex searching, matching and splitting full-text search casting character transformation and so on. If you have text data, stick it in a TEXT field and carry on. Moreover, since anything in a TEXT field (or, for that matter, CHAR or VARCHAR fields) must be UTF-8, there is no issue with encoding incompatibility. Since UTF-8 is the de facto universal text encoding, converting text to it is easy and reliable. Since UTF-8 is a superset of ASCII, this conversion is often trivially easy or altogether unnecessary. It all just works. MS SQL Server: its a pretty sad story. The TEXT and NTEXT types exist and stretch to 2GB. Bafflingly, though, they dont support casting. Also, dont use them, says MS ndash they will be removed in a future version of MS SQL Server. You should use CHAR. VARCHAR and their N - prefixed versions instead. Unfortunately, VARCHAR(MAX) has poor performance characteristics and VARCHAR(8000) (the next biggest size, for some reason) tops out at 8,000 bytes. (Its 4,000 characters for NVARCHAR .) Remember how PostgreSQLs insistence on a single text encoding per database makes everything work smoothly Not so in MS-land: As with earlier versions of SQL Server, data loss during code page translations is not reported. link In other words, MS SQL Server might corrupt your data, and you wont know about it until something else goes wrong. This is, quite simply, a deal-breaker. A data analytics platform which might silently change, corrupt or lose your data is an enormous liability. Consider the absurdity of forking out for a server using expensive ECC RAM as a defence against data corruption caused by cosmic rays, and then running software on it which might corrupt your data anyway. Date and time types PostgreSQL: you get DATE. TIME. TIMESTAMP and TIMESTAMP WITH TIME ZONE. all of which do exactly what you would expect. They also have fantastic range and precision, supporting microsecond resolution from the 5th millennium BC to almost 300 millennia in the future. They accept input in a wide variety of formats and the last one has full support for time zones. They can be converted to and from Unix time, which is very important for interoperability with other systems. They can take the special values infinity and - infinity. This is not a metaphysico-theologico-philosophical statement, but a hugely useful semantic construction. For example, set a users password expiry date to infinity to denote that they do not have to change their password. The standard way of doing this is to use NULL or some date far in the future, but these are clumsy hacks ndash they both involve putting inaccurate information in the database and writing application logic to compensate. What happens when a developer sees NULL or 3499-12-31. If youre lucky, he knows the secret handshakes and isnt confused by it. If not, he assumes either that the date is unknown or that it really does refer to the 4th millennium, and you have a problem. The cumulative effect of hacks, workarounds and kludges like this is unreliable systems, unhappy programmers and increased business risk. Helpful semantics like infinity and - infinity allow you to say what you mean and write consistent, readable application logic. They also support the INTERVAL type, which is so useful it has its own section right after this one. Casting and conversion of date and time types is easy and intuitive - you can cast any type to TEXT. and the tochar and totimestamp functions give you ultimate flexibility, allowing conversion in both directions using format strings. For example: and, going in the other direction, As usual, it just works. As a data analyst, I care very much about a databases date-handling ability, because dates and times tend to occur in a multitude of different formats and they are usually critical to the analysis itself. MS SQL Server: dates can only have positive 4-digit years, so they are restricted to 0001 AD to 9999 AD. They do not support infinity and - infinity. They do not support interval types, so date arithmetic is tedious and clunky. You can convert them to and from UNIX time, but its a hack involving adding seconds to the UNIX epoch, 1970-01-01T00:00:00Z, which you therefore have to know and be willing to hardcode into your application. Date conversion deserves a special mention, because even by MS SQL Servers shoddy standards its bloody awful. The CONVERT function takes the place of PostgreSQLs tochar and totimestamp. but it works like this: Thats right ndash youre simply expected to know that 126 is the code for converting strings in that format to a datetime. MSDN provides a table of these magic numbers. I didnt give the same example as for PostgreSQL because I couldnt find a magic number corresponding to the right format for Saturday 03 Feb 2001. If someone gave you data with such dates in it, I guess youd have to do some string manipulation (pity the string manipulation facilities in MS SQL Server are almost non-existent. ) PostgreSQL: the INTERVAL type represents a period of time, such as 30 microseconds or 50 years. It can also be negative, which may seem counterintuitive until you remember that the word ago exists. PostgreSQL also knows about ago, in fact, and will accept strings like 1 day ago as interval values (this will be internally represented as an interval of -1 days). Interval values let you do intuitive date arithmetic and store time durations as first-class data values. They work exactly as you expect and can be freely casted and converted to and from anything which makes sense. MS SQL Server: no support for interval types. PostgreSQL: arrays are supported as a first-class data type, meaning fields in tables, variables in PLPGSQL, parameters to functions and so on can be arrays. Arrays can contain any data type you like, including other arrays. This is very, very useful . Here are some of the things you can do with arrays: Store the results of function calls with arbitrarily-many return values, such as regex matches Represent a string as integer word IDs, for use in fast text matching algorithms Aggregation of multiple data values across groups, for efficient cross-tabulation Perform row operations using multiple data values without the expense of a join Accurately and semantically represent array data from other applications in your tool stack Feed array data to other applications in your tool stack I cant think of any programming languages which dont support arrays, other than crazy ones like Brainfuck and Malbolge. Arrays are so useful that they are ubiquitous. Any system, especially a data analytics platform, which doesnt support them is crippled. MS SQL Server: no support for arrays. PostgreSQL: full support for JSON, including a large set of utility functions for transforming between JSON types and tables (in both directions), retreiving values from JSON data and constructing JSON data. Parsing and stringification are handled by simple casts, which as a rule in PostgreSQL are intelligent and robust. The PLV8 procedural language works as seamlessly as you would expect with JSON ndash in fact, a JSON-type internal state in a custom aggregate (see this example) whose transition function is written in PLV8 provides a declarativeimperative best-of-both-worlds so powerful and convenient it feels like cheating. JSON (and its variants, such as JSONB) is of course the de facto standard data transfer format on the web and in several other data platforms, such as MongoDB and ElasticSearch, and in fact any system with a RESTful interface. Aspiring Analytics-as-a-Service providers take note. MS SQL Server: no support for JSON. PostgreSQL: HSTORE is a PostgreSQL extension which implements a fast key-value store as a data type. Like arrays, this is very useful because virtually every high-level programming language has such a concept (and virtually every programming language has such a concept because it is very useful). JavaScript has objects, PHP has associative arrays, Python has dicts, C has std::map and std::unorderedmap. Go has maps. وما إلى ذلك وهلم جرا. In fact, the notion of a key-value store is so important and useful that there exists a whole class of NoSQL databases which use it as their main storage paradigm. Theyre called, uh, key-value stores . There are also some fun unexpected uses of such a data type. A colleague recently asked me if there was a good way to deduplicate a text array. Heres what I came up with: i. e. put the array into both the keys and values of an HSTORE, forcing a dedupe to take place (since key values are unique) then retrieve the keys from the HSTORE. Theres that PostgreSQL versatility again. MS SQL Server: No support for key-value storage. Range types PostgreSQL: range types represent, well, ranges. Every database programmer has seen fields called startdate and enddate. and most of them have had to implement logic to detect overlaps. Some have even found, the hard way, that joins to ranges using BETWEEN can go horribly wrong, for a number of reasons. PostgreSQLs approach is to treat time ranges as first-class data types. Not only can you put a range of time (or INT s or NUMERIC s or whatever) into a single data value, you can use a host of built-in operators to manipulate and query ranges safely and quickly. You can even apply specially-developed indices to them to massively accelerate queries that use these operators. In short, PostgreSQL treats ranges with the importance they deserve and gives you the tools to work with them effectively. Im trying not to make this document a mere list of links to the PostgreSQL docs, but just this once, I suggest you go and see for yourself . (Oh, and if the pre-defined types dont meet your needs, you can define your own ones. You dont have to touch the source code, the database exposes methods to allow you to do this.) MS SQL Server: no support for range types. NUMERIC and DECIMAL PostgreSQL: NUMERIC (and DECIMAL - theyre symonyms) is near-as-dammit arbitrary precision: it supports 131,072 digits before the decimal point and 16,383 digits after the decimal point. If youre running a bank, doing technical computation, landing spaceships on comets or simply doing something where you cannot tolerate rounding errors, youre covered. MS SQL Server: NUMERIC (and DECIMAL - theyre symonyms) supports a maximum of 38 decimal places of precision in total. PostgreSQL: XML is supported as a data type and the database offers a variety of functions for working with XML. Xpath querying is supported. MS SQL Server: finally, some good news MS SQL Server has an XML data type too, and offers plenty of support for working with it. (Shame XML is going out of style. ) 1.9. Scriptability PostgreSQL can be driven entirely from the command line, and since it works in operating systems with proper command lines (i. e. everything except Windows), this is highly effective and secure. You can SSH to a server and configure PostgreSQL from your mobile phone, if you have to (I have done so more than once). You can automate deployment, performance-tuning, security, admin and analytics tasks with scripts. Scripts are very important because unlike GUI processes, they can be copied, version-controlled, documented, automated, reviewed, batched and diffed. For serious work, text editors and command lines are king. MS SQL Server is driven through a GUI. I dont know to what extent it can be automated with Powershell I do know that if you Google for help and advice on getting things done in MS SQL Server, you get a lot of people saying right-click on your database, then click on Tasks. . GUIs do not work well across low-bandwidth or high-latency connections text-based shells do. As I write I am preparing to do some sysadmin on a server 3,500 miles away, on a VPN via a shaky WiFi hotspot, and thanking my lucky stars its an UbuntuPostgreSQL box. (Who on Earth wants a GUI on a server anyway) 1.10. Good external language bindings PostgreSQL is very, very easy to connect to and use from programming environments, because libpq, its external API, is very well-designed and very well-documented. This means that writing utilities which plug into PostgreSQL is very easy and convenient, which makes the database more versatile and a better fit in an analytics stack. On many occasions I have knocked up a quick program in C or C which connects to PostgreSQL, pulls some data out and does some heavy calculations on it, e. g. using multithreading or special CPU instructions - stuff the database itself is not suitable for. I have also written C programs which use setuid to allow normal users to perform certain administrative tasks in PostgreSQL. It is very handy to be able to do this quickly and neatly. MS SQL Servers external language bindings vary. Sometimes you have to install extra drivers. Sometimes you have to create classes to store the data you are querying, which means knowing at compile time what that data looks like. Most importantly, the documentation is a confusing, tangled mess, which makes getting this done unnecessarily time-consuming and painful. 1.11. Documentation Data analytics is all about being a jack of all trades. We use a very wide variety of programming languages and tools. (Off the top of my head, the programmingscripting languages I currently work with are PHP, JavaScript, Python, R, C, C, Go, three dialects of SQL, PLPGSQL and Bash.) It is hopelessly unrealistic to expect to learn everything you will need to know up front. Getting stuff done frequently depends on reading documentation. A well-documented tool is more useful and allows analysts to be more productive and produce higher-quality work. PostgreSQLs documentation is excellent. Everything is covered comprehensively but the documents are not merely reference manuals ndash they are full of examples, hints, useful advice and guidance. If you are an advanced programmer and really want to get stuck in, you can also simply read PostgreSQLs source code, all of which is openly and freely available. The docs also have a sense of humour: The first century starts at 0001-01-01 00:00:00 AD, although they did not know it at the time. This definition applies to all Gregorian calendar countries. There is no century number 0, you go from -1 century to 1 century. If you disagree with this, please write your complaint to: Pope, Cathedral Saint-Peter of Roma, Vatican. MS SQL Servers documentation is all on MSDN, which is an unfriendly, sprawling mess. Because Microsoft is a large corporation and its clients tend to be conservative and humourless, the documentation is business appropriate ndash i. e. officious, boring and dry. Not only does it lack amusing references to the historical role of Catholicism in the development of date arithmetic, it is impenetrably stuffy and hidden behind layers of unnecessary categorisation and ostentatiously capitalised official terms. Try this: go to the product documentation page for MS SQL Server 2012 and try to get from there to something useful. Or try reading this gem (not cherry-picked, I promise): A report part definition is an XML fragment of a report definition file. You create report parts by creating a report definition, and then selecting report items in the report to publish separately as report parts. Has the word report started to lose its meaning yet (And, of course, MS SQL Server is closed source, so you cant look at the source code. Yes, I know source code is not the same as documentation, but it is occasionally surprisingly useful to be able to simply grep the source for a relevant term and cast an eye over the code and the comments of the developers. Its easy to think of our tools as magical black boxes and to forget that even something as huge and complex as an RDBMS engine is, after all, just a list of instructions written by humans in a human-readable language.) 1.12. Logging thats actually useful MS SQL Servers logs are spread across several places - error logs, Windows event log, profiler logs, agent logs and setup log. To access these you need varying levels of permissions and you have to use various tools, some of which are GUI-only. Maybe things like Splunk can help to automate the gathering and parsing of these logs. I havent tried, nor do I know anyone else who has. Google searches on the topic produce surprisingly little information, surprisingly little of which is of any use. PostgreSQLs logs, by default, are all in one place. By changing a couple of settings in a text file, you can get it to log to CSV (and since were talking about PostgreSQL, its proper CSV, not broken CSV). You can easily set the logging level anywhere from dont bother logging anything to full profiling and debugging output. The documentation even contains DDL for a table into which the CSV-format logs can be conveniently imported. You can also log to stderr or the system log or to the Windows event log (provided youre running PostgreSQL in Windows, of course). The logs themselves are human-readable and machine-readable and contain data likely to be of great value to a sysadmin. Who logged in and out, at what times, and from where Which queries are being run and by whom How long are they taking How many queries are submitted in each batch Because the data is well-formatted CSV, it is trivially easy to visualise or analyse it in R or PostgreSQL itself or Pythons matplotlib or whatever you like. Overlay this with the wealth of information that Linux utilities like top, iotop and iostat provide and you have easy, reliable access to all the server telemetry you could possibly need. 1.13. Support How is PostgreSQL going to win this one Everyone knows that expensive flagship enterprise products by big commercial vendors have incredible support, whereas free software doesnt have any Of course, this is nonsense. Commercial products have support from people who support it because they are paid to. They do the minimum amount necessary to satisfy the terms of the SLA. As I type this, some IT professionals I know are waiting for a major hardware vendor to help them with a performance issue in a 40,000 server. Theyve been discussing it with the vendor for weeks theyve spent time and effort running extensive tests and benchmarks at the vendors request and so far the vendors reaction has been a mixture of incompetence, fecklessness and apathy. The 40,000 server is sitting there performing very, very slowly, and its users are working 70-hour weeks to try to stay on schedule. Over the years I have seen many, many problems with expensive commercial software ndash everything from bugs to performance issues to incompatibility to insufficient documentation. Sometimes these problems cause a late night or a lost weekend for the user sometimes they cause missed deadlines and angry clients sometimes it goes as far as legal and reputational risk. Every single time, the same thing happens: the problem is fixed by the end users, using a combination of blood, sweat, tears, Google and late nights. I have never seen the vendor swoop to the rescue and make everything OK. So what is the support for PostgreSQL like On the two occasions I have asked the PostgreSQL mailing list for help, I have received replies from Tom Lane within 24 hours. Take a moment to click on the link and read the wiki - the guy is not just a lead developer of PostgreSQL, hes a well-known computer programmer. Needless to say, his advice is as good as advice gets. On one of the occasions, where I asked a question about the best way to implement cross-function call persistent memory allocation, Lane replied with the features of PostgreSQL I should study and suggested solutions to my problem ndash and for good measure he threw in a list of very good reasons why my tentative solution (a C static variable) was rubbish. You cant buy that kind of support, but you can get it from a community of enthusiastic open source developers. Oh, did I mention that the total cost of the database software and the helpful advice and recommendations from the acclaimed programmer was 0.00 Note that by support I mean help getting it to work properly. Some people (usually people who dont actually use the product) think of support contracts more in terms of legal coverage ndash theyre not really interested in whether help is forthcoming or not, but they like that theres someone to shout at and, more importantly, blame. I discuss this too, here . (And if youre really determined to pay someone to help you out, you can of course go to any of the organisations which provide professional support for PostgreSQL. Unlike commercial software vendors, whose support functions are secondary to their main business of selling products, these organisations live or die by the quality of the support they provide, so it is very good.) 1.14. Flexible, scriptable database dumps Ive already talked about scriptability, but database dumps are very important, so they get their own bit here. PostgreSQLs dump utility is extremely flexible, command-line driven (making it easily automatable and scriptable) and well-documented (like the rest of PostgreSQL). This makes database migration, replication and backups ndash three important and scary tasks ndash controllable, reliable and configurable. Moreover, backups can be in a space-effecient compressed format or in plain SQL, complete with data, making them both human-readable and executable. A backup can be of a single table or of a whole database cluster. The user gets to do exactly as he pleases. With a little work and careful selection of options, it is even possible to make a DDL-only plain SQL PostgreSQL backup executable in a different RDBMS. MS SQL Servers backups are in a proprietary, undocumented, opaque binary format. 1.15. Reliability Neither PostgreSQL nor MS SQL Server are crash-happy, but MS SQL Server does have a bizarre failure mode which I have witnessed more than once: its transaction logs become enormous and prevent the database from working. In theory the logs can be truncated or deleted but the documentation is full of dire warnings against such action. PostgreSQL simply sits there working and getting things done. I have never seen a PostgreSQL database crash in normal use. PostgreSQL is relatively bug-free compared to MS SQL Server. I once found a bug in PostgreSQL 8.4 ndash it was performing a string distance calculation algorithm wrongly. This was a problem for me because I needed to use the algorithm in some fuzzy deduplication code I was writing for work. I looked up the algorithm on Wikipedia, gained a rough idea of how it works, found the implementation in the PostgreSQL source code, wrote a fix and emailed it to one of the PostgreSQL developers. In the next release of PostgreSQL, version 9.0, the bug was fixed. Meanwhile, I applied my fix to my own installation of PostgreSQL 8.4, re-compiled it and kept working. This will be a familiar story to many of the users of PostgreSQL, and indeed any large piece of open source software. The community benefits from high-quality free software, and individuals with the appropriate skills do what they can to contribute. Everyone wins. With a closed-source product, you cant fix it yourself ndash you just raise a bug report, cross your fingers and wait. If MS SQL Server were open source, section 1.1 above would not exist, because I (and probably thousands of other frustrated users) would have damn well written a proper CSV parser and plumbed it in years ago. 1.16. Ease of installing and updating Does this matter Well, yes. Infrastructure flexibility is more important than ever and that trend will only continue. Gone are the days of the big fat server install which sits untouched for years on end. These days its all about fast, reliable, flexible provisioning and keeping up with cutting-edge features. Also, as the saying goes, time is money. I have installed MS SQL Server several times. I have installed PostgreSQL more times than I can remember - probably at least 50 times. Installing MS SQL Server is very slow. It involves immense downloads (who still uses physical install media) and lengthy, important-sounding processes with stately progress bars. It might fail if you dont have the right version of or the right Windows service pack installed. Its the kind of thing your sysadmin needs to find a solid block of time for. Installing PostgreSQL the canonical way ndash from a Linux repo ndash is as easy as typing a single command, like this: How long does it take I just tested this by spinning up a cheap VM in the cloud and installing PostgreSQL using the above command. It took 16 seconds . Thats the total time for the download and the install. As for updates, any software backed by a Linux repo is trivially easily patched and updated by pulling updates from the repo. Because repos are clever and PostgreSQL is not obscenely bloated, downloads are small and fast and application of updates is efficient. I dont know how easy MS SQL Server is to update. I do know that a lot of production MS SQL Server boxes in certain organisations are still on version 2008 R2 though. 1.17. The contrib modules As if the enormous feature set of PostgreSQL is not enough, it comes with a set of extensions called contrib modules. There are libraries of functions, types and utilities for doing certain useful things which dont quite fall into the core feature set of the server. There are libraries for fuzzy string matching, fast integer array handling, external database connectivity, cryptography, UUID generation, tree data types and loads, loads more. A few of the modules dont even do anything except provide templates to allow developers and advanced users to develop their own extensions and custom functionality. Of course, these extensions are trivially easy to install. For example, to install the fuzzystrmatch extension you do this: 1.18. Its free PostgreSQL is free as in freedom and free as in beer. Both types of free are extremely important. The first kind, free as in freedom, means PostgreSQL is open-source and very permissively licensed. In practical terms, this means that you can do whatever you want with it, including distributing software which includes it or is based on it. You can modify it in whatever way you see fit, and then you can distribute the modifications to whomever you like. You can install it as many times as you like, on whatever you like, and then use it for any purpose you like. The second kind, free as in beer, is important for two main reasons. The first is that if, like me, you work for a large organisation, spending that organisations money involves red tape. Red tape means delays and delays sap everyones energy and enthusiasm and suppress innovation. The second reason is that because PostgreSQL is free, many developers, experimenters, hackers, students, innovators, scientists and so on (the brainy-but-poor crowd, essentially) use it, and it develops a wonderful community. This results in great support (as I mentioned above ) and contributions from the intellectual elite. It results in a better product, more innovation, more solutions to problems and more time and energy spent on the things that really matter. 2. The counterarguments For reasons which have always eluded me, people often like to ignore all the arguments and evidence above and try to dismiss the case for PostgreSQL using misconceptions, myths, red herrings and outright nonsense. Stuff like this: 2.1. But a big-name vendor provides a safety net No it doesnt. This misconception is a variant of the old adage no-one ever got fired for buying IBM. Hilariously, if you type that into Google, the first hit is the Wikipedia article on fear, uncertainty and doubt - and even more hilariously, the first entry in the examples section is Microsoft. I promise I did not touch the Wikipedia article, I simply found it like that. In client-serving data analytics, you just have to get it right. If you destroy your reputation by buggering up an important job, your software vendor will not build you a new reputation. If you get sued, then maybe you can recover costs from your vendor - but only if they did something wrong. Microsoft isnt doing anything technically wrong with MS SQL Server, theyre simply releasing a terrible product and being up front about how terrible it is. The documentation admits its terrible. It works exactly as designed the problem is that the design is terrible. You cant sue Microsoft just because you didnt do your due diligence when you picked a database. Even if you somehow do successfully blame the vendor, you still have a messed up job and an angry client, who wont want to hear about MS SQL Servers unfortunate treatment of UTF-16 text as UCS-2, resulting in truncation of a surrogate pair during a substring operation and subsequent failure to identify an incriminating keyword. At best they will continue to demand results (and probably a discount) at worst, they will write you off as incompetent ndash and who could blame them, when you trusted their job to a RDBMS whose docs unapologetically acknowledge that it might silently corrupt your data Since the best way to minimise risk is to get the job done right, the best tool to use is the one which is most likely to let you accomplish that. In this case, thats PostgreSQL. 2.2. But what happens if the author of PostgreSQL dies Same thing that happens if the author of MS SQL Server dies ndash nothing. Also, needless to say, the author of PostgreSQL is as meaningless as the author of MS SQL Server. Theres no such thing. A senior individual with an IT infrastructure oversight role actually asked me this question once (about Hadoop, not PostgreSQL). There just seems to be a misconception that all open-source software is written by a loner who lives in his mums basement. This is obviously not true. Large open source projects like PostgreSQL and Hadoop are written by teams of highly skilled developers who are often commercially sponsored. At its heart, the development model of PostgreSQL is just like the development model of MS SQL Server: a large team of programmers is paid by an organisation to write code. There is no single point of failure. There is at least one key difference, though: PostgreSQLs source code is openly available and is therefore reviewed, tweaked, contributed to, improved and understood by a huge community of skilled programmers. Thats one of the reasons why its so much better. Crucially, because open-source software tends to be written by people who care deeply about its quality (often because they have a direct personal stake in ensuring that the software works as well as possible), it is often of the very highest standard (PostgreSQL, Linux, MySQL, XBMC, Hadoop, Android, VLC, Neo4JS, Redis, 7Zip, FreeBSD, golang, PHP, Python, R, Nginx, Apache, node. js, Chrome, Firefox. ). On the other hand, commercial software is often designed by committee, written in cube farms and developed without proper guidance or inspiration (Microsoft BOB, RealPlayer, Internet Explorer 6, iOS Maps, Lotus Notes, Windows ME, Windows Vista, QuickTime, SharePoint. ) 2.3. But open-source software isnt securereliabletrustworthyenterprise-readyetc Theres no kind way to say this: anyone who says such a thing is very ignorant, and you should ignore them ndash or, if youre feeling generous, educate them. Well, I guess Im feeling generous: Security: the idea that closed-source is more secure is an old misconception, for many good reasons which I will briefly summarise (but do read the links ndash theyre excellent): secrecy isnt the same as security an open review process is more likely to find weaknesses than a closed one properly reviewed open source software is difficult or impossible to build a back door into. If you prefer anecdotal evidence to logical arguments, consider that Microsoft Internet Explorer 6, once a flagship closed-source commercial product, is widely regarded as the least secure software ever produced, and that Rijndael, the algorithm behind AES, which governments the world over use to protect top secret information, is an open standard. In any case, relational databases are not security software. In the IT world, security is a bit like support our troops in the USA or think of the children in the UK ndash a trump card which overrules all other considerations, including common sense and evidence. لا تسقط لذلك. Reliability: Windows was at one point renowned for its instability, although these days things are much better. (Supposedly, Windows 9x would spontaneously crash when its internal uptime counter, counting in milliseconds, exceeded the upper bound of an unsigned 32-bit integer, i. e. after 2 32 milliseconds or about 49.7 days. I have always wanted to try this.) Linux dominates the server space, where reliability is key, and Linux boxes routinely achieve uptimes measured in years. Internet Explorer has always (and still does) failed to comply with web standards, causing websites to break or function improperly the leaders in the field are the open-source browsers Chrome and Firefox. Lotus Notes is a flaky, crash-happy, evil mess Thunderbird just works. And I have more than once seen MS SQL Server paralyse itself by letting transaction log files blow up, something PostgreSQL does not do. Trustworthiness: unless youve been living under a rock for the past couple of years, you know who Edward Snowden is. Thanks to him, we know exactly what you cannot trust: governments and the large organisations they get their hooks into. Since Snowden went public, it is clear that NSA back doors exist in a vast array of products, both hardware and software, that individuals and organisations depend on to keep their data secure. The only defence against this is open code review. The only software that can be subjected to open code review is open source software. If you use proprietary closed-source software, you have no way of knowing what it is really doing under the hood. And thanks to Mr. Snowden, we now know that there is an excellent chance it is giving your secrets away. At the time of writing, 485 of the top 500 supercomputers in the world run on Linux. As of July 2014, Nginx and Apache, two open-source web servers, power over 70 of the million busiest sites on the net. The computers on the International Space Station (the most expensive single man-made object in existence) were moved from Windows to Linux in 2013 in an attempt to improve stability and reliability. The back-end database of Skype (ironically now owned by Microsoft) is PostgreSQL. GCHQ recently reported that Ubuntu Linux is the most secure commonly-available desktop operating system. The Large Hadron Collider is the worlds largest scientific experiment. Its supporting IT infrastructure, the Worldwide LHC Computing Grid, is the worlds largest computing grid. It handles 30 PB of data per year and spans 36 countries and over 170 computing centres. It runs primarily on Linux. Hadoop, the current darling of many large consultancies looking to earn Big Data credentials, is open-source. Red Hat Enterprise Linux CEntOS (Community Enterprise OS) SUSE Linux Enterprise Server Oracle Linux IBM Enterprise Linux Server etc. The idea that open-source software is not for the enterprise is pure bullshit. If you work in tech for an organisation which disregards open source, enjoy it while it lasts. They wont be around for long. 2.4. But MS SQL Server can use multiple CPU cores for a single query This is an advantage for MS SQL Server whenever youre running a query which is CPU-bound and not IO-bound. In real-life data analytics this happens approximately once every three blue moons. On those very rare, very specific occasions when CPU power is truly the bottleneck, you almost certainly should be using something other than an RDBMS. RDBMSes are not for number crunching. This advantage goes away when a server has to do many things at once (as is almost always the case). PostgreSQL uses multiprocessing ndash different connections run in different processes, and hence on different CPU cores. The scheduler of the OS takes care of this. Also, I suspect this query parallelism is what necessitates the merge method which MS SQL Server custom aggregate assemblies are required to implement bits of aggregation done in different threads have to be combined with each other, MapReduce-style. I further suspect that this mechanism is what prevents MS SQL Server aggregates from accepting ORDER BY clauses. So, congratulations ndash you can use more than one CPU core, but you cant do a basic string roll-up. 2.5. But I have MS SQL Server skills, not PostgreSQL skills Youd rather stick with a clumsy, awkward, unreliable system than spend the trivial amount of effort it takes to learn a slightly different dialect of a straightforward querying language Well, just hope you never end up in a job interview with me. 2.6. But a billion Microsoft users cant all be wrong This is a real-life quotation as well, from a senior data analyst I used to work with. I replied well there are 1.5 billion Muslims and 1.2 billion Catholics. They cant all be right. Ergo, a billion people most certainly can be wrong. (In this particular case, 2.7 billion people are wrong.) 2.7. But if it were really that good then it wouldnt be free People actually say this too. I feel sorry for these people, because they are unable to conceive of anyone doing anything for any reason other than monetary gain. Presumably they are also unaware of the existence of charities or volunteers or unpaid bloggers or any of the other things people do purely out of a desire to contribute or to create something or simply to take on a challenge. This argument also depends on an assumption that open source development has no benefit for the developer, which is nonsense. The reason large enterprises open-source their code and then pay their teams to continue working on it is because doing so benefits them. If you open up your code and others use it, then you have just gained a completely free source of bug fixes, feature contributions, code review, product testing and publicity. If your product is good enough, it is used by enough people that it starts having an influence on standards, which means broader industry acceptance. You then have a favoured position in the market as a provider of support and deployment services for the software. Open-sourcing your code is often the most sensible course of action even if you are completely self-interested. As a case in point, here I am spending my free time writing a web page about how fabulous PostgreSQL is and then paying my own money to host it. Perhaps Teradata or Oracle are just as amazing, but theyre not getting their own pages because I cant afford them, so I dont use them. 2.8. But youre biased No, I have a preference. The whole point of this document is to demonstrate, using evidence, that this preference is justified. If you read this and assume that just because I massively prefer PostgreSQL I must be biased, that means you are biased, because you have refused to seriously consider the possibility that it really is better. If you think theres actual evidence that I really am biased, let me know. 2.9. But PostgreSQL is a stupid name This one is arguably true its pretty awkward. It is commonly mispronounced, very commonly misspelt and almost always incorrectly capitalised. Its a good job that stupidness of name is not something serious human beings take into account when theyre choosing industrial software products. That being said, MS SQL Server is literally the most boring possible name for a SQL Server provided by MS. It has anywhere from six to eight syllables, depending on whether or not you abbreviate Microsoft and whether you say it sequel or ess queue ell, which is far too many syllables for a product name. Microsoft has a thing for very long names though ndash possibly its greatest achievement ever is Microsoft WinFX Software Development Kit for Microsoft Pre-Release Windows Operating System Code-Named Longhorn, Beta 1 Web Setup I count 38 syllables. رائع. 2.10. But SSMS is better than PGAdmin Its slicker, sure. Its prettier. It has code completion, although I always turn that off because it constantly screws things up, and for every time it helps me out with a field or table name, theres at least one occasion when it does something mental, like auto-correcting a common SQL keyword like table to a Microsoft monstrosity like TABULATIONNONTRIVIALDISCOMBOBULATEDMACHIAVELLIANGANGLYONID or something. For actually executing SQL and looking at the results in a GUI, PGAdmin is fine. Its just not spectacular. SSMS is obviously Windows-only. PGAdmin is cross-platform. This is actually quite convenient. You can run PGAdmin in Windows, where you have all your familiar stuff ndash Office, Outlook etc. ndash whilst keeping the back end RDBMS in Linux. This gets you the best of both worlds (even an open source advocate like me admits that if youre a heavy MS Office user, there is no serious alternative). Several guys I work with do this. One point in SSMSs favour is that if you run several row-returning statements in a batch, it will give you all the results. PGAdmin returns only the last result set. This can be a drag when doing data analytics, where you often want to simultaneously query several data sets and compare the results. Theres another thing though: psql. This is PostgreSQLs command-line SQL interface. Its really, really good. It has loads of useful catalog-querying features. It displays tabular data intelligently. It has tab completion which, unlike SSMSs code completion, is actually useful, because it is context sensitive. So, for example, if you type DROP SCHEMA t and hit tab, it will suggest schema names starting with t (or, if there is only one, auto-fill it for you). It lets you jump around in the file system and use ultra-powerful text editors like vim inline. It automatically keeps a list of executed commands. It provides convenient, useful data import and export functionality, including the COPY TO PROGRAM feature which makes smashing use of pipes and command-line utilities to provide another level of flexibility and control of data. It makes intelligent use of screen space. It is fast and convenient. You can use it over an SSH connection, even a slow one. Its only serious disadvantage is that it is unsuitable for people who want to be data analysts, but are scared of command lines and typing on a keyboard. 2.11. But MS SQL Server can import straight from Excel Yes. So what Excel can output to CSV (in a rare moment of sanity, Microsoft made Excels CSV export code work properly) and PostgreSQL can import CSV. Admittedly, its an extra step. Is the ability to import straight from Excel a particularly important feature in an analytics platform anyway 2.12. But PostgreSQL is slower than MS SQL Server A more accurate rephrasing would be MS SQL Server is slightly more forgiving if you dont know what youre doing. For certain operations, PostgreSQL is definitely slower than MS SQL Server ndash the easiest example is probably COUNT(). which is (I think) always instant in MS SQL Server and in PostgreSQL requires a full table scan (this is due to the different concurrency models they use). PostgreSQL is slow out-of-the box because its default configuration uses only a tiny amount of system resources ndash but any system being used for serious work has been tuned properly, so raw out-of-the-box performance is not a worthwhile thing to argue about. I once saw PostgreSQL criticised as slow because it was taking a long time to do some big, complex regex operations on a large table. But everyone knows that regex operations can be very computationally expensive, and in any case, what was PostgreSQL being compared to Certainly not the MS SQL Server boxes, which couldnt do regexes. PostgreSQLs extensive support for very clever indexes, such as range type indexes and trigram indexes, makes it orders of magnitude faster than MS SQL Server for a certain class of operations. But only if you know how to use those features properly. The immense flexibility you get from the great procedural language support and the clever data types allows PostgreSQL-based solutions to outperform MS SQL Server-based solutions by orders of magnitude. See my earlier example . In any case, the argument about speed is never only about computer time it is about developer time too. Thats why high-level languages like PHP and Python are very popular, despite the fact that C kicks the shit out of them when it comes to execution speed. They are slower to run but much faster to use for development. Would you prefer to spend an hour writing maintainable, elegant SQL followed by an hour of runtime, or spend three days writing buggy, desperate workarounds followed by 45 minutes of runtime 2.13. But you never mentioned such-and-such feature of MS SQL Server As I said in the banner and the intro. I am comparing these databases from the point of view of a data analyst, because Im a data analyst and I use them for data analysis. I know about SSRS, SSAS, in-memory column stores and so on, but I havent mentioned them because I dont use them (or equivalent features). Yes, this means this is not a comprehensive comparison of the two databases, and I never said it would be. It also means that if you care mostly about OLTP or data warehousing, you might not find this document very helpful. 2.14. But Microsoft has open-sourced Yeah, mere hours after I wrote all about how theyre a vendor lock-in monster and are anti-open source. Doh. However, lets look at this in context. Remember the almighty ruckus when the Office Open XML standard was being created Microsoft played every dirty trick in the book to ensure that MS Office wouldnt lose its dominance. Successfully, too ndash the closest alternative, LibreOffice, is still not a viable option, largely because of incompatibility with document formats. The OOXML standard that was finally pushed through is immense, bloated, ambiguous, inconsistent and riddled with errors. That debacle also started with an apparent gesture toward open standards on Microsofts part. If that seems harsh or paranoid, lets remember that this is an organisation that has been in legal trouble with both the USA and the EU for monopolistic and anticompetitive behaviour and abuse of market power, in the latter case being fined almost half a billion Euros. Then theres the involvement in SCOs potentially Linux-killing lawsuit against IBM. When Steve Ballmer was CEO he described Linux as a cancer (although Ballmer also said Theres no chance that the iPhone is going to get any significant market share. No chance, so maybe he just likes to talk nonsense). Microsoft has a long-established policy of preferring conquest to cooperation. So, if they play nice for the next few years and their magnanimous gesture ushers in a new era of interoperability, productivity and harmony, I (and millions of developers who want to get on with creating great things instead of bickering over platforms and standards) will be over the moon. For now, thinking that MS has suddenly become all warm and fuzzy would just be naive. 2.15. But youre insultingI dont like your toneyou come across as angryyou sound like a fanboythis is unprofessionalthis is a rant This page is unprofessional by definition ndash Im not being paid to write it. That also means I get to use whatever tone I like, and I dont have to hide the way I feel about things. I hope you appreciate the technical content even if you dont like the way I write if my tone makes this document unreadable for you, then I guess Ive lost a reader and youve lost a web page. Cest la vie.

No comments:

Post a Comment